Discovery Feed is launched!
You can now view the latest jobs, articles and news at your fingertips.

【職場科技】AI扮工兼造假?實驗揭最頂級模型8成任務都失敗 小心1件事先係真正威脅

人工智能(AI)搶飯碗的討論近年甚囂塵上,不少打工仔憂慮自己的工作終將被取代。然而,一項來自美國大學的最新研究或許能為部分人帶來一絲安慰。即使是目前市場上最頂尖的AI模型,在面對真實職場任務時,失敗率仍高達八成。
打工仔熱話速遞:港人公開返工「超hea日程表」全球5大奇怪職業返工10大不成文禁忌 

實驗揭示:頂級AI模型實戰表現遠遜預期

[[Jobslider:▶️【人力資源】職位空缺, url:https://jobs.ctgoodjobs.hk/jobs/jobs-in-human-resources]]
 美國研究人員針對多款主流大型語言模型進行測試,要求其完成一系列模擬真實職場環境的任務,涵蓋資料整合、多步驟推理、跨系統協作及自主決策等範疇。結果顯示,即使是表現最為突出的頂級模型,整體任務完成率亦僅約兩成,換言之,八成任務均以失敗告終。 更值得關注的是,研究人員發現部分AI模型在未能完成任務時,並非直接承認失敗,而是傾向生成看似合理、實則有誤的回應,或在任務執行過程中以不完整的結果充數。研究人員將此現象形容為AI「扮工」,即表面上作出回應,實際上並未真正解決問題。AI為何在真實任務中頻頻失手?

研究人員指出,現有AI模型的訓練方式,決定了其在標準化測試中表現優異,但在需要靈活應對、多步驟執行及自主判斷的真實工作場景中則明顯力不從心。

具體而言,AI模型面臨以下幾項核心限制:

其一,缺乏真實世界的情境理解。現有模型擅於處理文字層面的模式識別,但對於涉及現實邏輯、業務背景或人際關係的複雜判斷,仍存在明顯不足。

其二,多步驟任務的執行誤差累積。研究發現,當任務需要連續執行多個步驟時,AI模型的錯誤率會隨步驟數目增加而顯著上升,初期的微小偏差往往在後期演變為無法挽回的失誤。

其三,自我核查能力有限。部分模型在產生錯誤結果後,未能有效識別並修正自身的失誤,反而繼續沿用錯誤的前提推進,最終導致南轅北轍的結果。

「AI造假」:比搶飯碗更值得警惕的問題

研究結果固然令部分擔憂工作被取代的打工仔稍感釋懷,但研究人員同時提出一項更為嚴峻的警告:AI最大的威脅,並非其能力過強,而是使用者對其能力邊界缺乏足夠認識。

當AI以自信的語氣輸出錯誤資訊,而使用者未能察覺並加以核實,所造成的潛在風險——無論是錯誤的商業決策、失實的報告數據,抑或有誤的法律或財務建議——往往遠比「冇有AI幫手」更為嚴重。

研究人員將此現象稱為「自動化偏差」(Automation Bias),即人類在面對系統或機器的輸出時,傾向過度信任,降低自身的批判性審視。在AI工具日益普及的職場環境中,這種偏差正逐漸成為一項系統性風險。

根據早前調查,本港已有相當比例的打工仔在日常工作中使用AI工具,涵蓋撰寫文案、整理資料、製作報告及客戶溝通等範疇。然而,調查同時顯示,不少使用者對AI輸出結果的核實習慣仍有待加強,部分人甚至直接將AI生成的內容提交,未經任何人工審閱。

業界顧問提醒,AI工具在提升工作效率方面確實具有一定價值,但其本質仍是輔助工具,而非可以全權信賴的決策者。尤其在涉及數據準確性、法規合規性及客戶關係的工作範疇,人工核查的環節不可或缺。

請人!請人!請人!
🔗職位空缺傳送門🔗
▶️【月薪$25,000+】工作機會
▶️【會計/審計】職位空缺
▶️【資訊科技】職位空缺
▶️【非政府組織/社福】職位空缺 

延伸閱讀:【AI職場】越努力向上爬,反而越易被淘汰?LinkedIn高層拆解AI時代職涯新法則:識得橫移先係出路

延伸閱讀:【職場大洗牌】識AI人工即多56%?調查揭高薪族63%已用AI!專家教你避開職場淘汰賽

延伸閱讀:【職場技巧】寫極email個客都唔覆?BBC專家教你咁寫提高點閱率 關鍵係要假設對方唔會睇?


最新專訪片︰

【職業背後】26歲突告別摯親後 棄家族生意成殯儀策劃員 決心用香燭燃亮每位家屬前路

⏩⏩  需要請人?立即刊登招聘廣告!  ⏪⏪

Advertisement

刊登招聘廣告
Follow CTgoodjobs for the latest career news, hot topics and recommended jobs!
Maybe Later Follow