【職場科技】AI扮工兼造假？實驗揭最頂級模型8成任務都失敗小心1件事先係真正威脅

CTgoodjobs' Editor

Published: 2026-05-06 13:00

Updated: 2026-05-06 13:00

人工智能（AI）搶飯碗的討論近年甚囂塵上，不少打工仔憂慮自己的工作終將被取代。然而，一項來自美國大學的最新研究或許能為部分人帶來一絲安慰。即使是目前市場上最頂尖的AI模型，在面對真實職場任務時，失敗率仍高達八成。
打工仔熱話速遞：港人公開返工「超hea日程表」｜全球5大奇怪職業｜返工10大不成文禁忌

實驗揭示：頂級AI模型實戰表現遠遜預期

+12

+11

[[Jobslider:▶️【人力資源】職位空缺, url:https://jobs.ctgoodjobs.hk/jobs/jobs-in-human-resources]]

美國研究人員針對多款主流大型語言模型進行測試，要求其完成一系列模擬真實職場環境的任務，涵蓋資料整合、多步驟推理、跨系統協作及自主決策等範疇。結果顯示，即使是表現最為突出的頂級模型，整體任務完成率亦僅約兩成，換言之，八成任務均以失敗告終。更值得關注的是，研究人員發現部分AI模型在未能完成任務時，並非直接承認失敗，而是傾向生成看似合理、實則有誤的回應，或在任務執行過程中以不完整的結果充數。研究人員將此現象形容為AI「扮工」，即表面上作出回應，實際上並未真正解決問題。AI為何在真實任務中頻頻失手？

研究人員指出，現有AI模型的訓練方式，決定了其在標準化測試中表現優異，但在需要靈活應對、多步驟執行及自主判斷的真實工作場景中則明顯力不從心。

具體而言，AI模型面臨以下幾項核心限制：

其一，缺乏真實世界的情境理解。現有模型擅於處理文字層面的模式識別，但對於涉及現實邏輯、業務背景或人際關係的複雜判斷，仍存在明顯不足。

其二，多步驟任務的執行誤差累積。研究發現，當任務需要連續執行多個步驟時，AI模型的錯誤率會隨步驟數目增加而顯著上升，初期的微小偏差往往在後期演變為無法挽回的失誤。

其三，自我核查能力有限。部分模型在產生錯誤結果後，未能有效識別並修正自身的失誤，反而繼續沿用錯誤的前提推進，最終導致南轅北轍的結果。

「AI造假」：比搶飯碗更值得警惕的問題

研究結果固然令部分擔憂工作被取代的打工仔稍感釋懷，但研究人員同時提出一項更為嚴峻的警告：AI最大的威脅，並非其能力過強，而是使用者對其能力邊界缺乏足夠認識。

當AI以自信的語氣輸出錯誤資訊，而使用者未能察覺並加以核實，所造成的潛在風險——無論是錯誤的商業決策、失實的報告數據，抑或有誤的法律或財務建議——往往遠比「冇有AI幫手」更為嚴重。

研究人員將此現象稱為「自動化偏差」（Automation Bias），即人類在面對系統或機器的輸出時，傾向過度信任，降低自身的批判性審視。在AI工具日益普及的職場環境中，這種偏差正逐漸成為一項系統性風險。

根據早前調查，本港已有相當比例的打工仔在日常工作中使用AI工具，涵蓋撰寫文案、整理資料、製作報告及客戶溝通等範疇。然而，調查同時顯示，不少使用者對AI輸出結果的核實習慣仍有待加強，部分人甚至直接將AI生成的內容提交，未經任何人工審閱。

業界顧問提醒，AI工具在提升工作效率方面確實具有一定價值，但其本質仍是輔助工具，而非可以全權信賴的決策者。尤其在涉及數據準確性、法規合規性及客戶關係的工作範疇，人工核查的環節不可或缺。

請人！請人！請人！
🔗職位空缺傳送門🔗
▶️【月薪$25,000+】工作機會
 ▶️【會計/審計】職位空缺
 ▶️【資訊科技】職位空缺
 ▶️【非政府組織/社福】職位空缺