新榜訊 OpenAI 最新研究成果顯示,通過采用 CoT(思維鏈)監(jiān)控手段,能夠有效阻止大模型諸如胡說八道、隱藏真實意圖等惡意行為,成為監(jiān)督超級模型的有力工具之一。此次,OpenAI 將最新發(fā)布的前沿模型 o3-mini 當作被監(jiān)控對象,而以相對較弱的 GPT-4o 模型充任監(jiān)控器。測試是在編碼任務(wù)環(huán)境下進行的,要求 AI 在代碼庫中實現(xiàn)功能并通過單元測試。最終結(jié)果表明,CoT 監(jiān)控器在檢測系統(tǒng)性“獎勵黑客”行為時表現(xiàn)出色,召回率高達 95%,遠遠高于僅監(jiān)控行為的 60%。