新榜訊 OpenAI 最新研究成果顯示,通過采用 CoT(思維鏈)監(jiān)控手段,能夠有效阻止大模型諸如胡說八道、隱藏真實(shí)意圖等惡意行為,成為監(jiān)督超級模型的有力工具之一。此次,OpenAI 將最新發(fā)布的前沿模型 o3-mini 當(dāng)作被監(jiān)控對象,而以相對較弱的 GPT-4o 模型充任監(jiān)控器。測試是在編碼任務(wù)環(huán)境下進(jìn)行的,要求 AI 在代碼庫中實(shí)現(xiàn)功能并通過單元測試。最終結(jié)果表明,CoT 監(jiān)控器在檢測系統(tǒng)性“獎勵黑客”行為時表現(xiàn)出色,召回率高達(dá) 95%,遠(yuǎn)遠(yuǎn)高于僅監(jiān)控行為的 60%。