新榜訊 6月19日,小紅書技術(shù)團隊發(fā)布消息,其深度思考模型借助Test - Time Scaling(測試時擴展)顯著提升了模型推理能力,不過也產(chǎn)生了大量冗余和無效思考情況。小紅書Hi Lab團隊為此提出Think When You Need的強化學(xué)習(xí)訓(xùn)練方式,在不影響最終效果的情況下,實現(xiàn)了動態(tài)CoT能力,讓平均思考長度大幅降低。實驗表明,這一理念在推理及非推理等各類任務(wù)中具有廣泛適用性。此外,團隊還有一項重要發(fā)現(xiàn),在相同任務(wù)下,參數(shù)量大、更為“聰明”的模型所需的思考長度更短,該現(xiàn)象與當前深度思考模型的表現(xiàn)相悖,卻高度契合人類認知。
掃描二維碼
手機瀏覽
小紅書Hi Lab團隊提出可大幅降低平均思考長度的強化學(xué)習(xí)訓(xùn)練方式
分享文章鏈接
相似推薦

字節(jié)跳動ByteBrain團隊提出秒級推理強化學(xué)習(xí)VMR系統(tǒng)
新榜訊 6月5日,字節(jié)跳動技術(shù)團隊通過微信公眾號發(fā)布消息。

豆包測試新版深度思考功能,支持邊想邊搜
新榜訊 AI 助手豆包于近日對新版“深度思考”功能展開測試。
跳動.jpeg)
字節(jié)豆包大模型團隊提出稀疏模型架構(gòu)UltraMem
新榜訊 2 月 12 日消息,據(jù)字節(jié)跳動豆包大模型團隊透露,其 Foundation 團隊于近期推出 UltraMem,這是一種能將計算和參數(shù)解耦的稀疏模型架構(gòu),在確保模型效果的基礎(chǔ)上成功化解了推理的訪存難題。