新榜訊 6月19日,小紅書(shū)技術(shù)團(tuán)隊(duì)發(fā)布消息,其深度思考模型借助Test - Time Scaling(測(cè)試時(shí)擴(kuò)展)顯著提升了模型推理能力,不過(guò)也產(chǎn)生了大量冗余和無(wú)效思考情況。小紅書(shū)Hi Lab團(tuán)隊(duì)為此提出Think When You Need的強(qiáng)化學(xué)習(xí)訓(xùn)練方式,在不影響最終效果的情況下,實(shí)現(xiàn)了動(dòng)態(tài)CoT能力,讓平均思考長(zhǎng)度大幅降低。實(shí)驗(yàn)表明,這一理念在推理及非推理等各類(lèi)任務(wù)中具有廣泛適用性。此外,團(tuán)隊(duì)還有一項(xiàng)重要發(fā)現(xiàn),在相同任務(wù)下,參數(shù)量大、更為“聰明”的模型所需的思考長(zhǎng)度更短,該現(xiàn)象與當(dāng)前深度思考模型的表現(xiàn)相悖,卻高度契合人類(lèi)認(rèn)知。
掃描二維碼
手機(jī)瀏覽
小紅書(shū)Hi Lab團(tuán)隊(duì)提出可大幅降低平均思考長(zhǎng)度的強(qiáng)化學(xué)習(xí)訓(xùn)練方式
分享文章鏈接
上一篇

微博升級(jí)防網(wǎng)暴機(jī)制,將主動(dòng)為被網(wǎng)暴用戶(hù)開(kāi)啟“一鍵防護(hù)”
新榜訊 6月19日,微博發(fā)布公告表示,站方監(jiān)測(cè)發(fā)現(xiàn),部分用戶(hù)在參與爭(zhēng)議話(huà)題討論時(shí),公開(kāi)宣稱(chēng)遭受網(wǎng)絡(luò)暴力,這一行為引發(fā)了更多網(wǎng)友間的相互攻擊,進(jìn)一步加劇了網(wǎng)絡(luò)暴力風(fēng)險(xiǎn)。
下一篇
抖音尋人攜手全國(guó)救助站,啟動(dòng)近十年促1.6萬(wàn)次團(tuán)圓
新榜訊 6月19日全國(guó)救助管理機(jī)構(gòu)“開(kāi)放日”當(dāng)天,抖音尋人公益項(xiàng)目受邀參與山東省“開(kāi)放日”活動(dòng),展示其以科技助力尋親的舉措與成效。
跳動(dòng).jpeg)
相似推薦

字節(jié)跳動(dòng)ByteBrain團(tuán)隊(duì)提出秒級(jí)推理強(qiáng)化學(xué)習(xí)VMR系統(tǒng)
新榜訊 6月5日,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)通過(guò)微信公眾號(hào)發(fā)布消息。

豆包測(cè)試新版深度思考功能,支持邊想邊搜
新榜訊 AI 助手豆包于近日對(duì)新版“深度思考”功能展開(kāi)測(cè)試。
跳動(dòng).jpeg)
字節(jié)豆包大模型團(tuán)隊(duì)提出稀疏模型架構(gòu)UltraMem
新榜訊 2 月 12 日消息,據(jù)字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)透露,其 Foundation 團(tuán)隊(duì)于近期推出 UltraMem,這是一種能將計(jì)算和參數(shù)解耦的稀疏模型架構(gòu),在確保模型效果的基礎(chǔ)上成功化解了推理的訪(fǎng)存難題。
上一篇

微博升級(jí)防網(wǎng)暴機(jī)制,將主動(dòng)為被網(wǎng)暴用戶(hù)開(kāi)啟“一鍵防護(hù)”
新榜訊 6月19日,微博發(fā)布公告表示,站方監(jiān)測(cè)發(fā)現(xiàn),部分用戶(hù)在參與爭(zhēng)議話(huà)題討論時(shí),公開(kāi)宣稱(chēng)遭受網(wǎng)絡(luò)暴力,這一行為引發(fā)了更多網(wǎng)友間的相互攻擊,進(jìn)一步加劇了網(wǎng)絡(luò)暴力風(fēng)險(xiǎn)。
下一篇
跳動(dòng).jpeg)
抖音尋人攜手全國(guó)救助站,啟動(dòng)近十年促1.6萬(wàn)次團(tuán)圓
新榜訊 6月19日全國(guó)救助管理機(jī)構(gòu)“開(kāi)放日”當(dāng)天,抖音尋人公益項(xiàng)目受邀參與山東省“開(kāi)放日”活動(dòng),展示其以科技助力尋親的舉措與成效。