新榜訊 4 月 10 日,字節(jié)跳動豆包大模型團(tuán)隊重磅開源首個多語言類 SWE 數(shù)據(jù)集——Multi-SWE-bench。該數(shù)據(jù)集能夠用于評估并增強(qiáng)大模型“自動修 Bug”的能力。在 SWE-bench 的基礎(chǔ)之上,Multi-SWE-bench 開創(chuàng)性地涵蓋了除 Python 之外的 7 種主流編程語言,成為名副其實面向“全棧工程”的評測基準(zhǔn)。其數(shù)據(jù)全部源自 GitHub issue,歷經(jīng)近一年時間精心構(gòu)建,旨在盡可能精準(zhǔn)地測評及提升大模型高階編程的智能水平。
掃描二維碼
手機(jī)瀏覽
字節(jié)跳動豆包大模型團(tuán)隊正式開源首個多語言類SWE數(shù)據(jù)集
分享文章鏈接
相似推薦

豆包大模型團(tuán)隊開源基準(zhǔn)測試集SuperGPQA
新榜訊 3 月 4 日,豆包大模型團(tuán)隊于近日開源SuperGPQA。
跳動.jpeg)
字節(jié)跳動豆包小范圍測試深度思考模型,接入的不是DeepSeek
新榜訊 字節(jié)跳動旗下的 AI 助手豆包正在開展小范圍的深度思考模型測試,所接入的并非 DeepSeek 模型。
跳動.jpeg)
字節(jié)豆包大模型團(tuán)隊提出稀疏模型架構(gòu)UltraMem
新榜訊 2 月 12 日消息,據(jù)字節(jié)跳動豆包大模型團(tuán)隊透露,其 Foundation 團(tuán)隊于近期推出 UltraMem,這是一種能將計算和參數(shù)解耦的稀疏模型架構(gòu),在確保模型效果的基礎(chǔ)上成功化解了推理的訪存難題。