字節(jié)跳動新思考模型Seed-Thinking-v1.5技術(shù)揭秘，4月17日開放體驗！

發(fā)布時間：2025-04-14 13:37 來源：ITBEAR 作者：沈瑾瑜

近日，字節(jié)跳動旗下的豆包大模型團隊揭曉了其最新思考模型Seed-Thinking-v1.5的技術(shù)細節(jié)，并宣布該模型將于4月17日通過火山引擎開放接口供用戶體驗。這一消息標志著字節(jié)跳動在自然語言處理領(lǐng)域邁出了重要一步。

Seed-Thinking-v1.5模型在多個領(lǐng)域展現(xiàn)出了卓越的性能。在數(shù)學(xué)推理方面，它在AIME 2024競賽中取得了86.7的高分，與OpenAI的o3-mini-high模型不相上下。在編程競賽中，該模型在Codeforces平臺上的通過率達到了55.0%，接近Gemini 2.5 Pro的水平。在科學(xué)推理任務(wù)上，Seed-Thinking-v1.5也取得了77.3%的優(yōu)異成績，同樣接近業(yè)界領(lǐng)先模型。而在通用任務(wù)中，人類評估顯示其表現(xiàn)超過了DeepSeek R1達8%，能夠覆蓋多種場景需求。

Seed-Thinking-v1.5模型采用了MoE架構(gòu)，總參數(shù)達到200B，但激活參數(shù)僅為20B，這使其在保持高性能的同時，具備顯著的推理成本優(yōu)勢。與DeepSeek R1相比，該模型的單位推理成本降低了50%，實現(xiàn)了性能與效率的完美平衡。

為了提升模型的表現(xiàn)力，豆包大模型團隊在數(shù)據(jù)處理策略上進行了優(yōu)化。針對可驗證數(shù)據(jù)，如數(shù)學(xué)和代碼題目，團隊通過百萬級數(shù)據(jù)的三重清洗流程，保留了10萬道高難度題目，并設(shè)計了答案整數(shù)化改造和離線沙箱驗證等機制，確保模型能夠輸出真實的推理過程。而對于非可驗證數(shù)據(jù)，如創(chuàng)意寫作，團隊則基于豆包1.5 Pro訓(xùn)練集，剔除低價值樣本，并采用兩兩對比獎勵法，優(yōu)化生成質(zhì)量。

團隊還構(gòu)建了全新的評測基準，包括超難數(shù)學(xué)數(shù)據(jù)集BeyondAIME，該數(shù)據(jù)集包含100道無答案題干的題目，旨在解決現(xiàn)有測試區(qū)分度不足的問題。這一舉措不僅提升了模型的評測準確性，也為后續(xù)的優(yōu)化提供了有力支持。

在獎勵模型方面，團隊提出了雙軌獎勵機制，以兼顧“對錯分明”與“見仁見智”的任務(wù)。對于可驗證任務(wù)，團隊開發(fā)了兩代驗證器，從字符匹配升級為推理步驟逐行對比，確保了模型輸出的準確性。而對于非可驗證任務(wù)，團隊則引入pairwise對比訓(xùn)練，通過大量“AB測試”捕捉人類對創(chuàng)意、情感等的隱性偏好，從而避免了“眾口難調(diào)”的問題。這一雙軌獎勵機制不僅提升了模型的訓(xùn)練效率，也使其在不同場景下都能表現(xiàn)出色。

在訓(xùn)練方法上，Seed-Thinking-v1.5采用了“監(jiān)督精調(diào)+強化學(xué)習(xí)”的雙階段優(yōu)化策略。在監(jiān)督精調(diào)階段，團隊基于40萬高質(zhì)量實例構(gòu)建了長思考鏈數(shù)據(jù)集，并結(jié)合人工與模型協(xié)同篩選，確保模型能夠“像人類一樣思考”。而在強化學(xué)習(xí)階段，團隊通過三重數(shù)據(jù)引擎、算法創(chuàng)新以及在線數(shù)據(jù)適配技術(shù)，解決了訓(xùn)練不穩(wěn)定、長鏈推理斷層等問題，使模型能夠在動態(tài)調(diào)整數(shù)據(jù)分布的過程中保持最佳訓(xùn)練狀態(tài)。

最后，為了應(yīng)對20B MoE（總參數(shù)200B）的復(fù)雜訓(xùn)練需求，團隊對底層架構(gòu)進行了優(yōu)化。HybridFlow編程模型支持算法快速探索與分布式并行運行，流式推理系統(tǒng)（SRS）則通過“流式推理”技術(shù)解耦模型演進與異步推理，將訓(xùn)練速度提升了3倍。三層并行架構(gòu)結(jié)合張量/專家/序列并行，動態(tài)均衡負載，基于KARP算法優(yōu)化GPU算力利用率，為模型的高效訓(xùn)練提供了有力保障。

更多>同類內(nèi)容