阿里通義千問Qwen3發(fā)布：混合推理模型，靈活切換思考模式

發(fā)布時間：2025-04-29 08:17 來源：ITBEAR 作者：馮璃月

阿里巴巴在技術(shù)創(chuàng)新領(lǐng)域再次邁出重要一步，于近日凌晨正式發(fā)布了其最新一代的通義千問模型——Qwen3。這一發(fā)布不僅標志著阿里巴巴在人工智能領(lǐng)域的深厚積累，更讓Qwen3一躍成為全球最頂尖的開源模型。

Qwen3系列模型涵蓋了多個版本，從Qwen3-0.6B到Qwen3-32B，以及更高級的MoE模型Qwen3-30B-A3B和Qwen3-235B-A22B，它們在層數(shù)、頭數(shù)、嵌入綁定、上下文長度等關(guān)鍵指標上展現(xiàn)出不同的配置。其中，Qwen3-235B-A22B作為旗艦?zāi)Ｐ停诖a、數(shù)學、通用能力等基準測試中，與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等頂級模型相比，展現(xiàn)出了卓越的性能。

Qwen3是國內(nèi)首個“混合推理模型”，它將“快思考”與“慢思考”巧妙融合于一個模型中，實現(xiàn)了算力消耗的極大節(jié)省。這種設(shè)計使得Qwen3能夠在面對復(fù)雜問題時進行深入推理，而在處理簡單問題時則能提供快速響應(yīng)。

阿里云不僅開源了Qwen3的MoE模型權(quán)重，包括Qwen3-235B-A22B和Qwen3-30B-A3B，還開源了六個Dense模型，這些模型均在Apache 2.0許可下開放給公眾使用。這一舉措無疑將極大地推動人工智能技術(shù)的發(fā)展和應(yīng)用。

Qwen3模型支持多達119種語言和方言，這一廣泛的多語言能力為全球用戶提供了前所未有的便利。無論是簡體中文、繁體中文還是粵語，Qwen3都能輕松應(yīng)對，為國際應(yīng)用開辟了全新的可能性。

在預(yù)訓練方面，Qwen3的數(shù)據(jù)集相比前代Qwen2.5有了顯著擴展。Qwen3使用了約36萬億個token的數(shù)據(jù)進行預(yù)訓練，涵蓋了119種語言和方言。這些數(shù)據(jù)不僅來自網(wǎng)絡(luò)，還包括從PDF文檔中提取的文本信息。為了增加數(shù)學和代碼數(shù)據(jù)的數(shù)量，阿里云還利用Qwen2.5-Math和Qwen2.5-Coder這兩個專家模型合成了大量數(shù)據(jù)。

Qwen3的預(yù)訓練過程分為三個階段，每個階段都針對不同的目標和數(shù)據(jù)集進行優(yōu)化。在第一階段，模型在超過30萬億個token上進行了基礎(chǔ)預(yù)訓練；在第二階段，通過增加知識密集型數(shù)據(jù)的比例來改進數(shù)據(jù)集，并在額外的5萬億個token上進行了預(yù)訓練；在第三階段，使用高質(zhì)量的長上下文數(shù)據(jù)將上下文長度擴展到32K token，以確保模型能夠處理更長的輸入。

在后訓練方面，阿里云實施了一個四階段的訓練流程，旨在開發(fā)同時具備思考推理和快速響應(yīng)能力的混合模型。這一流程包括長思維鏈冷啟動、長思維鏈強化學習、思維模式融合和通用強化學習四個階段。