阿里通義QwQ-32B大模型：320億參數(shù)挑戰(zhàn)國際頂尖水平

發(fā)布時間：2025-03-06 12:17 來源：ITBEAR 作者：鐘景軒

阿里巴巴通義千問團隊近期揭曉了其最新的技術(shù)突破，正式推出了QwQ-32B大語言模型。這款模型雖然僅擁有320億參數(shù)，卻展現(xiàn)出了與參數(shù)量高達6710億的DeepSeek-R1國際頂尖模型相抗衡的實力。

通過運用強化學(xué)習(xí)技術(shù)，QwQ-32B在參數(shù)量僅為DeepSeek-R1的約1/21的條件下，實現(xiàn)了性能的顯著提升。這一成就不僅彰顯了阿里巴巴在人工智能領(lǐng)域的深厚積累，也預(yù)示著高效能模型開發(fā)的新趨勢。

QwQ-32B還集成了與Agent相關(guān)的能力，這使其能夠在使用工具時進行更為深入的批判性思考，并能根據(jù)外部環(huán)境的反饋靈活調(diào)整推理過程。這種智能化的動態(tài)調(diào)整機制，無疑為模型的實際應(yīng)用增添了更多可能性。

在多個基準測試中，QwQ-32B均展現(xiàn)出了卓越的性能。無論是在評估數(shù)學(xué)能力的AIME24評測集上，還是在測試代碼生成能力的LiveCodeBench評測中，QwQ-32B的表現(xiàn)都與DeepSeek-R1不相上下，甚至在某些方面還超越了后者。同時，與參數(shù)規(guī)模相同的R1蒸餾模型及o1-mini相比，QwQ-32B也展現(xiàn)出了明顯的優(yōu)勢。

QwQ-32B在多個權(quán)威評測榜單上也取得了令人矚目的成績。在“最具挑戰(zhàn)性LLMs評測榜”LiveBench、谷歌的指令遵循能力評估體系IFeval，以及加州大學(xué)伯克利分校的函數(shù)或工具調(diào)用準確性評估測試BFCL中，QwQ-32B的得分均超過了DeepSeek-R1，進一步證明了其強大的實力和廣泛的應(yīng)用潛力。

目前，QwQ-32B已經(jīng)在國際知名的開源平臺上架，并同步在阿里巴巴旗下的ModelScope上對外開源。用戶可以通過Qwen Chat直接體驗這一模型的功能，感受其帶來的智能化變革。這一舉措無疑將推動人工智能技術(shù)的進一步發(fā)展，為更多行業(yè)帶來創(chuàng)新的解決方案。

更多>同類內(nèi)容