美團開源INT8無損量化DeepSeek R1，A100性能提升50%

發(fā)布時間：2025-03-07 18:54 來源：ITBEAR 作者：江紫萱

近期，美團搜推機器學習團隊宣布了一項開源新進展，成功實現(xiàn)了對DeepSeek R1模型的無損INT8精度量化。這一成果在3月4日正式對外公布，標志著美團在深度學習模型優(yōu)化方面取得了重要突破。

據(jù)了解，DeepSeek R1模型原本采用的是FP8數(shù)據(jù)格式的權重，這一特性使得它對GPU芯片類型有著嚴格的要求。具體而言，只有英偉達的新型GPU，如Ada和Hopper架構的芯片，才能夠支持該模型的部署。而對于其他型號的GPU，如廣泛應用的A100，則無法直接運行DeepSeek R1模型。

為了打破這一限制，美團的機器學習團隊進行了深入的技術研發(fā)，成功實現(xiàn)了對DeepSeek R1模型的INT8精度量化。量化后的模型不僅保持了原有的性能，還在部署上具備了更高的靈活性。目前，該量化代碼已經(jīng)被整合進了開源LLM推理框架SGLang中，而量化后的模型也已經(jīng)發(fā)布到了Hugging Face社區(qū)，供廣大開發(fā)者使用。

據(jù)官方測試，在A100 GPU上部署滿血版的DeepSeek R1模型，并基于INT8量化后，相比之前采用的BF16格式，吞吐量實現(xiàn)了50%的提升。這一成果不僅提升了模型的運算效率，還為更廣泛的應用場景提供了可能。

美團搜推機器學習團隊的這一開源成果，無疑為深度學習模型的優(yōu)化和應用帶來了新的思路。通過量化技術，可以在不犧牲模型性能的前提下，提升模型的運算效率和部署靈活性。這對于推動深度學習技術的發(fā)展和應用具有重要意義。

美團團隊還將繼續(xù)探索深度學習模型的優(yōu)化方法，不斷提升模型的性能和效率。相信在不久的將來，我們將會看到更多來自美團的開源成果和技術創(chuàng)新。

對于廣大開發(fā)者而言，這一開源成果無疑是一個福音。通過利用美團提供的量化模型和推理框架，他們可以更加高效地開發(fā)和部署深度學習模型，為人工智能技術的發(fā)展和應用貢獻自己的力量。

同時，我們也期待美團搜推機器學習團隊在未來能夠帶來更多優(yōu)秀的開源成果和技術創(chuàng)新，為人工智能領域的發(fā)展注入新的活力。

更多>同類內(nèi)容