在AI技術(shù)日新月異的今天,一向以內(nèi)容社區(qū)著稱的小紅書近期在AI領(lǐng)域邁出了重要一步。該平臺宣布,其人文智能實(shí)驗(yàn)室(hi lab)已成功推出并開源了首個自研大模型——dots.llm1。
近日,小紅書hi lab團(tuán)隊(duì)在Github和Hugging Face等平臺上發(fā)布了dots.llm1,這一舉措標(biāo)志著小紅書正式進(jìn)軍大模型開源領(lǐng)域。此次開源的內(nèi)容相當(dāng)全面,涵蓋了微調(diào)Instruct模型、長文base模型、多個base模型的退火階段版本、超參數(shù)配置,以及訓(xùn)練過程中的多個checkpoint,總數(shù)達(dá)到每1萬億個token。
值得注意的是,dots.llm1在發(fā)布后不久便進(jìn)行了更新,修復(fù)了停止符號的配置問題,這一常規(guī)修復(fù)進(jìn)一步提升了模型的穩(wěn)定性和可用性。據(jù)了解,dots.llm1的性能表現(xiàn)頗為亮眼,與阿里巴巴的Qwen 2.5模型在多個方面不相上下,部分性能甚至與Qwen 3模型相當(dāng)。
dots.llm1采用了混合專家模型(MoE)架構(gòu),擁有驚人的1420億參數(shù)。在訓(xùn)練過程中,該模型使用了高達(dá)11.2萬億token的高質(zhì)量非合成數(shù)據(jù),這些數(shù)據(jù)經(jīng)過人工校驗(yàn)和實(shí)驗(yàn)驗(yàn)證,質(zhì)量顯著優(yōu)于開源的TxT360數(shù)據(jù)。在推理階段,dots.llm1僅需激活140億參數(shù),即可保持高性能,同時大幅度降低了訓(xùn)練和推理成本。
dots.llm1的研發(fā)過程經(jīng)歷了預(yù)訓(xùn)練和指令微調(diào)兩個階段。預(yù)訓(xùn)練階段使用了大量高質(zhì)量數(shù)據(jù),并通過兩階段監(jiān)督微調(diào)(SFT)訓(xùn)練,最終得到了base模型和instruct模型。其中,base模型作為基座模型,完成了預(yù)訓(xùn)練任務(wù);而instruct模型則在此基礎(chǔ)上進(jìn)行了指令微調(diào),便于直接部署和使用。
在MoE高效訓(xùn)練實(shí)踐方面,小紅書團(tuán)隊(duì)引入了Interleaved 1F1B with AlltoAll overlap技術(shù),實(shí)現(xiàn)了通信與計算的最大重疊,并優(yōu)化了Grouped GEMM。經(jīng)過實(shí)測驗(yàn)證,該解決方案在前向計算中平均提升了14.00%,在反向計算中平均提升了6.68%,充分證明了其有效性和實(shí)用價值。
在性能表現(xiàn)方面,dots.llm1在中英文通用場景、數(shù)學(xué)、代碼和對齊任務(wù)上均展現(xiàn)出強(qiáng)勁實(shí)力。與阿里通義Qwen2.5-32B/72B-Instruct相比,dots.llm1具備競爭力;同時,在中英文、數(shù)學(xué)和對齊任務(wù)上,其表現(xiàn)與阿里Qwen3-32B相當(dāng)或更優(yōu)。dots.llm1在中文任務(wù)中展現(xiàn)出顯著優(yōu)勢,在CLUEWSC上取得了92.6分的高分,在中文語義理解方面達(dá)到業(yè)界領(lǐng)先水平。
小紅書自2013年成立以來,一直保持著穩(wěn)健的發(fā)展態(tài)勢,是移動互聯(lián)網(wǎng)創(chuàng)業(yè)浪潮中的佼佼者。近年來,隨著AI技術(shù)的快速發(fā)展,小紅書也加快了AI落地的步伐。2023年起,小紅書持續(xù)投入研發(fā)大模型,并推出了AI搜索應(yīng)用“點(diǎn)點(diǎn)”以及內(nèi)置的“問一問”功能,為用戶提供更加便捷的信息查詢服務(wù)。
小紅書的估值也在不斷攀升。根據(jù)金沙江創(chuàng)投旗下的一份股份交易文件顯示,小紅書的估值已從200億美元大幅躍升至260億美元。這一估值不僅遠(yuǎn)超B站、知乎等上市公司,也逼近了快手的市值。小紅書的老股報價已經(jīng)達(dá)到了350億美元,市場對其未來發(fā)展充滿期待。
作為未來工作的一部分,小紅書hi lab將繼續(xù)致力于訓(xùn)練更強(qiáng)大的模型,并探索更高效的架構(gòu)設(shè)計。同時,該團(tuán)隊(duì)還將加深對最佳訓(xùn)練數(shù)據(jù)的理解,并探索實(shí)現(xiàn)更接近人類學(xué)習(xí)效率的方法,以期從每個訓(xùn)練示例中最大限度地獲取知識。小紅書hi lab還計劃為社區(qū)貢獻(xiàn)更多更優(yōu)的全模態(tài)大模型,推動AI技術(shù)的進(jìn)一步發(fā)展和應(yīng)用。