在科技界的一次重大合作中,月之暗面Kimi與清華大學(xué)MADSys實(shí)驗(yàn)室攜手,共同揭曉了他們醞釀已久的Mooncake推理系統(tǒng)設(shè)計(jì)方案。這一創(chuàng)新方案于2024年6月正式面世,其核心在于采用了KVCache為中心的PD分離技術(shù)和存換算架構(gòu),極大地推動(dòng)了推理吞吐量的提升。
為了加快Mooncake技術(shù)的實(shí)際應(yīng)用步伐,近日,月之暗面Kimi與清華大學(xué)MADSys實(shí)驗(yàn)室再度發(fā)力,聯(lián)合9#AISoft、阿里云、華為存儲(chǔ)、面壁智能以及趨境科技等業(yè)界知名企業(yè),共同推出了Mooncake開源項(xiàng)目。該項(xiàng)目旨在構(gòu)建一個(gè)以KVCache為核心的大模型推理架構(gòu),進(jìn)一步推動(dòng)技術(shù)的普及與發(fā)展。
就在近日,Mooncake技術(shù)框架已經(jīng)正式在開源社區(qū)上線,為全球的開發(fā)者提供了一個(gè)全新的技術(shù)平臺(tái)。以下是Mooncake技術(shù)框架的開源地址:
Mooncake開源項(xiàng)目不僅是對(duì)其學(xué)術(shù)論文的延伸,更是對(duì)以超大規(guī)模KVCache緩存池為核心的創(chuàng)新理念的實(shí)踐。通過存換算這一創(chuàng)新思路,Mooncake顯著降低了算力開銷,從而實(shí)現(xiàn)了推理吞吐量的顯著提升。這一突破性的進(jìn)展,無疑為人工智能領(lǐng)域帶來了新的發(fā)展機(jī)遇。
在開源計(jì)劃的實(shí)施上,Mooncake采取了分階段推進(jìn)的策略。首先,將高性能KVCache多級(jí)緩存Mooncake Store的實(shí)現(xiàn)逐步開源,同時(shí)確保對(duì)各種推理引擎和底層存儲(chǔ)/傳輸資源的兼容性。目前,傳輸引擎Transfer Engine部分已經(jīng)率先在GitHub上實(shí)現(xiàn)了全球開源。
Mooncake開源項(xiàng)目的長遠(yuǎn)目標(biāo)是,為大模型時(shí)代打造一種高性能、內(nèi)存語義存儲(chǔ)的標(biāo)準(zhǔn)接口,并提供一套可參考的實(shí)現(xiàn)方案。這將為未來的技術(shù)發(fā)展奠定堅(jiān)實(shí)的基礎(chǔ),推動(dòng)人工智能領(lǐng)域邁向新的高度。
通過Mooncake推理系統(tǒng)架構(gòu)圖,我們可以清晰地看到其設(shè)計(jì)的精妙之處。這一架構(gòu)不僅體現(xiàn)了技術(shù)的先進(jìn)性,更展示了合作團(tuán)隊(duì)在人工智能領(lǐng)域的深厚底蘊(yùn)和創(chuàng)新能力。