隨著人工智能技術(shù)的迅猛發(fā)展,企業(yè)軟件應(yīng)用程序中融入自主性AI的比例預(yù)計將大幅提升。根據(jù)Gartner的預(yù)測,到2028年,這一比例將從目前的不到1%躍升至33%。同時,30%的企業(yè)機(jī)構(gòu)計劃將數(shù)據(jù)變現(xiàn)或數(shù)據(jù)入表納入其數(shù)據(jù)戰(zhàn)略,突顯了數(shù)據(jù)在當(dāng)今企業(yè)運(yùn)營中的核心地位。生成式AI應(yīng)用的不斷涌現(xiàn),也進(jìn)一步推動了數(shù)據(jù)量的激增,對存儲行業(yè)提出了新的挑戰(zhàn)和機(jī)遇。
人工智能的發(fā)展離不開算力、算法和數(shù)據(jù)這三大支柱。盡管算力的需求和算法的優(yōu)化至關(guān)重要,但高質(zhì)量的數(shù)據(jù)集已成為當(dāng)前人工智能發(fā)展的迫切需求。這一趨勢促使數(shù)據(jù)中心逐漸從以“人”為中心和以“服務(wù)器”為中心,轉(zhuǎn)向以“數(shù)據(jù)”為中心的新時代。
在存儲行業(yè),這一變革尤為顯著。IDC產(chǎn)業(yè)目前大致分為算力、運(yùn)力和存力三個部分。中國信息通信研究院院長余曉暉在中國算力大會上指出,中國存力規(guī)模在過去一年中持續(xù)增長,截至2023年底已達(dá)到約1200EB,同比增加20%,先進(jìn)存儲容量占比也提升了20%。這反映了存儲行業(yè)在應(yīng)對數(shù)據(jù)洪流時的積極應(yīng)對和快速發(fā)展。
中國電子技術(shù)標(biāo)準(zhǔn)化研究院發(fā)布的《AIGC數(shù)據(jù)存儲研究報告》強(qiáng)調(diào),AIGC技術(shù)進(jìn)一步凸顯了“以數(shù)據(jù)為中心”的趨勢,數(shù)據(jù)的按需流動和存儲成為支撐這一技術(shù)變革的關(guān)鍵。浪潮信息存儲首席架構(gòu)師孫斌認(rèn)為,隨著AI應(yīng)用的深入發(fā)展和數(shù)據(jù)要素市場化進(jìn)程的推進(jìn),數(shù)據(jù)的重要性日益凸顯,存儲行業(yè)需要滿足越來越多的近數(shù)據(jù)計算需求,同時提升數(shù)據(jù)調(diào)用的速度。
當(dāng)前,存儲行業(yè)面臨的挑戰(zhàn)不僅僅是解決數(shù)據(jù)存儲問題,還需要具備并行存儲能力,解決數(shù)據(jù)流動問題,并提升數(shù)據(jù)訪問效率。隨著大模型應(yīng)用的落地,企業(yè)內(nèi)部和社會公共數(shù)據(jù)量呈現(xiàn)幾何倍數(shù)增長,如何高效存儲和節(jié)約存儲空間成為企業(yè)降本增效的重要議題。
在AIGC場景下,存儲系統(tǒng)需要面對性能、效率和韌性方面的挑戰(zhàn),存儲底座需要具備“六維”協(xié)同能力,包括數(shù)據(jù)流動、處理、共享、容納、安全和管理六種能力,以滿足AIGC對存儲的復(fù)雜需求。這一需求推動了存儲架構(gòu)的變革,存儲系統(tǒng)不再是單純的數(shù)據(jù)存儲容器,而是成為推動AI發(fā)展的核心組件。
為了提高GPU的利用效率,存儲系統(tǒng)需要提供TB級的高帶寬和百萬級的高IOPS,以確保模型訓(xùn)練的高效運(yùn)行。同時,數(shù)據(jù)中心內(nèi)部需要一套全新的存儲架構(gòu),支撐混合負(fù)載,并通過統(tǒng)一系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)全生命周期的應(yīng)用。孫斌指出,解決數(shù)據(jù)流動問題需要全新的存儲架構(gòu)來支撐。
以清華大學(xué)的生命科學(xué)研究項(xiàng)目為例,該項(xiàng)目需要實(shí)時在線存儲,不能丟幀,對存儲系統(tǒng)的要求極高。RUSH腦成像系統(tǒng)產(chǎn)生的海量小文件和長時間穩(wěn)定寫入的需求,也對存儲系統(tǒng)帶來了嚴(yán)峻挑戰(zhàn)。隨著AIGC走進(jìn)高校,成為研究課題,存儲系統(tǒng)也需要滿足師生對高效數(shù)據(jù)調(diào)取的需求,避免資源浪費(fèi)和科研成本上升。
面對這些挑戰(zhàn),存儲行業(yè)需要解決如何在更小的空間內(nèi)存儲更多數(shù)據(jù)的問題。一方面,通過優(yōu)化存儲系統(tǒng)提高空間利用率,利用AI技術(shù)在緩存方面進(jìn)行智能調(diào)整。另一方面,新的存儲介質(zhì)如QLC和SSD等也在不斷發(fā)展,進(jìn)一步優(yōu)化容量和成本,使SSD在數(shù)據(jù)中心中的應(yīng)用更加廣泛。浪潮信息認(rèn)為,在混合負(fù)載場景中,閃存正在逐漸成為重要支撐手段。
基于此,浪潮信息存儲提出了可組合分布式融合存儲(CDFS)的新模式,打造了三層三面兩體的可組合架構(gòu)。這一架構(gòu)通過數(shù)據(jù)編織層、微服務(wù)化功能層和硬件資源層,以及控制面、數(shù)據(jù)面和智能面的協(xié)同,實(shí)現(xiàn)了存儲資源的協(xié)同處理和按需分配。同時,CDFS還根據(jù)不同場景細(xì)分為機(jī)柜級存儲底座(BoR)和數(shù)據(jù)中心級存儲底座(BOD),滿足了數(shù)據(jù)中心的兩極化發(fā)展需求。
BoR適用于邊緣化、規(guī)模小的企業(yè)側(cè)應(yīng)用,如數(shù)據(jù)空間應(yīng)用場景,通過定制化閃存模組和領(lǐng)域?qū)S糜布?jié)點(diǎn),實(shí)現(xiàn)了高效、低成本的近數(shù)據(jù)計算。而BOD則適用于通用大模型訓(xùn)練、調(diào)優(yōu)等場景,需要跨云、跨系統(tǒng)、跨地域的協(xié)同計算能力,通過分布式融合架構(gòu)和智能數(shù)據(jù)管理平臺,實(shí)現(xiàn)了存儲資源的統(tǒng)一管理和高效利用。