自ChatGPT問(wèn)世以來(lái),在新一輪AI浪潮的席卷下,智算需求逐漸增加,這也推動(dòng)了IDC向著AIDC邁進(jìn)?!端懔A(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》中指出,到2025年,計(jì)算力方面,算力規(guī)模超過(guò)300 EFLOPS,智能算力占比達(dá)到35%。
從如今國(guó)內(nèi)IDC市場(chǎng)發(fā)展現(xiàn)狀上看,目前通用算力已經(jīng)有供大于求的趨勢(shì),而智能算力則是相當(dāng)緊俏,一方面,芯片的短缺是影響智算發(fā)展的重要因素之一;另一方面,隨著摩爾定律逐漸“失效”,似乎依靠“粗暴”堆疊芯片,已成為當(dāng)下滿足智算需求的最佳路徑,這也對(duì)數(shù)據(jù)中心的電容、制冷等諸多系統(tǒng)提出了新的要求。
在IDC向著AIDC演進(jìn)的過(guò)程中,預(yù)制化、綠色化、智能化已經(jīng)成為當(dāng)下產(chǎn)業(yè)向前發(fā)展的“三板斧”。
數(shù)據(jù)中心步入預(yù)制化時(shí)代
建設(shè)一座支持萬(wàn)卡的數(shù)據(jù)中心需要多久?
如果從土建開(kāi)始算起,在一切順利的情況下,大概需要12個(gè)月的交付周期,對(duì)于北方存在“凍土期”(凍土期不能進(jìn)行土建施工)的數(shù)據(jù)中心而言,可能這個(gè)時(shí)間還會(huì)更久。
大模型的變化有多快?
短短2年時(shí)間,大模型已經(jīng)席卷了各行業(yè),各行業(yè)對(duì)于算力,尤其是智能算力的需求呈現(xiàn)式井噴式的增長(zhǎng)。
其實(shí)不光是大模型,早在大模型之前的互聯(lián)網(wǎng)時(shí)代,互聯(lián)網(wǎng)企業(yè)對(duì)于業(yè)務(wù)部署的速度要求也是越來(lái)越快,在這個(gè)“唯快不破”的年代,早一天上線業(yè)務(wù),就能早一天賺錢(qián),就能早一天占據(jù)市場(chǎng)。而這也導(dǎo)致了企業(yè)對(duì)于底層支撐的數(shù)據(jù)中心建設(shè)速度的要求。
對(duì)此,普洛斯中國(guó)高級(jí)副總裁、數(shù)據(jù)中心業(yè)務(wù)聯(lián)席總裁郭仁聲表示,用戶如今對(duì)于數(shù)據(jù)中心交付周期的要求很高,都希望早點(diǎn)上線業(yè)務(wù),這也就對(duì)數(shù)據(jù)中心建設(shè)提出了更高的要求,而預(yù)制化、模塊化的方式,可以幫助用戶在更短的時(shí)間,保質(zhì)保量的完成交付,“未來(lái),預(yù)制化的模式會(huì)成為數(shù)據(jù)中心建設(shè)的一種主流方式?!彼赋?。
預(yù)制化數(shù)據(jù)中心就是將數(shù)據(jù)中心中的各個(gè)系統(tǒng)進(jìn)行模塊化分解,比如將制冷、變電站、供配電等不同的功能模塊,通過(guò)預(yù)制化的方案,在工廠進(jìn)行標(biāo)準(zhǔn)化的生產(chǎn),并進(jìn)行測(cè)試,確保達(dá)到使用要求,再拉到施工現(xiàn)場(chǎng),進(jìn)行拼裝,郭仁聲說(shuō),“預(yù)制化的優(yōu)勢(shì)在于,一是可以實(shí)現(xiàn)快速的交付,二是減少了現(xiàn)場(chǎng)的安全測(cè)試環(huán)節(jié),交付質(zhì)量更有保障?!?/p>
以普洛斯常熟東南數(shù)據(jù)中心為例,總建筑面積15萬(wàn)平方米,IT負(fù)載達(dá)120MW,可為超過(guò)30萬(wàn)臺(tái)服務(wù)器提供設(shè)施和增值服務(wù)。項(xiàng)目采用了多系統(tǒng)預(yù)制化的方案,對(duì)變電站、冷凍站、鋼結(jié)構(gòu)/熱通道等進(jìn)行模塊拆分、工廠預(yù)制化及現(xiàn)場(chǎng)拼裝建設(shè),在7個(gè)月內(nèi)就實(shí)現(xiàn)了改建項(xiàng)目一期的落地交付(建筑面積6萬(wàn)多平方米,IT負(fù)載65兆瓦),而傳統(tǒng)方案平均要接近一年的時(shí)間才能完成,工期縮短了接近一半。而整個(gè)建設(shè)過(guò)程中還包括了一般數(shù)據(jù)中心不會(huì)單獨(dú)建設(shè)的一個(gè)110千伏變電站。
除此之外,通過(guò)預(yù)制化、模塊化的方式,也可以降低數(shù)據(jù)中心全生命周期的碳排放,側(cè)面推動(dòng)了數(shù)據(jù)中心整體的碳中和進(jìn)程。
魚(yú)和熊掌需兼得
從產(chǎn)業(yè)角度上看,預(yù)制化、模塊化的建設(shè)數(shù)據(jù)中心僅是數(shù)據(jù)中心節(jié)能減排的“冰山一角”,在算力需求與碳中和需求的雙重影響下,IDC在向AIDC演進(jìn)的過(guò)程中,如何實(shí)現(xiàn)算力與碳中和的“魚(yú)和熊掌兼得”也成為近幾年來(lái)產(chǎn)業(yè)上下游企業(yè)共同努力的方向。
有業(yè)內(nèi)專(zhuān)家指出,在國(guó)家碳中和目標(biāo)的引導(dǎo)下,數(shù)據(jù)中心行業(yè)推進(jìn)碳中和是必然的趨勢(shì),與此同時(shí),為了確保數(shù)字技術(shù)的發(fā)展,數(shù)據(jù)中心作為底座,其算力保障也是必不可少的,而如何實(shí)現(xiàn)二者的兼得,就成為未來(lái)很長(zhǎng)一段時(shí)間內(nèi),產(chǎn)業(yè)需要共同面臨的話題。
在算力方面,根據(jù)市場(chǎng)調(diào)研,目前絕大多數(shù)芯片廠商的GPU利用率都在30%以下,“這種情況一方面造成了企業(yè)需要堆疊更多的芯片,才能滿足需求,進(jìn)而使得投資成本更高;另一方面,也造成了資源浪費(fèi)的現(xiàn)象?!痹撁麑?zhuān)家指出,“從技術(shù)角度出發(fā),如何提高GPU利用效率、算力資源利用效率,是目前業(yè)內(nèi)在算力方面最需要解決的問(wèn)題?!?/p>
在碳中和方面,數(shù)據(jù)中心作為公認(rèn)的高載能行業(yè),尤其是在AI時(shí)代,單機(jī)柜功率已經(jīng)從原先通算時(shí)代的2.5KW/機(jī)柜,上升到6KW、8KW、12KW/機(jī)柜,甚至在某些特定的場(chǎng)景下,單機(jī)柜功率已經(jīng)可以達(dá)到幾十千瓦,如果還使用傳統(tǒng)的模式的話,數(shù)據(jù)中心的能耗將進(jìn)一步上升。
此時(shí),就需要從兩維度對(duì)數(shù)據(jù)中心進(jìn)行升級(jí)優(yōu)化。首先,就是數(shù)據(jù)中心供配電系統(tǒng),一方面,傳統(tǒng)的供配電系統(tǒng)已經(jīng)不能滿足穩(wěn)定地為數(shù)據(jù)中心進(jìn)行供配電,新的架構(gòu)下,自建變電站以提升穩(wěn)定性的數(shù)據(jù)中心越來(lái)越多,而普洛斯常熟東南數(shù)據(jù)中心就是這其中一個(gè)典型的代表。
另一方面,提升供配電系統(tǒng)的效率也是目前數(shù)據(jù)中心行業(yè)比較聚焦的一個(gè)問(wèn)題。針對(duì)此,目前數(shù)據(jù)中心內(nèi)比較常見(jiàn)的提升供電效率的操作是采用高壓直流的方式進(jìn)行供電。對(duì)此,郭仁聲表示,普洛斯常熟東南數(shù)據(jù)中心就采用了高壓直流供電的方式,“一方面,高壓直流提升了數(shù)據(jù)中心供配電的穩(wěn)定性,另一方面也提升了數(shù)據(jù)中心的供配電效率,從而在間接節(jié)省了電費(fèi)的開(kāi)銷(xiāo)的同時(shí),還能降低數(shù)據(jù)中心整體的碳排放?!惫事暼缡钦f(shuō)。
相較于傳統(tǒng)的UPS交流供電系統(tǒng),一方面,高壓直流的供電模式采用模塊化設(shè)計(jì),可以靈活擴(kuò)容,且每個(gè)模塊的負(fù)載率可達(dá)70%~80%,比傳統(tǒng)UPS系統(tǒng)高。
另一方面,由于去掉了逆變環(huán)節(jié)(傳統(tǒng)UPS系統(tǒng)結(jié)構(gòu)相對(duì)復(fù)雜,包含多個(gè)變換環(huán)節(jié)和冗余設(shè)計(jì),以提高供電可靠性),減少了能量損耗,整體效率更高,一般來(lái)講,高壓直流系統(tǒng)的效率可高達(dá)96%以上,有些極度優(yōu)化的甚至可達(dá)98%~99%左右,比傳統(tǒng)UPS系統(tǒng)高近10%。
除了在供配電系統(tǒng)方面的優(yōu)化升級(jí)以外,作為數(shù)據(jù)中心能耗“大頭”的制冷系統(tǒng)也隨著機(jī)柜功率的上升,迎來(lái)了新的變革。
其實(shí)供冷的變革早在生成式AI爆火以前就已經(jīng)開(kāi)始了。彼時(shí),機(jī)柜的功率已經(jīng)開(kāi)始呈現(xiàn)出逐漸增長(zhǎng)的趨勢(shì),諸如AHU間接蒸發(fā)冷卻、封閉冷/熱通道、循環(huán)冷凍水、自然冷卻等在內(nèi)的多項(xiàng)新一代供冷技術(shù)已經(jīng)逐漸在數(shù)據(jù)中心中得以應(yīng)用。
隨著生成式AI的到來(lái),液冷技術(shù)在數(shù)據(jù)中心中的發(fā)展也迎來(lái)了爆發(fā)。雖然是純液冷,還是風(fēng)液混合;是浸沒(méi)式液冷,還是冷板式液冷,在行業(yè)內(nèi)仍存在比較大的爭(zhēng)議,但似乎液冷已經(jīng)成為智算中心的“標(biāo)配”,用戶對(duì)于液冷的接受度也越來(lái)越高,據(jù)了解,普洛斯常熟東南數(shù)據(jù)中心就有與用戶一起做的液冷試點(diǎn)案例。
而普洛斯在液冷方面的布局也不是個(gè)例,當(dāng)下對(duì)于液冷產(chǎn)品的布局已經(jīng)不僅局限在設(shè)備廠商,越來(lái)越多諸如普洛斯、秦淮數(shù)據(jù)、世紀(jì)互聯(lián)這樣的頭部IDC服務(wù)商在這個(gè)領(lǐng)域進(jìn)行深度布局。郭仁聲表示,液冷的應(yīng)用,一方面得益于技術(shù)的成熟與機(jī)柜功率變大,讓液冷不再是“殺雞用牛刀”;另一方面,用戶對(duì)于液冷的接受度,以及IDC全產(chǎn)業(yè)的碳中和要求,也推動(dòng)了這項(xiàng)技術(shù)在數(shù)據(jù)中心中的應(yīng)用,“普洛斯在液冷方面也有著深入的布局,而相較于其他IDC服務(wù)商而言,我們的優(yōu)勢(shì)在于有包括管路、冷卻液、閥門(mén)等在內(nèi)的液冷全供應(yīng)鏈體系?!惫事暼缡钦f(shuō)。
面對(duì)算力與碳中和的“魚(yú)和熊掌兼得”,是全產(chǎn)業(yè)需要共同面臨的話題。
AI for DC
在數(shù)據(jù)中心減排的路上,AI技術(shù)也可以為數(shù)據(jù)中心提供更好地支持。AI技術(shù)在運(yùn)營(yíng)管理的應(yīng)用也成為IDC服務(wù)商提升核心競(jìng)爭(zhēng)力,實(shí)現(xiàn)降本增效過(guò)程中重要的一環(huán)。
通過(guò)數(shù)智化的手段,提升數(shù)據(jù)中心運(yùn)營(yíng)管理效率和質(zhì)量已經(jīng)成為當(dāng)下數(shù)據(jù)中心“常規(guī)操作”,諸如動(dòng)環(huán)監(jiān)控、極早期預(yù)警等系統(tǒng)在數(shù)據(jù)中心的應(yīng)用也已屢見(jiàn)不鮮。對(duì)此,郭仁聲表示,現(xiàn)階段,IDC服務(wù)商為了加強(qiáng)運(yùn)營(yíng)管理,除了需要具備專(zhuān)業(yè)的運(yùn)維團(tuán)隊(duì)以外,更為重要的是,要通過(guò)智能化的工具更好地支持?jǐn)?shù)據(jù)中心的運(yùn)營(yíng)管理,“普洛斯為此自主研發(fā)了GLP DCBASE智慧化運(yùn)營(yíng)管理系統(tǒng),打造了跨數(shù)據(jù)中心、跨城市的數(shù)字孿生的運(yùn)維管理監(jiān)控平臺(tái)?!惫事暯榻B道。
除了基礎(chǔ)的動(dòng)環(huán)監(jiān)控等平臺(tái)及系統(tǒng)以外,GLP DCBASE智慧化運(yùn)營(yíng)管理系統(tǒng)(簡(jiǎn)稱(chēng)GLP DCBASE)還具備了AI預(yù)警的能力。具體來(lái)看,以普洛斯常熟東南數(shù)據(jù)中心為例,在該項(xiàng)目中,普洛斯利用AI預(yù)警的能力,結(jié)合國(guó)家氣象等信息,提前調(diào)整機(jī)房供冷系統(tǒng),溫度高時(shí)提前開(kāi)啟機(jī)房空調(diào),溫度低時(shí)提前關(guān)閉機(jī)房空調(diào),甚至在進(jìn)行AI預(yù)測(cè)以后,提前使用自然冷卻實(shí)現(xiàn)機(jī)房制冷,“利用了這套AI預(yù)警系統(tǒng)后,在常熟項(xiàng)目上,一年就能省下上百萬(wàn)的制冷電費(fèi),”郭仁聲指出,“目前,在全國(guó)范圍投產(chǎn)的十幾個(gè)數(shù)據(jù)中心都推廣了這項(xiàng)功能,每年可節(jié)省大量電費(fèi)成本?!?/p>
除了降本以外,AI還能幫助數(shù)據(jù)中心運(yùn)營(yíng)管理實(shí)現(xiàn)增效。眾所周知,數(shù)據(jù)中心需要對(duì)機(jī)房?jī)?nèi)部環(huán)境進(jìn)行實(shí)時(shí)監(jiān)控,以求確保服務(wù)器的安全穩(wěn)定,保證業(yè)務(wù)不中斷,比如會(huì)對(duì)機(jī)房溫度進(jìn)行監(jiān)控,同時(shí)還需要對(duì)網(wǎng)速、蓄電池壽命等環(huán)節(jié)進(jìn)行監(jiān)控,將這些數(shù)據(jù)“投喂”給AI以后,通過(guò)算法計(jì)算出常態(tài)穩(wěn)定值,“相較于原先的監(jiān)測(cè)系統(tǒng),通過(guò)常態(tài)穩(wěn)定值,可以不僅劃定‘紅線’,”郭仁聲指出,“當(dāng)數(shù)值超過(guò)常態(tài)范圍后,提前預(yù)警,運(yùn)維人員可以及時(shí)進(jìn)行排查,有時(shí)候在用戶發(fā)現(xiàn)預(yù)警以前,我們就已經(jīng)處理完了,從而消除了隱患,提升了運(yùn)維效率的同時(shí),還能提升用戶整體的體驗(yàn)。”
立足國(guó)內(nèi)IDC市場(chǎng),除了普洛斯以外,諸如世紀(jì)互聯(lián)、萬(wàn)國(guó)數(shù)據(jù)、秦淮數(shù)據(jù)等國(guó)內(nèi)IDC龍頭企業(yè)近年來(lái)也都在紛紛嘗試通過(guò)AI技術(shù),實(shí)現(xiàn)智能化運(yùn)營(yíng),一方面有助于提升整體運(yùn)營(yíng)效率和服務(wù)質(zhì)量,另一方面,也有利于優(yōu)化運(yùn)維人員配置,控制數(shù)據(jù)中心整體運(yùn)維成本。
而在郭仁聲看來(lái),AI for DC絕不僅僅與此,“未來(lái),我們將不斷優(yōu)化GLP DCBASE平臺(tái),一方面將諸如液冷這樣的新的技術(shù)的監(jiān)控融入到平臺(tái)之中,另一方面,從實(shí)施效果上,要不斷優(yōu)化,兼顧節(jié)能減排和運(yùn)營(yíng)安全兩方面,實(shí)現(xiàn)更精細(xì)化地管理、靈活調(diào)配。”郭仁聲如是說(shuō)。(本文首發(fā)于,作者|張申宇,編輯丨蓋虹達(dá))