數(shù)據(jù)中臺已經(jīng)走向沒落?
根據(jù)Gartner在2024年數(shù)據(jù)分析與人工智能技術成熟度曲線(中國版)中指出,“數(shù)據(jù)中臺”落入泡沫破裂低谷期,并且,Gartner還提出了“數(shù)據(jù)中臺即將消亡”的論斷。
提出這樣的論斷,在于經(jīng)過了十多年的發(fā)展,數(shù)據(jù)中臺的弊端愈發(fā)明顯。從技術視角分析,數(shù)據(jù)中臺是物理集中式架構(gòu),側(cè)重于物理化的統(tǒng)一歸集和數(shù)據(jù)搬運,而隨著數(shù)據(jù)規(guī)模指數(shù)級增長,由于合規(guī)性、安全性等原因,數(shù)據(jù)中臺難以應對“跨源異構(gòu)”數(shù)據(jù)的整合,且建設數(shù)據(jù)中臺,投資巨大,回報周期長,ROI成為眾多企不得不考慮的問題。從業(yè)務視角分析,這種架構(gòu)高度依賴于ETL專業(yè)團隊及相關工具,不僅在時效性和靈活性上,難以為前端業(yè)務決策和產(chǎn)品創(chuàng)新提供支持,對一些自服務的數(shù)據(jù)消費場景,也難以提供敏捷的數(shù)據(jù)交付。
因此,從實際應用角度出發(fā),對于正實施數(shù)字化轉(zhuǎn)型戰(zhàn)略的大型企業(yè),或者想要更快、成本更低落地數(shù)字應用的中小型,甚至是初創(chuàng)企業(yè)來說,數(shù)據(jù)中臺在當下這樣的環(huán)境中,顯然已經(jīng)不是更好的選擇。更靈活、更敏捷,也更低成本的數(shù)據(jù)編織架構(gòu)開始受到關注。
什么是數(shù)據(jù)編織?
數(shù)據(jù)編織(Data Fabric)不是一個產(chǎn)品而是一種設計理念,是利用AI、機器學習和數(shù)據(jù)科學的功能,訪問數(shù)據(jù)或支持數(shù)據(jù)動態(tài)整合,以發(fā)現(xiàn)可用數(shù)據(jù)之間獨特的、與業(yè)務相關的關系。換句話說,現(xiàn)在的數(shù)據(jù)連接的架構(gòu)設計還主要是“人找數(shù)據(jù)”,而數(shù)據(jù)編織的設計核心是“數(shù)據(jù)找人”,在合適的時間、將合適的數(shù)據(jù)推送給需要的人。
數(shù)據(jù)編織是一種全新的數(shù)據(jù)管理架構(gòu)理念,其核心是通過優(yōu)化跨源異構(gòu)數(shù)據(jù)的發(fā)現(xiàn)與訪問,將可信數(shù)據(jù)以靈活且業(yè)務可理解的方式交付給所有相關數(shù)據(jù)消費者,讓數(shù)據(jù)消費者自助服務和高效協(xié)作,實現(xiàn)極致敏捷的數(shù)據(jù)交付。
與傳統(tǒng)數(shù)據(jù)中臺架構(gòu)相比,數(shù)據(jù)編織的關鍵突破是通過數(shù)據(jù)虛擬化技術,創(chuàng)建邏輯數(shù)據(jù)層,在單點邏輯集成了分散在不同系統(tǒng)中的數(shù)據(jù),為數(shù)據(jù)消費者提供了一個統(tǒng)一的、抽象的、封裝的邏輯數(shù)據(jù)視圖,無需物理搬運數(shù)據(jù)即可實現(xiàn)數(shù)據(jù)的統(tǒng)一訪問與管理。
“用戶通過這個邏輯視圖,可以查詢和操作存儲在異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),把多個異構(gòu)數(shù)據(jù)源當成一個同構(gòu)數(shù)據(jù)源使用,無需關心數(shù)據(jù)的位置、類型和格式,最終實現(xiàn)類似數(shù)據(jù)中臺的統(tǒng)一集中化的數(shù)據(jù)訪問和管理。”Aloudata大應科技CMO劉靚告訴,“數(shù)據(jù)編織與數(shù)據(jù)中臺最大的差異在于:無需事前物理集中數(shù)據(jù),事中運維 ETL 任務,事后計存治理(零搬運、免運維、自治理),為企業(yè)數(shù)據(jù)體系建設和數(shù)據(jù)管理架構(gòu)提供了一種全新的思路?!?/p>
另一方面,國際市場也看好數(shù)據(jù)編織架構(gòu)的發(fā)展。根據(jù)全球行業(yè)分析師報告,全球數(shù)據(jù)編織市場從2020年的11億美元,到2026年將達到37億美元,增長超過2倍。在此前,Gartner連續(xù)三年將數(shù)據(jù)編織(Data Fabric)列為“十大數(shù)據(jù)和分析技術趨勢”之一,更是在2024年的數(shù)據(jù)管理技術成熟度曲線里大幅提升數(shù)據(jù)編織的成熟度,預測該技術在未來2-5年內(nèi)會獲得廣泛應用。
在Gartner看來,數(shù)據(jù)編織是一種跨平臺的數(shù)據(jù)整合的方式,它不僅可以集合所有業(yè)務用戶的信息,還具有靈活且彈性的特點,使得人們可以隨時隨地使用任何數(shù)據(jù)。
從應用上看,劉靚告訴,目前國際上對于數(shù)據(jù)編織架構(gòu)的應用案例比較多,但是在國內(nèi)市場,數(shù)據(jù)編織架構(gòu)的應用仍處于發(fā)展的初期階段。
門檻更低,效率更高,哪些場景適合數(shù)據(jù)編織?
數(shù)據(jù)中臺在國內(nèi)已經(jīng)有了多年的發(fā)展歷史。數(shù)據(jù)中臺的概念最早由阿里巴巴在2014年前后提出并開始實施。阿里巴巴通過構(gòu)建數(shù)據(jù)中臺,解決了內(nèi)部多個業(yè)務線數(shù)據(jù)孤島的問題,實現(xiàn)了數(shù)據(jù)的統(tǒng)一管理和高效利用。此后,數(shù)據(jù)中臺的概念逐漸被廣泛認可和應用。
隨著數(shù)據(jù)中臺概念的普及,越來越多的企業(yè)認識到數(shù)據(jù)中臺的重要性,紛紛開始布局數(shù)據(jù)中臺建設。數(shù)據(jù)中臺的建設和應用,推動了企業(yè)的數(shù)字化轉(zhuǎn)型,也為企業(yè)帶來了新的商業(yè)機會和競爭優(yōu)勢。
但在Gartner 2024《創(chuàng)新洞察:數(shù)據(jù)基礎設施成為中國數(shù)據(jù)與分析生態(tài)系統(tǒng)的基石》報告中提出,純技術驅(qū)動的 "大而全 "的數(shù)據(jù)與分析平臺(如數(shù)據(jù)中臺)無法確保切實的商業(yè)回報,從而失去了利益相關者的支持。
究其原因,雖然單就國內(nèi)市場而言,數(shù)據(jù)中臺仍是大多數(shù)企業(yè)統(tǒng)一管理和交付數(shù)據(jù),以數(shù)據(jù)驅(qū)動數(shù)字化轉(zhuǎn)型的重要選項,但其復雜的架構(gòu)搭建,高昂的建設成本,以及持續(xù)的投入和較長的回報周期,讓企業(yè)開始思考和探尋新的數(shù)據(jù)架構(gòu)。并且數(shù)據(jù)中臺架構(gòu)的運作,高度依賴于專業(yè)的ETL工程師及相關工具,需要人工進行復雜且繁瑣的數(shù)據(jù)加工處理,然后交付數(shù)據(jù)給到前端消費者,而這不僅難以及時響應越來越快的業(yè)務需求,對于自服務的場景,也存在一定的門檻。除企業(yè)在使用數(shù)據(jù)中臺的過程中,也會存在數(shù)據(jù)反復搬運的情況,而這種情況也導致了企業(yè)使用數(shù)據(jù)中臺的成本不斷上升。
對此,西卡中國 BI 和數(shù)據(jù)負責人袁鶯表示,數(shù)據(jù)中臺主要提供統(tǒng)一的服務,其數(shù)據(jù)存儲模式主要是物理集中式的,相比之下,數(shù)據(jù)編織更多地提供虛擬化的邏輯集成方案,能夠在云上、本地系統(tǒng),以及多個存儲位置之間,構(gòu)建統(tǒng)一的虛擬訪問層,不僅解決了數(shù)據(jù)遷移的問題,還有助于應對數(shù)據(jù)合規(guī)性的問題。
換言之,數(shù)據(jù)編織架構(gòu)的出現(xiàn),能夠讓企業(yè)以更低的成本,更快的速度,以及更好的合規(guī)性,實現(xiàn)全域數(shù)據(jù)的整合集成,及時響應業(yè)務需求,賦能產(chǎn)品創(chuàng)新和業(yè)務決策等。
首先,從技術與業(yè)務場景的匹配度來說。企業(yè)一方面在強調(diào)“讓技術服務于業(yè)務”,數(shù)據(jù)體系建設最簡單樸素的目標是“讓業(yè)務及時用上好數(shù)據(jù)”;另一方面,企業(yè)應用技術的現(xiàn)狀又是“技術落后于業(yè)務”的,尤其是企業(yè)業(yè)務變化越來越快,技術的響應卻跟不上業(yè)務變化的節(jié)奏。數(shù)據(jù)中臺“打固定靶”的開發(fā)模式顯然難以賦能業(yè)務靈活創(chuàng)新。在康明斯中國區(qū)首席架構(gòu)師徐志蔚看來,數(shù)據(jù)編織最大的優(yōu)勢在于,能夠推進自服務場景?!熬蛿?shù)據(jù)而言,業(yè)務部門本身是最了解數(shù)據(jù)的,如果業(yè)務部門無法直接獲取所需數(shù)據(jù)進行分析,則可能導致數(shù)據(jù)處理過程中的誤解與偏差?!毙熘疚抵赋觯巴ㄟ^數(shù)據(jù)編織,企業(yè)可以將數(shù)據(jù)分析的能力給到業(yè)務,無需依賴 ETL 開發(fā),即時獲取并充分利用數(shù)據(jù)價值?!?/p>
其次,從技術的組織就緒度來說。基于數(shù)據(jù)中臺的解決方案存在眾多的產(chǎn)品供應商和服務實施商,很容易讓人誤以為數(shù)據(jù)體系建設等同于數(shù)據(jù)中臺的一次性部署和不定期的數(shù)據(jù)代碼外包開發(fā)。而這種想法過于簡單了,簡化來看,數(shù)據(jù)開發(fā)和管理可以劃分為數(shù)據(jù)集成、數(shù)據(jù)加工和數(shù)據(jù)服務三大步驟,在這三個步驟中,企業(yè)不能單純的依靠供應商提供的項目管理服務,要想更好地應用數(shù)據(jù)中臺服務業(yè)務,企業(yè)需要組建一支自己的數(shù)據(jù)團隊,以便更好地推動企業(yè)內(nèi)部的數(shù)據(jù)變革,而這點對于大多數(shù)企業(yè)而言,是一筆不小的開支。
最后,在這個各行業(yè)都在追求降本增效的當下,很多企業(yè)的CIO都曾向表示,企業(yè)在應用數(shù)字技術的時候,會將ROI放在比較靠前的位置考慮。而數(shù)據(jù)中臺的建設理念通常強調(diào)了數(shù)據(jù)的“應存盡存”,通過ETL將全域數(shù)據(jù)進行物理集中存儲,并采用面向數(shù)據(jù)建模的方法構(gòu)建數(shù)據(jù)中間層和采用面向業(yè)務建模的方法構(gòu)建數(shù)據(jù)應用層,層與層之間以及層的內(nèi)部都有相應的數(shù)據(jù)搬運和拷貝,存在數(shù)據(jù)快速膨脹的現(xiàn)象。這意味著數(shù)據(jù)中臺建設成本不僅包括硬件相關的存算基礎設施,也包括一系列的數(shù)據(jù)開發(fā)與管理工具,還包括建模、開發(fā)、運維與管理的大量人力投入,前期TCO(Total Cost of Ownership,總擁有成本)至少百萬元。
隨著企業(yè)數(shù)智化的深入,數(shù)據(jù)源、數(shù)據(jù)類型、數(shù)據(jù)規(guī)模、數(shù)據(jù)需求在快速變化,數(shù)據(jù)鏈路和數(shù)據(jù)工程的復雜度在持續(xù)增加,任務運維和數(shù)據(jù)治理的工作量在指數(shù)級增長,數(shù)據(jù)體系的成本投入隨之也水漲船高,成為CIO無法繞開的難題。Aloudata CEO周衛(wèi)林對此指出,數(shù)字化本身的目標是幫助企業(yè)降本增效,但是數(shù)據(jù)中臺架構(gòu)的大規(guī)模初始投資和持續(xù)投資卻讓數(shù)據(jù)體系本身成為了成本中心。
所以,通過數(shù)據(jù)編織,可以有效地解決企業(yè)數(shù)字化轉(zhuǎn)型過程中的效率、成本、組織、合規(guī)等各個方面的問題。而對于擁有充足資金和人才儲備的大型企業(yè)而言,建設數(shù)據(jù)中臺當然可以一步到位,而且也可作為企業(yè)底層數(shù)字基礎,但數(shù)據(jù)編織能夠解決數(shù)據(jù)敏捷交付、跨域合規(guī)使用等問題,可以與數(shù)據(jù)中臺形成補充。袁鶯表示:“它們并非相互替代的關系,而是可以相互融合、互為補充?!睂τ谕顿Y謹慎和人才儲備不足的數(shù)字化初階企業(yè)而言,應用數(shù)據(jù)編織顯然能讓他們以更低的成本,更快的速度上線業(yè)務,同時也可以滿足他們業(yè)務隨時變化、調(diào)整的需求。
綜合來看,當企業(yè)選擇數(shù)據(jù)中臺或是數(shù)據(jù)編織架構(gòu)的時候,企業(yè)要考慮自身是否具備充足的資金、充足的數(shù)據(jù)人才儲備,以及業(yè)務變化速率的快慢,再進行選擇。劉靚告訴,對于企業(yè)而言,有三個場景比較適合數(shù)據(jù)編織架構(gòu)。首先,就是不想耗費過多的人力、財力去建設數(shù)據(jù)中臺,但又同時有著數(shù)字化轉(zhuǎn)型需求的企業(yè),通常這些企業(yè)還擁有敏捷性的訴求。
其次,對于組織架構(gòu)龐雜的大型企業(yè),在開展多子公司數(shù)據(jù)湖倉跨域,甚至是跨境聯(lián)合數(shù)據(jù)查詢的過程中,數(shù)據(jù)編織能夠在確保安全的前提下,提供快速整合多湖倉數(shù)據(jù)的能力,而就Aloudata觀察來看,目前這部分訴求比較大的企業(yè)主要集中在金融機構(gòu)、能源與制造業(yè)和汽車行業(yè)。
最后,對于部分統(tǒng)一建設了數(shù)據(jù)中臺的企業(yè),能夠?qū)?shù)據(jù)編織作為數(shù)據(jù)中臺的補充,用于滿足業(yè)務自助敏捷用數(shù)的場景。
三個評估維度、兩個關鍵指標,用好數(shù)據(jù)編織
“相對于數(shù)據(jù)中臺,在國內(nèi),真正將數(shù)據(jù)編織這一架構(gòu)理念付諸實踐的企業(yè)仍屬罕見。”劉靚認為,造成這一現(xiàn)象的原因在于眾多企業(yè)苦于缺乏清晰可參考的實踐方法論與價值評估框架。為此,國內(nèi)Data Fabric架構(gòu)理念的實踐者與引領者Aloudata日前正式發(fā)布了《數(shù)據(jù)編織價值評估指南》白皮書,提出了業(yè)界首個數(shù)據(jù)編織價值實現(xiàn)評估框架。
這本白皮書的發(fā)布源自Aloudata多年的實踐。早些年,創(chuàng)始團隊親自操刀和參與了螞蟻集團的數(shù)據(jù)平臺的建設和管理,在洞察到數(shù)據(jù)中臺普遍存在的ROI、難以支持敏捷用數(shù)及自服務場景、過度依賴ETL等問題后,提出了“NoETL”的創(chuàng)新理念,并由此自研了數(shù)據(jù)虛擬化技術,打造了國內(nèi)首個邏輯數(shù)據(jù)編織平臺Aloudata AIR,積極推進在各行業(yè)的落地應用?!芭c其他企業(yè)不同,我們不是因為先有了數(shù)據(jù)編織的概念,再去落地相關技術和產(chǎn)品,我們是從實踐中走來。事后看,我們的‘NoETL’理念與數(shù)據(jù)編織高度契合,也就自然成為數(shù)據(jù)編織架構(gòu)理念的擁立者、實踐者和引領者?!盇loudata CEO周衛(wèi)林如是說。
在白皮書中,Aloudata緊緊圍繞“讓業(yè)務及時用上好數(shù)據(jù)”這一點,提出了“提升數(shù)據(jù)交付效率”、“降低數(shù)據(jù)膨脹系數(shù)”、“減少數(shù)據(jù)管理成本”三個評估維度,并提供了“當天需求滿足率”和“當天數(shù)據(jù)動銷率”兩個關鍵指標,以幫助業(yè)務進行量化評估。
在提升數(shù)據(jù)交付效率方面,企業(yè)需要觀察,通過數(shù)據(jù)編織架構(gòu)能否端到端地提升了從數(shù)據(jù)集成、整合到服務的交付效率,將數(shù)據(jù)需求的響應周期,從“周”縮短到“天”。
在降低數(shù)據(jù)膨脹系數(shù)方面,企業(yè)需要評估,能否從機制設計上系統(tǒng)化地減少數(shù)據(jù)拷貝,節(jié)約存算資源,提升存算的有效性和經(jīng)濟性,“對于企業(yè)來說,使用好數(shù)據(jù)編織架構(gòu)的話,至少能夠節(jié)約30%的存算成本?!眲㈧n指出。
在減少數(shù)據(jù)管理成本方面,企業(yè)需要評估,是否通過數(shù)據(jù)編織架構(gòu),簡化了系統(tǒng)技術概念,降低數(shù)據(jù)平臺的應用門檻,并減少了日常運維成本,提升數(shù)據(jù)管理的自動化水平和增強數(shù)據(jù)平臺的智能化能力,“在這方面,根據(jù)Aloudata觀察,應用好的企業(yè),至少可以節(jié)省70%的數(shù)據(jù)管理成本?!眲㈧n說。
與此同時,通過“當天需求滿足率”和“當天數(shù)據(jù)動銷率”兩個關鍵指標,企業(yè)還能夠?qū)?shù)據(jù)編織架構(gòu)的應用效果進行量化評估。
在Aloudata看來,當天需求滿足率是站在業(yè)務方視角評估和感受數(shù)據(jù)平臺能力和價值的唯一核心指標,也是數(shù)據(jù)產(chǎn)生業(yè)務價值的重要體現(xiàn)之一。“通過觀測業(yè)務數(shù)據(jù)化運營需求的當天滿足率可以比較好地衡量一家企業(yè)的數(shù)據(jù)交付效率?!眲㈧n如是說。
而數(shù)據(jù)動銷率則是對存算資源是否合理使用的量化指標—即當天有更新的數(shù)據(jù)在當天或未來段時間內(nèi)(比如 30天內(nèi))的使用率(有沒有下游場景對數(shù)據(jù)產(chǎn)生訪問)。通常一個基于數(shù)據(jù)中臺理念構(gòu)建的數(shù)據(jù)平臺,30天內(nèi)的數(shù)據(jù)動銷率不會超過50%——即有大量的存算資源用于數(shù)據(jù)的更新,但卻沒有產(chǎn)生使用,而是被浪費了。如果計算數(shù)據(jù)的動銷熱度,比如一次數(shù)據(jù)更新帶來三次以上的數(shù)據(jù)使用,稱為熱銷,那么數(shù)據(jù)當日三次熱銷率會更低,通常低于10%,數(shù)據(jù)當月三次熱銷率通常低于30%。
劉靚表示,數(shù)智化程度越高的企業(yè),比如偏互聯(lián)網(wǎng)性質(zhì)的公司,這個比例會越低,因為業(yè)務變化快,有大量臨時性的、過期的數(shù)據(jù)更新沒有及時獲得清理。
通過三個維度,兩個指標,企業(yè)可以在使用數(shù)據(jù)編織架構(gòu)的過程中,更好地掌握自身數(shù)字架構(gòu)使用實現(xiàn)了真正的價值,從而更好地激發(fā)數(shù)據(jù)價值,賦能業(yè)務發(fā)展。
從應用上看,目前國內(nèi)也已經(jīng)有一些企業(yè)在數(shù)據(jù)編織應用方面產(chǎn)生了良好的“化學反應”,以首創(chuàng)證券為例,初始階段,首創(chuàng)證券在構(gòu)建數(shù)據(jù)倉庫時,面臨了人員短缺與Hadoop技術棧不熟悉的挑戰(zhàn)。傳統(tǒng)Hadoop數(shù)倉體系需要龐大的ETL開發(fā)團隊和深厚的技術積累,這對于僅有少量數(shù)據(jù)工程師的首創(chuàng)證券來說,無疑是一大難題。
而數(shù)據(jù)編織為首創(chuàng)證券提供了解題思路,通過Aloudata AIR邏輯數(shù)據(jù)編織平臺,首創(chuàng)證券成功構(gòu)建了一個邏輯數(shù)倉,將各業(yè)務系統(tǒng)的數(shù)據(jù)無縫連接。在ODS層實現(xiàn)邏輯連接后,DWD層則用于沉淀數(shù)倉的歷史數(shù)據(jù)。這種分層策略不僅簡化了數(shù)倉結(jié)構(gòu),還實現(xiàn)了數(shù)據(jù)的按需加速與物化,大大提高了數(shù)據(jù)處理的靈活性。
首創(chuàng)證券的源頭數(shù)據(jù)庫多達一百多個,涉及幾萬張表。在傳統(tǒng)方案下,僅集成這些數(shù)據(jù)就可能產(chǎn)生成千上萬的任務,耗時費力。部署完成后,通過Aloudata AIR,這些表在短短一天內(nèi)就完成了集成。更真正在明細層沉淀的物理表數(shù)量不到100張,大大降低了數(shù)據(jù)管理的復雜度。報表的查詢響應率也顯著提升,一秒內(nèi)響應率達到95%。這得益于DWD層的數(shù)據(jù)加速與沉淀策略,以及應用層查詢的自動路由機制,確保了查詢的高效執(zhí)行。(本文首發(fā)于,作者|張申宇,編輯丨蓋虹達)