文 | 半導體產業(yè)縱橫
在科技飛速發(fā)展的時代,半導體行業(yè)始終是焦點所在。AI 芯片領域更是猶如戰(zhàn)場,各大廠商你爭我奪。
近日,AMD 推出新款芯片 MI325X,并隨之更新了 AI 芯片路線圖,這一舉措在業(yè)內引發(fā)了強烈反響。與此同時,人們廣泛熱議,AMD是否能夠向英偉達的領導地位發(fā)起有力挑戰(zhàn)?AMD 又能從這場激烈的競爭中攫取多少勝利的果實?除了AMD,英偉達需要面臨的挑戰(zhàn)還有哪些?
在此之前,一起了解一下AMD的新款芯片MI325X帶來哪些亮點?以及其最新的AI芯片路線圖又透露了何種信息。
MI325X,能否與B200掰手腕?
AMD最新推出的Instinct MI325X AI加速器,在大獲成功的MI300X基礎上再進一步,著重增強了HBM內存部分。
在AMD的表述中,主要將其與英偉達前代產品H200進行對比,而在今年3月,英偉達發(fā)布了其新款AI芯片B200。至于AMD這款新品與英偉達的H200相比有哪些亮點,這款產品有沒有能力與英偉達的最新GPU B200掰掰手腕?
為了對比更為詳盡,本文再次將這幾款產品進行對比。
AMD最新推出的Instinct MI325X AI加速器采用了AMD CDNA 3 GPU架構,內置1530億個晶體管,配備256GB下一代HBM3E高帶寬內存,提供6TB/s的內存帶寬。MI325X在FP8和FP16精度下分別達到2.6 PF和1.3 PF的峰值理論性能。
作為對比,英偉達3月發(fā)布的基于Blackwell架構的B200 GPU基于臺積電的N4P制程工藝,擁有高達2080億的晶體管數量和192GB的HBM3e內存容量,提供了8TB/s的內存帶寬,以及20PF的FP8峰值性能。
英偉達B200 GPU的AI運算性能在FP8及新的FP6上都可達20 PF,是前一代Hopper構架的H100運算性能8 PF的2.5倍。在新的FP4格式上更可達到40 PF,是前一代Hopper構架GPU運算性能8 PF的5倍。
從工藝制程上來看,MI325X未作披露,而B200采用上文所述的臺積電N4P制程工藝。
從晶體管數量來看,英偉達B200此數值兩倍于AMD MI325X。
從內存角度來看,AMD MI325X有著更高的內存容量,這可能使其在某些AI模型的推理性能上表現出色,但其帶寬低于英偉達B200的8 TB/s。
從FP8峰值性能來看,英偉達B200以20 PF的FP8峰值性能脫穎而出。雖然在浮點運算能力上,B200 整體上要優(yōu)于 MI325,但 MI325 的性能也足以滿足大多數人工智能和高性能計算的需求。
從量產時間來看,兩者的量產時間較為接近。AMD MI325X預計在2024年第四季度正式投產,2025年一季度開始向客戶交付。英偉達的B200芯片原計劃于今年晚些時候正式出貨,然而由于Blackwell產能問題影響,其新款Blackwell B200芯片將延遲發(fā)布三個月或更長時間,批量出貨或延遲至明年第一季度。
總體而言,AMD MI325X與英偉達B200相比,仍存在顯著差距。不過,與英偉達的前代產品H200 相比,MI325X的數據參數已有了大幅提升。
AMD數據顯示,MI325X與英偉達H200的集成平臺H200 HGX對比,MI325X平臺提供1.8倍的內存量、1.3倍的內存帶寬和1.3倍的算力水平。蘇姿豐還表示,在運行meta的Llama 3.1大模型時,MI325X的推理性能比H200高出40%。
未來AI芯片路線圖,再度更新
除了芯片的發(fā)布,AMD還公布了最新的AI芯片路線圖。
AMD的AI芯片布局
AMD Instinct MI350系列首款產品即Instinct MI355X,將引入新一代的CDNA 4架構,采用3nm工藝制造,搭配HBM3E,總容量進一步提升到288GB,對應帶寬提高到8TB/s,TDP也上升到1000W,計劃2025年下半年開始發(fā)貨。
按照AMD的說法,Instinct MI355X提供了2.3PF的FP16和4.6PF的FP8計算性能,相比前代產品的提升幅度約為77%。新產品還將支持新的數據類型,包括FP4和FP6。
另外,基于下一代AMD CDNA“Next”架構的AMD Instinct MI400 系列預計將于 2026 年上市。
英偉達的AI芯片布局
沿著規(guī)劃的AI藍圖,英偉達加速前行,接下來將一年就更新一代產品,以往通常是兩年更新一代。
今年6月,英偉達CEO黃仁勛帶來了最新的AI芯片路線圖。
眼下,Blackwell架構的GPU產品正在生產中,將成為2024、2025年的重要營收驅動。
接下來,英偉達計劃發(fā)布一個增強版Blackwell Ultra GPU(8S HBM3e 12H),預計將于2025年推出。這款芯片將擁有 8 堆疊 HBM3e 內存,每疊有 12 個die高。B100 中的疊層大概是 8 堆疊,因此這應該代表 Blackwell Ultra 上的 HBM 內存容量至少增加 50%,甚至可能更多,具體取決于所使用的 DRAM 容量。HBM3E 內存的時鐘速度也可能更高。
下一代Rubin GPU(8S HBM4)和相應的平臺將于2026 年上市,這款芯片在此前的英偉達路線圖中曾被稱為 X100,Rubin GPU 將使用 HBM4 內存,并將有 8 個堆棧,大概每個堆棧都有 12 個 DRAM。
隨后于2027 年的 Rubin Ultra GPU 將有 12 個 HBM4 內存堆棧,并且可能還有更高的堆棧。
為了有更直觀的對比,可以仔細查閱下圖:
那么,從技術路線圖的角度進行觀察,AMD 與英偉達在發(fā)展進程上似乎并沒有太大的差距。然而,在實際應用場景當中,這兩家企業(yè)之間的較量究竟呈現出怎樣一番景象呢?當產品真正投入到各種應用場景中時,無論是在游戲體驗、專業(yè)圖形處理,還是在人工智能等相關領域,AMD 和英偉達的產品會各自發(fā)揮出怎樣的性能?
較量之下,英偉達依舊是最大贏家
過去數年間,英偉達在數據中心GPU市場中占據了主導地位,幾乎構成了壟斷,而AMD則長期穩(wěn)居次席。
根據今年年初富國銀行的統(tǒng)計,英偉達目前在數據中心AI市場擁有98%的市場份額,而AMD僅有1.2%的市場份額,英特爾則只有不到1%。
近日,根據摩根士丹利分析師發(fā)布的報告稱,英偉達Blackwell GPU未來12個月的產能已經被預定一空。這意味著現在下訂單的新買家必須等到明年年底才能收到貨。摩根士丹利的分析師 Joseph Moore在給客戶的一份報告中指出,英偉達的傳統(tǒng)客戶(AWS、CoreWeave、Google、meta、Microsoft 和Oracle等)已經購買了英偉達及其合作伙伴臺積電在未來幾個季度將能夠生產的所有 Blackwell GPU。
如此壓倒性的需求可能表明,盡管來自AMD、Intel、云服務提供商(自研AI芯片)和各種小型公司的競爭加劇,但英偉達明年的AI芯片市場份額將會進一步增長。
不過,AMD并沒有因此沮喪。AMD在與英偉達的競爭中,長期將自身看作“市場的多一種選擇”。蘇姿豐此前表示,AI芯片市場足夠大,容得下多家企業(yè),“AMD不是必須要打敗英偉達才能成功”。
市場研究機構Moor Insights&Strategy首席分析師帕特里克·莫爾黑德(Patrick Moorhead)表示,“AMD面臨的最大挑戰(zhàn)是獲得企業(yè)市場份額。AMD需要在銷售和營銷方面投入更多資金,以加速其企業(yè)增長?!?/p>
從當前AI市場競爭格局來看,盡管 AMD 新款 GPU 較以往有所進步,但業(yè)界分析師認為,AMD 的技術至少落后英偉達一年。
不過,根據美國投資銀行和金融服務公司KeyBanc分析師約翰?溫(John Vinh)的分析,他認為今年AMD MI300X AI 加速卡的出貨量將突破 50 萬張。該分析師認為在數據中心領域,英偉達雖然一騎絕塵,AMD難以望其項背,但是 Instinct MI300X 憑借著卓越的實力,極高的性價比,成為行業(yè)客戶的重要備選方案,包括聯想在內的部分公司都認可 MI300X,這最終為 AMD 帶來了更多的業(yè)務。
在近日的芯片發(fā)布會上,AMD 還強調了與甲骨文、谷歌、微軟、meta 等廠商的合作關系,蘇姿豐稱,微軟、OpenAI、meta、Cohere 等多個廠商的生成式 AI 平臺已采用 MI300系列驅動。
至于英偉達究竟有何優(yōu)勢,以及基于哪些條件使其在 AI 盛行的時代脫穎而出,主要有以下幾點。
兩者對比,差距在哪里?
第一,英偉達的 AI 芯片本身性能就十分強悍。從架構設計上來看,英偉達的 AI 芯片采用了高度優(yōu)化的架構;在浮點運算能力方面,英偉達的 AI 芯片表現卓越。浮點運算能力是衡量芯片處理能力的關鍵指標之一;英偉達的芯片還具備出色的并行處理能力。AI 計算任務通常具有高度并行化的特點,英偉達的 AI 芯片通過集成大量的計算單元,能夠同時處理多個數據塊。這種并行處理能力可以讓芯片在處理 AI 任務時充分利用數據的并行性,進一步提高計算效率;在內存帶寬和緩存設計上,英偉達也有獨特的優(yōu)勢。
除了強悍的芯片性能,英偉達在以下幾個方面的努力也多有裨益。
第二,在研發(fā)投入方面,英偉達向來不惜 “血本”。據悉,英偉達在截至七月份的季度中錄得30.90億美元的研發(fā)費用。將這一數字按年計算,這家GPU制造商一年的累計研發(fā)費用約 123.6 億美元。
相比之下,AMD 在其截至6月底的季度中錄得15.93億美元的研發(fā)費用。將這一數字按年計算,該公司一年的累計研發(fā)費用為 63.72 億美元。換句話說,根據目前的年化預測,英偉達目前的研發(fā)投入是AMD的2倍。
其實在發(fā)展初期,英偉達就非常重視研發(fā)生產力。2005年,AMD 的研發(fā)費用為11億美元,是英偉達的3.2倍左右;而到了2022年,英偉達的研發(fā)費用就達到73.4億美元,是AMD的1.47倍。截至整個2024財年(2023年自然年),英偉達研發(fā)費用高達86.75億美元,是AMD同期研發(fā)費用的1.48倍。
過去10年(2014-2023自然年),英偉達累計投入費用高達364億美元,高于蘋果公司、微軟公司等科技巨頭。隨著研發(fā)投入的不斷增長,英偉達通過技術進步降低成本和產品價格,不斷推出新的產品吸引更多消費者,優(yōu)勢自然也逐漸凸顯。
第三,在生態(tài)布局方面,英偉達下手也頗早。英偉達推出CUDA平臺,使得利用GPU來訓練神經網絡等高算力模型的難度大大降低,將GPU的應用從3D游戲和圖像處理拓展到科學計算、大數據處理、機器學習等領域,這一生態(tài)系統(tǒng)的建立讓很多開發(fā)者依賴于CUDA,進一步增加了英偉達的競爭壁壘。
如今AMD在搶占市場份額時遇到的最大難題,就在于英偉達利用自家CUDA平臺,已在AI軟件開發(fā)領域建立起一條護城河,把不少開發(fā)人員牢牢綁定在了英偉達的生態(tài)系統(tǒng)里。作為應對,AMD一直在不斷優(yōu)化名為ROCm的軟件,目的就是讓AI開發(fā)人員能更輕松地把更多AI模型“搬”到AMD的芯片上。目前,ROCm的最新版本6.2,相較于舊版在推理和訓練上都有了超過2倍的提升。
第四,英偉達憑借早期與臺積電的緊密合作,得以在先進制程的獲取上搶占先機。在芯片制造中,先進制程工藝能夠顯著提升芯片的性能表現。英偉達與臺積電長期穩(wěn)定的合作關系,使其在芯片生產的供應鏈管理上更加成熟。這種成熟體現在生產計劃的精確安排、生產周期的有效控制以及產品良率的保障上。英偉達可以根據市場需求預測,合理安排芯片的生產計劃,確保產品能夠及時供應市場,滿足客戶需求。同時,在生產過程中,較高的產品良率意味著更低的生產成本和更高的生產效率。
相比之下,AMD 在爭取臺積電先進制程產能時,往往受到英偉達訂單的擠壓,在生產計劃和良率控制方面可能面臨更多的不確定性,這在一定程度上影響了 AMD 產品的市場競爭力和供貨穩(wěn)定性,進而導致其在 AI 芯片市場份額爭奪中處于劣勢。
結語
英偉達在研發(fā)投入、生態(tài)布局、生產制造以及芯片性能等方面都展現出強大的實力,這使其在當前的 AI 芯片市場中占據了絕對的主導地位。然而,AMD 并非毫無機會。盡管目前 AMD 在這些關鍵領域相較于英偉達處于劣勢,但它正在積極地做出改變和追趕。
隨著 AI 市場的不斷擴大和技術的持續(xù)迭代,未來充滿了變數。十年之后的AI芯片市場將呈現何種競爭格局,還未曾可知。