戴爾AI工作站實(shí)測：性能與成本雙贏，企業(yè)大模型部署新選擇？

發(fā)布時間：2024-10-12 17:06 來源：ITBEAR 作者：鐘景軒

隨著大模型技術(shù)的日益成熟，越來越多的企業(yè)開始考慮將其應(yīng)用于生產(chǎn)環(huán)境。然而，高昂的訪問費(fèi)用和數(shù)據(jù)中心資源緊張的問題，使得大模型的本地化部署成為了一個熱門話題。近日，我們針對大模型本地化部署進(jìn)行了一系列測試，探索了其在企業(yè)級AI應(yīng)用中的潛力和優(yōu)勢。

測試選用了Dell Precision 7960 Tower工作站，搭載了四張NVIDIA RTX 5880 Ada顯卡，總計(jì)192GB顯存，足以應(yīng)對70B大模型的部署需求。我們分別測試了單卡、雙卡以及四卡GPU在不同模型下的推理和訓(xùn)練表現(xiàn)。

在推理測試中，我們選擇了不同大小的模型，包括8B、13B、32B和70B，并分別進(jìn)行了短輸入短輸出和長輸入長輸出的測試用例。結(jié)果顯示，無論是單卡、雙卡還是四卡配置，Dell Precision 7960 Tower都能夠提供穩(wěn)定且高效的推理性能。特別是在四卡配置下，70B模型的吞吐率達(dá)到了1730 token/s，平均總時延僅為27秒左右，首字時延8秒左右，表現(xiàn)非常理想。

在訓(xùn)練測試中，我們使用了Llama-Factory對不同數(shù)量的GPU進(jìn)行了訓(xùn)練任務(wù)的測試。結(jié)果顯示，無論是8B、13B還是32B和70B的模型，Dell Precision 7960 Tower都能夠提供高效的訓(xùn)練性能，算力利用率高達(dá)82%以上。特別是在四卡配置下，8B模型的全參微調(diào)訓(xùn)練吞吐率接近Qlora的表現(xiàn)，達(dá)到了67.4 token/s的水平。

除了性能和效率，我們還特別關(guān)注了Dell Precision 7960 Tower的噪音控制。在訓(xùn)練測試過程中，四張顯卡平均利用率80-90%的情況下，我們測得平均56分貝的水平；在推理測試中，測得接近50分貝的水平?？傮w上噪音控制得非常好，相當(dāng)安靜，基本上對辦公室工作沒有影響。

通過這次測試，我們可以看到，Dell Precision 7960 Tower工作站完全能夠滿足企業(yè)級AI應(yīng)用的需求。無論是推理還是訓(xùn)練，無論是小模型還是大模型，它都能夠提供穩(wěn)定且高效的性能。同時，其超靜音的優(yōu)勢也使得它成為沒有機(jī)房的企業(yè)團(tuán)隊(duì)的理想選擇。對于想要突破企業(yè)數(shù)據(jù)中心訪問限制、實(shí)現(xiàn)AI自由的小伙伴們來說，Dell Precision 7960 Tower無疑是一個值得考慮的選擇。

更多>同類內(nèi)容