英偉達GB300 GPU液冷引入新供應商新方案
液冷技術:從GB200到GB300的躍遷
英偉達GB300系列AI服務器被視為下一代高性能計算的標桿,其液冷技術方案的革新尤為引人注目。
GB200的液冷基石
在GB200的設計中,液冷技術已經展現出英偉達對高密度算力散熱的深刻理解。以一個compute tray(計算托盤)為例,其冷板配置采用“一進一出”的設計,每個大冷板通過一對快接頭與液冷系統相連。多個冷板回路經由manifold(分流器)匯集成一個整體回路,最終連接至機箱外殼。一個compute tray內部理論上包含兩對快接頭(冷板側),加上與manifold連接的兩對,總計需要六對快接頭。以NVL72系統為例,18個compute tray共需108對快接頭,再加上9個switch tray(每個兩對),整個系統快接頭總數達到126對。
來源: 臺達電、Nidec、高力、DANFOSS
GB200的快接頭設計中,冷板與manifold之間的連接均采用快接頭,每根管子兩端各配有一對(母端在冷板側,公端在manifold側)。值得一提的是,冷板上的母端快接頭因結構隱藏在扣環內,外觀上不易察覺,而manifold側的公端較為凸出。這種設計在拆機圖中常引發誤解,但實際上快接頭無處不在,確保了液冷系統的靈活性和可維護性。
來源: NVIDIA、Nidec、CoolIT、Danfoss
GB300的液冷革命
相比GB200,GB300在液冷設計上邁出了大膽一步。最顯著的變化在于冷板結構的革新:GB300摒棄了大面積冷板覆蓋多個芯片的模式,轉而為每個芯片配備獨立的“一進一出”液冷板。以NVL72系統為例,一個compute tray包含6個芯片,每個芯片對應兩對快接頭(進出各一對),共12對,加上與manifold連接的兩對,總計14對快接頭。整個系統18個compute tray的快接頭數量因此激增至252對,較GB200的108對翻倍有余。
這種獨立冷板設計的背后,是對算力密度提升的響應。GB300的芯片布局更加緊湊,傳統大冷板已無法滿足散熱需求,而獨立冷板不僅提高了散熱效率,還為未來的模塊化升級提供了可能。然而,這一變化也顯著增加了快接頭的使用量和系統復雜性。
相較前代GB200,GB300的液冷設計在結構、效率和供應鏈上均實現了突破:
獨立液冷板設計
GB300摒棄了GB200的大面積冷板覆蓋方案,改為每個GPU芯片配備獨立的一進一出液冷板。這一設計顯著提升了散熱效率,同時允許更靈活的硬件配置。例如,在NVL72系統中,單個computetray的液冷板快接頭數量從GB200的6對增至14對,系統總接頭數達252對,是GB200的2倍。
快接頭小型化與成本優化
GB300采用新型快接頭NVUQD03,尺寸縮小至原型號的1/3,單顆價格從GB200的70-80美元降至40-50美元。這一變化既適應了高密度芯片布局的需求,也降低了整體液冷系統的成本。
散熱效率與可靠性挑戰
盡管小型化可能增加漏液風險,但GB300通過優化密封工藝和加速測試(如插拔測試、材質可靠性驗證)確保穩定性。冷板與manifold的連接仍采用快接頭,但冷板端采用隱藏式母端設計,外觀更緊湊。
供應鏈重構:從CPC到CoolerMaster的轉向
GB300的液冷供應鏈體系發生了顯著變化:
供應商格局重塑
GB200時代,快接頭主要由CPC和Staubli主導,而GB300則引入CoolerMaster、AVC(富士達)和立敏達等新廠商。CoolerMaster憑借與英偉達的緊密合作率先通過驗證,成為初期量產主力,占據主導地位。
技術門檻與驗證周期
快接頭小型化帶來的高精度組裝和密封要求,迫使廠商投入更嚴格的測試流程。例如,CoolerMaster已完成數百小時加速壽命測試,而AVC和立敏達仍處于驗證階段。
國內供應鏈的潛在機會
盡管CoolerMaster的工廠分布保密,但其部分產能可能依托中國大陸的Tier2供應商。高瀾股份、英維克等中國廠商雖未直接參與快接頭制造,但其液冷機柜和冷板解決方案在數據中心市場的滲透率逐步提升。
與GB200時期由CPC和Staubli主導的供應鏈體系不同,GB300的供應鏈選擇反映了英偉達對快速迭代和小批量驗證的需求。NVUQD03的小型化設計對組裝公差、密封性能和斷水功能提出了更高要求,國外廠商的謹慎態度可能使其錯失先機。
小型化的雙刃劍
NVUQD03的尺寸縮小旨在解決空間受限問題,但并未降低漏液風險,反而因密封面積減小和組裝精度要求提升而增加了潛在隱患。為確保可靠性,供應商需進行包括加速測試、插拔測試及材質可靠性測試在內的數百小時驗證。目前,CoolerMaster已完成初步驗證,但整體測試仍在進行中,量產穩定性仍需時間檢驗。
液冷設計的未來趨勢
沿用與創新并存
GB300在冷板設計上的革新并未全面推翻GB200的體系。manifold、CDU(冷卻分配單元)及cartridge等組件均沿用原有設計,僅在核心散熱模塊上進行了調整。這種策略既降低了開發成本,又確保了系統的兼容性。
水冷全面化的前景
當前,GB300的switch tray仍以氣冷為主,僅主芯片采用水冷。然而,英偉達已透露出全面轉向水冷的計劃,包括前端transceiver連接器在內的所有組件都可能配備液冷模塊。未來,每個光模塊或將單獨配備液冷板,取代快接頭的銅管焊接設計將成為主流。這一轉變將顯著提升制造工藝復雜性和成本,但也為超高密度算力的實現鋪平道路。現階段,這一方案仍處于設計階段,具體落地形式尚未明朗。
供應商交付與市場份額
CoolerMaster在GB300項目中的領先地位為其贏得了先發優勢,但AVC和立敏達的后續表現仍可能改變格局。目前,冷板及快接頭模塊的供應以CoolerMaster為主導,其中國大陸工廠或將借助國內Tier 2供應鏈支持生產,但具體合作伙伴信息尚不明朗。市場預測顯示,隨著GB300量產推進,快接頭價格有望進一步下降,整體液冷方案的成本效益將逐步顯現。
液冷技術的延伸:從芯片到光模塊
GB300的液冷方案不僅限于GPU:
Switchtray的散熱轉型
當前switchtray仍以氣冷為主,但未來可能全面轉向水冷。若光模塊(如ConnectX-8 SuperNIC)采用液冷,每個光纖接頭需獨立液冷板,可能通過銅管焊接而非快接頭連接,進一步推高成本。
液冷與電源協同設計
單機柜功率密度攀升至140kW,液冷需與高效電源(如DrMOS)協同。GB300通過優化DrMOS設計降低電源成本35-40%,同時超級電容模組(盡管部分型號可能移除)被用于平抑毫秒級負載波動。
市場前景:液冷技術的“新石油”價值
需求爆發與市場規模
據機構預測,2030年全球液冷市場規模將達213億美元,中國液冷服務器市場年復合增長率47.6%。GB300的推出將加速這一進程,僅其快接頭需求在2025年或超1.5億顆。
技術競爭與生態壁壘
英偉達通過液冷方案綁定核心供應商(如CoolerMaster),形成技術生態壁壘。競爭對手需在小型化快接頭、高精度制造等領域突破,方能分羹市場。
GB300能否填滿AI的“渴望深淵”?
GB300的液冷技術雖顯著提升了算力密度與能效,但挑戰猶存:
成本壓力:頂配服務器價格超300萬美元,中小企業難以承受。
技術風險:小型化快接頭的長期可靠性仍需驗證,漏液風險可能影響數據中心穩定性。
生態依賴:供應鏈高度集中(如CoolerMaster主導)可能制約產能彈性。
GB300的液冷方案不僅是散熱技術的迭代,更是算力時代基礎設施的重構。其成功將取決于供應鏈協同、成本控制與長期可靠性驗證。若英偉達能平衡這些因素,GB300或將成為AI“新石油”時代的關鍵油井,推動算力革命邁向新高度。
液冷效率的全面分析
在數據中心日益增長的計算密度和熱負荷背景下,液冷技術已成為高效散熱的關鍵解決方案。本報告深入分析液冷效率,涵蓋其工作原理、與空氣冷卻的比較、不同類型效率以及實施中的挑戰與機遇,旨在為數據中心運營者提供全面指導。
液冷技術的定義與工作原理
液冷利用液體(如水、乙二醇混合物或特殊冷卻劑)通過循環系統吸收電子組件的熱量,并通過散熱器或冷卻塔將熱量排至外部環境。與傳統的空氣冷卻(依靠風扇和空調)相比,液冷利用液體更高的熱傳導性和比熱容,實現更高效的熱傳遞,特別適合高性能計算設備,如AI服務器和GPU集群。
效率評估指標
評估液冷效率的關鍵指標包括:PUE(電力使用效率):總能耗與IT設備能耗的比率,較低的PUE表示更高效率。
COP(性能系數):冷卻系統移除的熱量與運行該系統所需的能量之比,反映能效。
這些指標幫助量化液冷在能耗和熱管理方面的表現。
與空氣冷卻的效率比較
研究表明,液冷在熱效率和能效方面顯著優于空氣冷卻:
熱效率:液體熱傳導率高出空氣1000倍(Data Center Liquid Cooling - Is It Time for an Upgrade?),能更有效地移除高熱密度(如超過20kW的機架),保持設備低溫運行。
能效提升:NVIDIA和Vertiv的研究顯示,高密度機架采用液冷后,PUE從1.5降至1.3,總能耗減少13%(Quantifying the Impact on PUE and Energy Consumption When Introducing Liquid Cooling Into an Air-cooled Data Center)。另一研究指出,全面實施液冷可減少設施能耗18.1%,總數據中心能耗減少10.2%(How Does Your Cooling System Affect Your Data Center’s PUE?)。
空間效率:液冷支持更高IT密度,允許在相同空間內部署更多計算資源,優化數據中心布局。
液冷類型的效率分析
液冷系統可分為以下類型,各有不同效率特點:
直接芯片冷卻:液體直接接觸芯片或熱擴散器,熱阻最小,效率最高,適合高熱通量設備。
冷板冷卻:通過附著在服務器上的冷板循環液體,熱傳遞效率高,適用于標準機架。
浸沒冷卻:服務器完全浸沒在絕緣液體中,提供均勻冷卻,特別適合超高密度計算,但需使用特殊介質,可能增加成本。
實施中的挑戰與局限
盡管液冷效率高,但實施面臨以下挑戰:
初期成本與復雜性:液冷系統需額外泵、散熱器和管道,初期投資高于空氣冷卻,維護也更復雜。
基礎設施要求:現有空氣冷卻數據中心需改造以支持液冷,可能涉及重大工程。
可靠性與維護:液冷系統存在泄漏風險,需定期檢查和維護以確保可靠性。
可持續性與額外優勢
液冷不僅提升效率,還支持熱能再利用。例如,廢熱可用于加熱建筑物或工業過程,降低碳足跡。這在追求可持續發展的數據中心中尤為重要。
實際案例與行業趨勢
實際案例顯示,采用液冷的數據中心如Facebook的Lule?數據中心(PUE 1.09)和Google的Hamina數據中心(PUE 1.10)達到行業領先效率。隨著AI和大數據需求的增長,液冷市場預計至2026年達30億美元,成為數據中心冷卻的未來趨勢。
結論
液冷技術在數據中心中展現出顯著的熱效率和能效優勢,特別適合高密度計算負載。其PUE降低和能耗減少為數據中心運營提供了經濟和環境效益。盡管初期成本和復雜性較高,但長期節能和可持續性潛力使其成為不可或缺的解決方案。
GB300芯片組液冷系統的參考設計與量產工藝在AI算力需求激增的背景下,英偉達的GB300芯片組作為下一代高性能計算核心,其液冷技術成為關鍵。背景與技術概述GB300芯片組相較于前代GB200,采用每個芯片獨立冷板的設計。GB200使用大面積冷板覆蓋多個芯片,而GB300為每個芯片配備單獨的“一進一出”液冷板。這種轉變旨在應對更高算力密度下的散熱需求。以NVL72系統為例,每個計算托盤(compute tray)包含6個芯片,總計108個芯片。每個冷板通過快速接頭連接至分流器(manifold),系統總熱負荷根據假設為54千瓦。
快速接頭采用新型NVUQD03,尺寸縮小至原先的三分之一,單價降至40-50美元,主要供應商包括CoolerMaster、AVC(旗下富士達)和立敏達(Readore)。
液冷系統的參考設計
冷板設計
·結構:每個芯片配備獨立冷板,采用微通道或針狀鰭片結構以最大化熱傳導。研究表明,微通道熱沉的熱傳導率遠高于傳統設計,需優化流道布局避免局部熱點(Microchannel Heat Sinks)。
·材料:選用銅或鋁,銅導熱性高但成本較高,鋁則更經濟。設計需確保芯片溫度均勻分布,維持在80°C以下。
·連接:冷板通過熱界面材料(TIM)如導熱硅脂或焊料附著于芯片,確保熱接觸良好。
冷卻液選擇
·選用水或水乙二醇混合物,熱容量高,兼容性好。研究顯示,水基冷卻液在高性能計算中表現優異(Liquid Cooling in Data Centers)。
泵系統
·泵需提供足夠流量和壓力,克服系統壓降。假設每個冷板流量約1.43升/分鐘(基于500瓦芯片功耗,溫差5°C),計算托盤總流量8.58升/分鐘,系統總流量154.44升/分鐘。
熱交換器
·熱交換器(如散熱器或冷水機)需排熱54千瓦。假設冷卻液入口溫度40°C,環境溫度25°C,需設計足夠換熱面積,配合風扇輔助散熱。
分流器設計
·分流器(manifold)連接6個冷板,確保流量均勻分布。設計需考慮流體動力學,減少壓降,可能采用流量控制閥。
快速接頭
·每個冷板有兩對快速接頭(入口和出口各一對),總計14對/計算托盤(12對冷板,2對分流器)。NVUQD03尺寸小,需確保密封性和耐久性,研究顯示小型化可能增加漏液風險(Liquid Cooling: The Sustainable Solution Driving Efficiency in Data Centers)。
量產工藝流程
量產需標準化制造和組裝,確保效率和可靠性:
1.冷板制造
o工藝:使用CNC加工或注塑成型,創建微通道結構。對于大規模生產,注塑成型更經濟。
o材料處理:銅或鋁板材,通過精密加工確保尺寸精度,微通道可通過光刻或3D打印實現。
o質量控制:每塊冷板測試熱性能和泄漏,需通過壓力測試。
2.組裝過程
o冷板與芯片連接:使用導熱硅脂或焊料附著冷板于芯片,確保熱接觸良好。
o快速接頭連接:將NVUQD03快速接頭安裝于冷板入口和出口,需確保密封性。
o分流器組裝:將6個冷板通過管道連接至分流器,需確保流體路徑無堵塞。
o系統集成:多個計算托盤通過管道連接至中央泵和熱交換系統,需測試整體性能。
3.質量控制與測試
o單體測試:每塊冷板測試泄漏和熱性能,需進行數百小時加速測試和插拔測試。
o系統測試:整體系統測試流量分布、溫度控制和壓降,確保芯片溫度低于80°C。
o可靠性驗證:模擬長期運行,測試密封性和耐久性,目前CoolerMaster已完成初步驗證(H100 GPU from NVIDIA)。
參數表
行業趨勢與未來展望
液冷技術市場預計至2026年達30億美元,AI數據中心對高效率散熱需求推動創新(Liquid and Immersion Cooling Options for Data Centers)。GB300的獨立冷板設計提升散熱效率,但量產中需克服小型化部件的制造精度和供應鏈協調挑戰。未來可能通過自動化生產和材料創新進一步降低成本。
結論GB300芯片組的液冷系統設計需平衡熱效率和制造可行性,量產工藝需標準化以確保可靠性。參數如流量和熱負荷為行業提供了參考,助力AI算力中心的建設。
附:越南廠務服務內容