英偉達GB300 GPU液冷引入新供應商新方案

AIOT大數據發表于：2025-03-10 10:27:49 來自：暖通家

　　液冷技術：從GB200到GB300的躍遷　

　　英偉達GB300系列AI服務器被視為下一代高性能計算的標桿，其液冷技術方案的革新尤為引人注目。

　　GB200的液冷基石

　　在GB200的設計中，液冷技術已經展現出英偉達對高密度算力散熱的深刻理解。以一個compute tray（計算托盤）為例，其冷板配置采用“一進一出”的設計，每個大冷板通過一對快接頭與液冷系統相連。多個冷板回路經由manifold（分流器）匯集成一個整體回路，最終連接至機箱外殼。一個compute tray內部理論上包含兩對快接頭（冷板側），加上與manifold連接的兩對，總計需要六對快接頭。以NVL72系統為例，18個compute tray共需108對快接頭，再加上9個switch tray（每個兩對），整個系統快接頭總數達到126對。

來源: 臺達電、Nidec、高力、DANFOSS

　　GB200的快接頭設計中，冷板與manifold之間的連接均采用快接頭，每根管子兩端各配有一對（母端在冷板側，公端在manifold側）。值得一提的是，冷板上的母端快接頭因結構隱藏在扣環內，外觀上不易察覺，而manifold側的公端較為凸出。這種設計在拆機圖中常引發誤解，但實際上快接頭無處不在，確保了液冷系統的靈活性和可維護性。

來源: NVIDIA、Nidec、CoolIT、Danfoss

　　GB300的液冷革命

　　相比GB200，GB300在液冷設計上邁出了大膽一步。最顯著的變化在于冷板結構的革新：GB300摒棄了大面積冷板覆蓋多個芯片的模式，轉而為每個芯片配備獨立的“一進一出”液冷板。以NVL72系統為例，一個compute tray包含6個芯片，每個芯片對應兩對快接頭（進出各一對），共12對，加上與manifold連接的兩對，總計14對快接頭。整個系統18個compute tray的快接頭數量因此激增至252對，較GB200的108對翻倍有余。

　　這種獨立冷板設計的背后，是對算力密度提升的響應。GB300的芯片布局更加緊湊，傳統大冷板已無法滿足散熱需求，而獨立冷板不僅提高了散熱效率，還為未來的模塊化升級提供了可能。然而，這一變化也顯著增加了快接頭的使用量和系統復雜性。

　　相較前代GB200，GB300的液冷設計在結構、效率和供應鏈上均實現了突破：

　　獨立液冷板設計　　

　　GB300摒棄了GB200的大面積冷板覆蓋方案，改為每個GPU芯片配備獨立的一進一出液冷板。這一設計顯著提升了散熱效率，同時允許更靈活的硬件配置。例如，在NVL72系統中，單個computetray的液冷板快接頭數量從GB200的6對增至14對，系統總接頭數達252對，是GB200的2倍。

　　快接頭小型化與成本優化　　

　　GB300采用新型快接頭NVUQD03，尺寸縮小至原型號的1/3，單顆價格從GB200的70-80美元降至40-50美元。這一變化既適應了高密度芯片布局的需求，也降低了整體液冷系統的成本。

　　散熱效率與可靠性挑戰　

　　盡管小型化可能增加漏液風險，但GB300通過優化密封工藝和加速測試（如插拔測試、材質可靠性驗證）確保穩定性。冷板與manifold的連接仍采用快接頭，但冷板端采用隱藏式母端設計，外觀更緊湊。

　　供應鏈重構：從CPC到CoolerMaster的轉向　

　　GB300的液冷供應鏈體系發生了顯著變化：

　　供應商格局重塑　

　　GB200時代，快接頭主要由CPC和Staubli主導，而GB300則引入CoolerMaster、AVC（富士達）和立敏達等新廠商。CoolerMaster憑借與英偉達的緊密合作率先通過驗證，成為初期量產主力，占據主導地位。

　　技術門檻與驗證周期　

　　快接頭小型化帶來的高精度組裝和密封要求，迫使廠商投入更嚴格的測試流程。例如，CoolerMaster已完成數百小時加速壽命測試，而AVC和立敏達仍處于驗證階段。

　　國內供應鏈的潛在機會　

　　盡管CoolerMaster的工廠分布保密，但其部分產能可能依托中國大陸的Tier2供應商。高瀾股份、英維克等中國廠商雖未直接參與快接頭制造，但其液冷機柜和冷板解決方案在數據中心市場的滲透率逐步提升。

　　與GB200時期由CPC和Staubli主導的供應鏈體系不同，GB300的供應鏈選擇反映了英偉達對快速迭代和小批量驗證的需求。NVUQD03的小型化設計對組裝公差、密封性能和斷水功能提出了更高要求，國外廠商的謹慎態度可能使其錯失先機。

　　小型化的雙刃劍　

　　NVUQD03的尺寸縮小旨在解決空間受限問題，但并未降低漏液風險，反而因密封面積減小和組裝精度要求提升而增加了潛在隱患。為確保可靠性，供應商需進行包括加速測試、插拔測試及材質可靠性測試在內的數百小時驗證。目前，CoolerMaster已完成初步驗證，但整體測試仍在進行中，量產穩定性仍需時間檢驗。

　　液冷設計的未來趨勢

　　沿用與創新并存　

　　GB300在冷板設計上的革新并未全面推翻GB200的體系。manifold、CDU（冷卻分配單元）及cartridge等組件均沿用原有設計，僅在核心散熱模塊上進行了調整。這種策略既降低了開發成本，又確保了系統的兼容性。

　　水冷全面化的前景　

　　當前，GB300的switch tray仍以氣冷為主，僅主芯片采用水冷。然而，英偉達已透露出全面轉向水冷的計劃，包括前端transceiver連接器在內的所有組件都可能配備液冷模塊。未來，每個光模塊或將單獨配備液冷板，取代快接頭的銅管焊接設計將成為主流。這一轉變將顯著提升制造工藝復雜性和成本，但也為超高密度算力的實現鋪平道路。現階段，這一方案仍處于設計階段，具體落地形式尚未明朗。

　　供應商交付與市場份額　

　　CoolerMaster在GB300項目中的領先地位為其贏得了先發優勢，但AVC和立敏達的后續表現仍可能改變格局。目前，冷板及快接頭模塊的供應以CoolerMaster為主導，其中國大陸工廠或將借助國內Tier 2供應鏈支持生產，但具體合作伙伴信息尚不明朗。市場預測顯示，隨著GB300量產推進，快接頭價格有望進一步下降，整體液冷方案的成本效益將逐步顯現。

　　液冷技術的延伸：從芯片到光模塊　

　　GB300的液冷方案不僅限于GPU：

　　Switchtray的散熱轉型

　　當前switchtray仍以氣冷為主，但未來可能全面轉向水冷。若光模塊（如ConnectX-8 SuperNIC）采用液冷，每個光纖接頭需獨立液冷板，可能通過銅管焊接而非快接頭連接，進一步推高成本。

　　液冷與電源協同設計　

　　單機柜功率密度攀升至140kW，液冷需與高效電源（如DrMOS）協同。GB300通過優化DrMOS設計降低電源成本35-40%，同時超級電容模組（盡管部分型號可能移除）被用于平抑毫秒級負載波動。

　　市場前景：液冷技術的“新石油”價值

　　需求爆發與市場規模　

　　據機構預測，2030年全球液冷市場規模將達213億美元，中國液冷服務器市場年復合增長率47.6%。GB300的推出將加速這一進程，僅其快接頭需求在2025年或超1.5億顆。

　　技術競爭與生態壁壘

　　英偉達通過液冷方案綁定核心供應商（如CoolerMaster），形成技術生態壁壘。競爭對手需在小型化快接頭、高精度制造等領域突破，方能分羹市場。

　　GB300能否填滿AI的“渴望深淵”？

　　GB300的液冷技術雖顯著提升了算力密度與能效，但挑戰猶存：

　　成本壓力：頂配服務器價格超300萬美元，中小企業難以承受。

　　技術風險：小型化快接頭的長期可靠性仍需驗證，漏液風險可能影響數據中心穩定性。

　　生態依賴：供應鏈高度集中（如CoolerMaster主導）可能制約產能彈性。

　　GB300的液冷方案不僅是散熱技術的迭代，更是算力時代基礎設施的重構。其成功將取決于供應鏈協同、成本控制與長期可靠性驗證。若英偉達能平衡這些因素，GB300或將成為AI“新石油”時代的關鍵油井，推動算力革命邁向新高度。

　　液冷效率的全面分析

　　在數據中心日益增長的計算密度和熱負荷背景下，液冷技術已成為高效散熱的關鍵解決方案。本報告深入分析液冷效率，涵蓋其工作原理、與空氣冷卻的比較、不同類型效率以及實施中的挑戰與機遇，旨在為數據中心運營者提供全面指導。

　　液冷技術的定義與工作原理

　　液冷利用液體（如水、乙二醇混合物或特殊冷卻劑）通過循環系統吸收電子組件的熱量，并通過散熱器或冷卻塔將熱量排至外部環境。與傳統的空氣冷卻（依靠風扇和空調）相比，液冷利用液體更高的熱傳導性和比熱容，實現更高效的熱傳遞，特別適合高性能計算設備，如AI服務器和GPU集群。

　　效率評估指標

　　評估液冷效率的關鍵指標包括：PUE（電力使用效率）：總能耗與IT設備能耗的比率，較低的PUE表示更高效率。

　　COP（性能系數）：冷卻系統移除的熱量與運行該系統所需的能量之比，反映能效。

　　這些指標幫助量化液冷在能耗和熱管理方面的表現。

　　與空氣冷卻的效率比較

　　研究表明，液冷在熱效率和能效方面顯著優于空氣冷卻：

　　熱效率：液體熱傳導率高出空氣1000倍（Data Center Liquid Cooling - Is It Time for an Upgrade?），能更有效地移除高熱密度（如超過20kW的機架），保持設備低溫運行。

　　能效提升：NVIDIA和Vertiv的研究顯示，高密度機架采用液冷后，PUE從1.5降至1.3，總能耗減少13%（Quantifying the Impact on PUE and Energy Consumption When Introducing Liquid Cooling Into an Air-cooled Data Center）。另一研究指出，全面實施液冷可減少設施能耗18.1%，總數據中心能耗減少10.2%（How Does Your Cooling System Affect Your Data Center’s PUE?）。

　　空間效率：液冷支持更高IT密度，允許在相同空間內部署更多計算資源，優化數據中心布局。

　　液冷類型的效率分析

　　液冷系統可分為以下類型，各有不同效率特點：

　　直接芯片冷卻：液體直接接觸芯片或熱擴散器，熱阻最小，效率最高，適合高熱通量設備。

　　冷板冷卻：通過附著在服務器上的冷板循環液體，熱傳遞效率高，適用于標準機架。

　　浸沒冷卻：服務器完全浸沒在絕緣液體中，提供均勻冷卻，特別適合超高密度計算，但需使用特殊介質，可能增加成本。

　　實施中的挑戰與局限　

　　盡管液冷效率高，但實施面臨以下挑戰：

　　初期成本與復雜性：液冷系統需額外泵、散熱器和管道，初期投資高于空氣冷卻，維護也更復雜。

　　基礎設施要求：現有空氣冷卻數據中心需改造以支持液冷，可能涉及重大工程。

　　可靠性與維護：液冷系統存在泄漏風險，需定期檢查和維護以確保可靠性。

　　可持續性與額外優勢　

　　液冷不僅提升效率，還支持熱能再利用。例如，廢熱可用于加熱建筑物或工業過程，降低碳足跡。這在追求可持續發展的數據中心中尤為重要。

　　實際案例與行業趨勢

　　實際案例顯示，采用液冷的數據中心如Facebook的Lule?數據中心（PUE 1.09）和Google的Hamina數據中心（PUE 1.10）達到行業領先效率。隨著AI和大數據需求的增長，液冷市場預計至2026年達30億美元，成為數據中心冷卻的未來趨勢。

　　結論

　　液冷技術在數據中心中展現出顯著的熱效率和能效優勢，特別適合高密度計算負載。其PUE降低和能耗減少為數據中心運營提供了經濟和環境效益。盡管初期成本和復雜性較高，但長期節能和可持續性潛力使其成為不可或缺的解決方案。

　　GB300芯片組液冷系統的參考設計與量產工藝在AI算力需求激增的背景下，英偉達的GB300芯片組作為下一代高性能計算核心，其液冷技術成為關鍵。背景與技術概述GB300芯片組相較于前代GB200，采用每個芯片獨立冷板的設計。GB200使用大面積冷板覆蓋多個芯片，而GB300為每個芯片配備單獨的“一進一出”液冷板。這種轉變旨在應對更高算力密度下的散熱需求。以NVL72系統為例，每個計算托盤（compute tray）包含6個芯片，總計108個芯片。每個冷板通過快速接頭連接至分流器（manifold），系統總熱負荷根據假設為54千瓦。

　　快速接頭采用新型NVUQD03，尺寸縮小至原先的三分之一，單價降至40-50美元，主要供應商包括CoolerMaster、AVC（旗下富士達）和立敏達（Readore）。

　　液冷系統的參考設計　

　　冷板設計　

　　·結構：每個芯片配備獨立冷板，采用微通道或針狀鰭片結構以最大化熱傳導。研究表明，微通道熱沉的熱傳導率遠高于傳統設計，需優化流道布局避免局部熱點（Microchannel Heat Sinks）。　

　　·材料：選用銅或鋁，銅導熱性高但成本較高，鋁則更經濟。設計需確保芯片溫度均勻分布，維持在80°C以下。　

　　·連接：冷板通過熱界面材料（TIM）如導熱硅脂或焊料附著于芯片，確保熱接觸良好。

　　冷卻液選擇　

　　·選用水或水乙二醇混合物，熱容量高，兼容性好。研究顯示，水基冷卻液在高性能計算中表現優異（Liquid Cooling in Data Centers）。

　　泵系統　

　　·泵需提供足夠流量和壓力，克服系統壓降。假設每個冷板流量約1.43升/分鐘（基于500瓦芯片功耗，溫差5°C），計算托盤總流量8.58升/分鐘，系統總流量154.44升/分鐘。

　　熱交換器　

　　·熱交換器（如散熱器或冷水機）需排熱54千瓦。假設冷卻液入口溫度40°C，環境溫度25°C，需設計足夠換熱面積，配合風扇輔助散熱。

　　分流器設計　

　　·分流器（manifold）連接6個冷板，確保流量均勻分布。設計需考慮流體動力學，減少壓降，可能采用流量控制閥。

　　快速接頭　

　　·每個冷板有兩對快速接頭（入口和出口各一對），總計14對/計算托盤（12對冷板，2對分流器）。NVUQD03尺寸小，需確保密封性和耐久性，研究顯示小型化可能增加漏液風險（Liquid Cooling: The Sustainable Solution Driving Efficiency in Data Centers）。

　　量產工藝流程　

　　量產需標準化制造和組裝，確保效率和可靠性：

　　1.冷板制造　　

　　o工藝：使用CNC加工或注塑成型，創建微通道結構。對于大規模生產，注塑成型更經濟。　

　　o材料處理：銅或鋁板材，通過精密加工確保尺寸精度，微通道可通過光刻或3D打印實現。　

　　o質量控制：每塊冷板測試熱性能和泄漏，需通過壓力測試。

　　2.組裝過程　

　　o冷板與芯片連接：使用導熱硅脂或焊料附著冷板于芯片，確保熱接觸良好。　　

　　o快速接頭連接：將NVUQD03快速接頭安裝于冷板入口和出口，需確保密封性。　　

　　o分流器組裝：將6個冷板通過管道連接至分流器，需確保流體路徑無堵塞。　

　　o系統集成：多個計算托盤通過管道連接至中央泵和熱交換系統，需測試整體性能。

　　3.質量控制與測試　

　　o單體測試：每塊冷板測試泄漏和熱性能，需進行數百小時加速測試和插拔測試。

　　o系統測試：整體系統測試流量分布、溫度控制和壓降，確保芯片溫度低于80°C。　

　　o可靠性驗證：模擬長期運行，測試密封性和耐久性，目前CoolerMaster已完成初步驗證（H100 GPU from NVIDIA）。

　　參數表

　　行業趨勢與未來展望

　　液冷技術市場預計至2026年達30億美元，AI數據中心對高效率散熱需求推動創新（Liquid and Immersion Cooling Options for Data Centers）。GB300的獨立冷板設計提升散熱效率，但量產中需克服小型化部件的制造精度和供應鏈協調挑戰。未來可能通過自動化生產和材料創新進一步降低成本。

　　結論GB300芯片組的液冷系統設計需平衡熱效率和制造可行性，量產工藝需標準化以確保可靠性。參數如流量和熱負荷為行業提供了參考，助力AI算力中心的建設。

　　附：越南廠務服務內容

英偉達

下一篇： 中廣電器集團邀請麗水市總工會協同麗水市人民醫院開展暖心義診
上一篇： 住建部部長倪虹：建設“好房子”是房地產企業和建筑企業轉型發展的新賽道

美女隐私羞羞视频在线观看-美女隐私无遮挡网站小便-美女隐私尿口视频网站-美女隐私免费视频大全照片-5x社区5xsq免费-5xsq在线

英偉達GB300 GPU液冷引入新供應商新方案