芯片級液冷技術新進展!美國能源部全力支持
AIDC時代,算力基礎設施對能源的渴望會愈發迫切,算力芯片的散熱會逐步從風冷轉向液冷。GB200 NVL72的面世,無疑會加速業界液冷生態的日趨完善。
常規的液冷技術有冷板式、浸沒式以及噴淋式,但JetCool另辟蹊徑,將微型射流陣列噴射在芯片表面進行冷卻散熱,與常規冷板式液冷將循環液體流借助水冷板經芯片表面散熱存在一定差異,散熱能力和被冷卻表面溫度均勻性有顯著提升。
JetCool的液冷解決方案將借助COOLERCHIPS項目,論證服務器環境溫度的提升帶來的收益是否會被硅基材泄漏電流的增加而導致效率下降所平抑,結果如何,讓我們拭目以待。
JetCool首席執行官講述如何將數以千計的微型射流引入數據中心
隨著芯片溫度和機柜密度的提升,海量公司紛紛提出其對液冷的未來愿景。
人工智能和其他高密度工作負載的冷卻需求已經超出了空氣冷卻系統的散熱能力,因此需要某種形式的液體冷卻。
“當你思考液冷的前景時,我們會看到三種不同的技術類別,”JetCool 首席執行官Bernie Malouin 解釋道。
“第一類是單相浸入式液冷,將芯片置入油類工質中散熱。這很有趣,但對芯片功耗有一些限制—很長一段時間以來,功耗被限制在400W。有人正在努力改善這一點,但還沒有達到需要的程度。”
第二類是兩相介電工質:“這可以解決更高熱設計功耗(TDP)處理器散熱問題,可達到900—1000W。從技術上,它更適合未來的計算硬件散熱,但會受到一些化學品方面的制約。”
許多的兩相液冷解決方案使用全氟烷基物質(PFAS),也稱為永久化學品,它有可能影響人類健康,故在美國和歐洲面臨限制。ZutaCore等公司已承諾到2026年轉向其他解決方案,實際上這一舉措進展緩慢。
Malouin 說:“許多客戶所關心諸如此類的問題,因為擔心這類液體工質的安全性,故而向JetCool尋求解決辦法”。“客戶擔心這類液體工質的供應可持續性。”
然后是第三類:直接冷板式液冷(DLC,Direct Liquid Cooling)。我們是其中之一公司,也有其他一些公司在做類似產品。
DLC冷板是比較傳統的IT設備液冷形式之一,只需將冷態工質輸送到直接安裝在最熱組件上的金屬板上即可。長期以來,一直被高性能計算使用,但JetCool認為這個概念應該與時俱進。
其冷卻噴嘴不是讓流體流經表面,而是直接將流體工質輸送至芯片表面。“JetCool直接與主要芯片制造商合作,如英特爾、AMD、Nvidia 等,將由一千個微型流體噴射器組成的陣列,通過智能地布置分配,給特定處理器上的熱源散熱。”
Malouin 表示,“微型對流冷卻方法并不是將整個芯片視為一個具有單一冷卻要求的整體,而是嘗試平衡不同的熱負荷以及芯片堆棧特定部分的不同散熱要求”。
“當您開始考慮真正集成的封裝時,芯片核心或許能夠運行在更高的溫度,但隨后您可能會配置高帶寬內存(HBM) 部分,這些部分雖然功耗不高,但溫度限制較低。”
每個組件部分可實現差異化的冷卻速度,而不是嘗試針對高功率核心和溫度敏感的HBM進行設計。“這讓你能夠將這些部分分開,并在需要的地方進行精確冷卻,”Malouin 說。
雖然Malouin認為設施級液體冷卻是數據中心的未來,但該公司還與戴爾合作,為那些希望嘗試更低溫的客戶提供了一個獨立的系統,這個系統專注于雙插槽部署。
兩個小型泵模塊提供流動循環,空氣熱交換器在智能板系統的另一端排出熱量。
“當我們添加這些泵時,會增加一些電力消耗,但不需要風扇在較高的轉速下運行,因此可以使噪音降低15-20分貝。在關掉泵時,每臺服務器會消耗大約 100 瓦的功率。” Malouin 聲稱。
當涉及10個或更多的機架時,設施層面液冷就更有意義了。當被問及首選進口溫度時,Malouin表示該系統很靈活,但補充道,“我們實際上非常喜歡溫和的流體溫度。”
他說:“當前的設施為我們提供 60°C (140°F) 及以上的進口冷卻溫度。而且我們仍在滿負荷的情況下冷卻這些設備。”這種情況目前還不常見,但Malouin相信,由于熱能再利用的潛力,溫暖的海水將在歐洲等地越來越受歡迎。
在美國,JetCool是能源部 COOLERCHIPS 項目的一部分,該項目旨在大幅改進數據中心冷卻系統。
JetCool獲得100萬美元以上獎項的重點不僅在于冷卻潛力,還在于誘人的次要優勢:“我們已經讓硅芯片本質上提高了8%到10%的電效率,”Malouin 聲稱。
“這與冷卻系統的用電量無關,而是與泄漏量有關。”
Malouin 并不是指冷卻系統的泄漏,而是指半導體泄漏電流的量子現象,它會嚴重影響芯片的性能。
數據中心冷卻的最新記錄傾向于認為,允許溫度升高會節省能源,因為冷卻中使用的能源較少。
結果,瑞典研究機構RISE喬恩·薩默斯 (Jon Summers) 的研究發現,硅中的漏電流限制了運行溫度較高的收益。
“我們COOLERCHIPS項目努力的一個重要部分是通過更嚴格的科學證據來證實這一點,并將其推斷到不同的環境中,看看它在哪里存在或不存在哪里。”
展望更遠的未來,Malouin看到了更深入研究硅的機會。“在某些情況下,它實際上可能作為嵌入層集成在硅中,然后將其耦合到外部進行一些熱再利用的系統。當我們從整體上考慮這一點時,我們認為數據中心效率確實有機會發生重大變化。”
該公司表示,目前它能夠支持Nvidia GPU 最高900W負載,并且目前正在冷卻使用1,500W功率的未公開的“定制”芯片。“最終,如果想在未來和現在都運行生成式人工智能,就必須考慮液體冷卻。”