海角社区国产精品伦子伦免费,日韩在线观看一区二,日本中文字幕有码,青青热九免费精品视频在线

        • <acronym id="lefsy"></acronym>

          <sup id="lefsy"><thead id="lefsy"><pre id="lefsy"></pre></thead></sup>
          每日經濟新聞
          要聞

          每經網首頁 > 要聞 > 正文

          用“系統(tǒng)工程”打破算力封鎖 昇騰的另類突圍路徑

          每日經濟新聞 2025-06-17 13:55:32

          日前,華為發(fā)布的昇騰384超節(jié)點已開始發(fā)貨,該超節(jié)點由384顆昇騰AI芯片組成集群,可提供高達300PFLOPs的密集BF16算力,性能接近英偉達GB200NVL72系統(tǒng)的兩倍。華為專家表示,這是通過系統(tǒng)工程思維實現(xiàn)的“突圍”,目前眾多頭部客戶已采購并投入核心大模型訓練。昇騰384超節(jié)點還解決了通信傳輸、散熱等難題,并構建了基于中國標準的架構。

          每經記者|王晶    每經編輯|馬子卿    

          “昇騰算力到底能不能給大家底氣和信心,有些人將信將疑,甚至認為昇騰訓練不出先進的大模型。”華為專家開場的這句話,揭示出人們對國產AI(人工智能)算力的焦慮:在美國芯片禁令的陰影下,這支國產算力艦隊究竟能否突破算力封鎖、重構AI產業(yè)格局?

          答案正隨著盤古Pro MoE模型、盤古Ultra MoE模型、昇騰384超節(jié)點等各種實踐的落地而變得清晰。

          近日,記者從一位華為專家處獲悉,華為發(fā)布的昇騰384超節(jié)點已經開始發(fā)貨,這不僅是目前業(yè)界規(guī)模最大的超節(jié)點,更是一項技術突破:華為將384顆昇騰AI芯片連接在一起組成了集群,通過全對等高速互聯(lián)的架構,基于系統(tǒng)工程的方法,對計算、內存、通信的極致優(yōu)化調度,可提供高達300 PFLOPs的密集BF16算力,該性能表現(xiàn)接近英偉達GB200 NVL72系統(tǒng)的兩倍。

          這引出一個關鍵問題:在單芯片工藝暫時落后的情況下,昇騰是如何實現(xiàn)算力超越的?

          “集群”絕非簡單的“芯片堆疊”,而是華為在極端壓力下,以系統(tǒng)工程思維進行的一次“突圍”。“華為內部有個算力會戰(zhàn),把華為云、模型、底座、芯片、硬件工程、基礎軟件的人集結在一起,深度協(xié)同。打造復雜、先進的超節(jié)點系統(tǒng),需要通過這樣的環(huán)境和機制,把華為幾十年積累的‘大雜燴’的能力整合在一起。”華為專家說道。

          幾乎在昇騰加速研發(fā)的同時,美國對華芯片出口管制持續(xù)加碼。今年4月,美國芯片制造商英偉達發(fā)布通知稱,美國政府于4月9日告知,公司H20芯片出口到中國需要許可證,此后又于4月14日告知,這些規(guī)定將無限期實施。據悉,這一新規(guī)將影響英偉達共計約55億美元的季度費用,涉及H20的庫存、采購承諾和相關儲備。

          外部環(huán)境急劇收緊下,以昇騰為代表的國產算力正不斷突破,其戰(zhàn)略意義遠超商業(yè)價值本身。

          從被迫替代到主動選擇,黃仁勛稱“性能上超越了英偉達”

          人工智能的浪潮席卷全球,巨量的模型訓練與實時推理需求對算力提出了前所未有的要求。在此領域,英偉達憑借其CUDA生態(tài)和強大的GPU(圖形處理單元)單卡性能,長期占據統(tǒng)治地位,其最新的GB200 NVL72系統(tǒng)集成了72塊Blackwell GPU,單柜算力驚人。

          國產算力陣營中,昇騰無疑是具有實力的代表之一。

          2018年10月,華為全聯(lián)接大會正式發(fā)布首款采用華為自研達芬奇架構的AI芯片昇騰910與昇騰310。其中,昇騰310是SoC(系統(tǒng)級芯片)小芯片,和人們的手機芯片差不多,只有指甲蓋那么大;昇騰910是大芯片,和人們的掌心差不多大,主要面向云端高性能計算。

          2019年昇騰芯片正式投入商用,華為還推出了昇騰AI計算架構,包括昇騰處理器、昇騰AI加速模塊和昇騰AI開發(fā)環(huán)境,初步形成AI計算解決方案。截至目前,昇騰計算產業(yè)已發(fā)展為包括昇騰系列芯片、硬件、CANN(異構計算架構)、AI計算框架、開發(fā)工具鏈等全產業(yè)鏈的體系。

          不過,受限于先進制程的獲取,單顆昇騰芯片的算力約為英偉達Blackwell GPU的三分之一。“過去客戶用昇騰,并不認為昇騰很先進,有的是因為被美國斷供,被迫用昇騰。”專家坦誠介紹的這個情況,事實上,也是中國算力突圍最真實的起點。

          轉折正在發(fā)生。昇騰384超節(jié)點的發(fā)布與交付,標志著昇騰通過系統(tǒng)級創(chuàng)新實現(xiàn)了算力能效的躍遷,其意義正如英偉達CEO(首席執(zhí)行官)黃仁勛所表達的,“從技術參數看,華為的CloudMatrix 384超節(jié)點,性能上超越了英偉達”。

          華為專家透露,“目前,眾多頭部客戶已經采購了昇騰,部分客戶已將其投入核心大模型訓練。并且在華為首次、密集披露圍繞昇騰訓練和推理的一系列技術白皮書后,更多的客戶主動聯(lián)系我們做技術交流。”為幫助客戶用好昇騰,華為還組建了由中高級專家構成的“小靈巧突擊隊”,深入客戶現(xiàn)場,為關鍵信息基礎設施行業(yè)的客戶提供支持,確保昇騰算力發(fā)揮最大價值。

          硬件、軟件、材料??多重攻堅,打造基于中國標準的“愛馬仕”

          然而,要讓384張芯片協(xié)同作戰(zhàn),必須解決一些致命難題,比如通信傳輸、散熱等。

          當前,大模型發(fā)展呈現(xiàn)參數與效率交替演進的態(tài)勢。一方面,Scaling Law(規(guī)模化法則)不斷推動模型能力突破極限;另一方面,以DeepSeek(深度求索)為代表的創(chuàng)新架構與工程技術,正加速模型能力在千行萬業(yè)的落地應用。

          在此背景下,MoE(混合專家模型)成為主流模型結構,其復雜的混合并行策略帶來巨大挑戰(zhàn),TP(張量并行)、SP(序列并行)、EP(專家并行)單次通信量高達GB級且難以掩蓋。隨著并行規(guī)模持續(xù)擴大,傳統(tǒng)服務器跨機帶寬已成為訓練的核心阻礙,亟須計算架構的創(chuàng)新升級以適配未來模型發(fā)展。

          傳統(tǒng)服務器依賴以太網絡實現(xiàn)跨機互聯(lián),通信帶寬較低。實踐表明,當TP、SP或EP等分布式策略的混合并行域超過8卡時,跨機通信帶寬便成為性能瓶頸,導致系統(tǒng)性能大幅下降。

          對此,華為昇騰超節(jié)點打破了以CPU為中心的馮諾依曼架構,而是建立了自有標準的“全對等互聯(lián)架構”,憑借高速總線互聯(lián)技術,把總線從服務器內部,擴展到整機柜,甚至跨機柜。

          “西方是繼承發(fā)展,任總(指華為創(chuàng)始人任正非)形象地比喻為‘百衲衣’,就是衣服破了以后不斷地打補丁,協(xié)議不同,互通需要轉換,有效載荷會變小。我們不會完全跟在西方標準的后面修修補補,我們內部重新定義了對等架構的互聯(lián)總線,統(tǒng)一了所有的通信協(xié)議,提升了有效載荷,并且與外部可以是標準的接口互通,打造了基于中國標準的‘愛馬仕’。”華為專家說道。

          此外,為實現(xiàn)超大規(guī)模集群,華為還采用跨機架縱向擴展方案,并為此引入光通信技術。在昇騰384超節(jié)點中,共使用了3168根光纖和6912個400G光模塊。光模塊具有高帶寬和高速率的優(yōu)勢,損耗低,適合更長距離傳輸。

          除了硬件創(chuàng)新外,超高密度芯片集成也帶來了散熱難題。“大量的芯片堆到一起有巨大的熱量,熱散不掉系統(tǒng)就會癱瘓,我們超節(jié)點是用液冷散熱,效率很高。針對一體機和不具備液冷條件的機房,也有高效的風冷散熱方案。”華為專家說道。

          他還強調:“熱是一門科學,散熱更是一門復雜的工程能力。散熱首先要把熱導出來,導熱墊緊貼芯片的表面,其導熱效率至關重要,核心是材料科學,我們設計了精妙的微結構材料,適合液態(tài)或氣態(tài),以實現(xiàn)更高效的熱傳導。”

          技術突破的背后,是華為在基礎研究上的積淀。據悉,大概10年前華為就在海外設立了研究所,專門研究熱理論和熱工程,而像這樣的基礎技術實驗室,華為在全球有86個,并且還有8個材料實驗室,這種“用數學補物理”“非摩爾補摩爾”“用系統(tǒng)補單點”等核心思想在業(yè)務所依賴的基礎理論、材料、制備工藝、軟件工具鏈等方面構建起系統(tǒng)工程創(chuàng)新的能力。

          產業(yè)生態(tài)不是簡單的“1+1”

          如果說硬件性能的突破是基礎,那么繁榮的軟件生態(tài)就是昇騰能否贏得開發(fā)者真心、支撐產業(yè)長期繁榮的關鍵。

          科技公司決定將其系統(tǒng)從英偉達CUDA軟件框架開發(fā)的訓練代碼移植到華為CANN(Compute Architecture for Neural Networks)平臺,面臨移植成本高、周期長、調試復雜等痛點。事實上,英偉達的CUDA系統(tǒng)像Windows一樣成熟,全球90%的AI框架都基于它開發(fā)。

          華為專家也坦言:“生態(tài)方面我們劣于英偉達CUDA。”但他表示,近兩年情況有所好轉。“業(yè)界的模型從各種各樣的模型逐漸收斂到Transformer架構,以前的算子有幾萬個,加上衍生的算子有十萬以上,而現(xiàn)在主流的模型聚焦到Transformer、Diffusion以后,核心的算子大概就幾百個。”

          華為快速補齊了高質量的基礎算子,并向頭部客戶深度開放,客戶可基于這些基礎算子開發(fā)定制自己的算子和算法,并適配自己的模型和應用,大幅加速了模型適配進程。這次圍繞昇騰的技術披露,既是開放高性能基礎算子,也賦能昇騰客戶如何高效開發(fā)他們需要的高性能算子。

          當生態(tài)根基日益穩(wěn)固,昇騰要把兼容性作為下一步重要的事情,使其在更廣泛的場景得以應用。當前,許多企業(yè)采用“混合策略”:在英偉達平臺上進行部分訓練,同時將推理負載或增量訓練遷移至昇騰平臺。這種路徑既降低遷移風險,又為國產替代積累經驗。對此,昇騰也提供了Day0遷移和一鍵部署等工具鏈,支撐客戶高效遷移到昇騰平臺上。

          用功耗換性能,構筑AI時代的核心競爭力

          客觀來看,集群也面臨諸如能耗、占比面積大等問題。昇騰384超節(jié)點在超越英偉達NVL72的同時,功耗也達到后者的4.1倍,每FLOP功耗高出2.5倍。

          不過,功耗缺陷在國內并非限制性因素。資訊機構SemiAnalysis指出,過去十年間,西方致力于將主要依賴煤炭的電力基礎設施轉向更環(huán)保的天然氣和可再生能源發(fā)電,并提高人均能源使用效率,而中國則因生活方式提升和持續(xù)大規(guī)模投資,面臨巨大的發(fā)電需求。中國能源體系不僅有煤炭驅動,并且太陽能、水電、風電裝機量均居全球首位,當前更在核電部署領域占據領先地位。因此,電力相對充裕而無需受限于能耗約束。

          但同時,華為也關注到能耗是一個永久的問題。“未來是人工智能的時代,AI是最普遍的計算,將是無處不在的。我們會持續(xù)通過技術的進步,來改進能源的消耗,構筑AI時代的核心競爭力,實現(xiàn)可持續(xù)發(fā)展。”華為專家說道。

          可以看到,在算力主權爭奪的戰(zhàn)場上,華為已經開辟了一條不同于西方的創(chuàng)新路徑——不簡單追求單點技術的路線,而是“以面積換能力、以堆疊增容量、以集群擴規(guī)模,通過超節(jié)點的系統(tǒng)工程創(chuàng)新,實現(xiàn)規(guī)模算力的領先和效能的最優(yōu)。”這也是目前中國算力的現(xiàn)實突圍路徑。

          事實上,昇騰384超節(jié)點的出現(xiàn),不僅構建了英偉達之外的可靠第二選擇,也打破了國產算力“無法訓練大模型”的質疑。

          封面圖片來源:視覺中國-VCG211478193393

          如需轉載請與《每日經濟新聞》報社聯(lián)系。
          未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

          讀者熱線:4008890008

          特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

          歡迎關注每日經濟新聞APP

          每經經濟新聞官方APP

          0

          0