看點:國產云端AI芯片和國產AI框架再添新勢力!
剛剛,在華為總部坂田基地,華為自研云端AI芯片昇騰910正式商用發布,芯片最大功耗僅310W,比之前設計的350W更低!
此前云端AI芯片被稱是單芯片計算密度最大的芯片,與之配套的全場景AI計算框架MindSpore也一同亮相。
MindSpore開源計算框架,可以滿足端邊云全場景需求,能最大化利用芯片算力。這意味國產AI框架陣營又加入了一個重要成員。
華為輪值董事長徐直軍表示,華為已完成全棧全場景AI Portfolio構建。這也標志著華為AI戰略的執行進入了新的階段。
他還強調,華為之所以要開發并推出MindSpore框架,是因為沒有任何一個現有框架支持全場景。
為了更好促進AI的應用,徐直軍宣布“MindSpore將在2020年Q1開源”,助力每一位開發者,促進AI產業生態發展。
華為自2018年10月發布AI戰略以來,穩步而有序地推進戰略執行、產品研發及商用進程。去年發布的昇騰310,至今已在各場景廣泛應用。
基于昇騰310,華為云提供了圖像分析類服務、OCR服務、視頻智能分析服務等云服務。對外提供API達50多個,日均調用量超過1億次,在快速增長,預計年底日均調用量超過3億次,有超過100多個客戶使用昇騰310開發定制AI算法。
ModelArts全流程模型生產:打通、覆蓋了從數據獲取–模型開發–模型訓練–模型部署的全鏈條,日均作業量以及在線開發者:日均訓練作業任務超過4000個、32000小時。
其中:視覺類作業占85%,語音類作業占10%, 機器學習5%,ModelArts已經擁有開發者超過3萬。
徐直軍還表示,面向未來,針對不同的場景,華為將持續投資,推出更多的AI處理器,面向邊緣計算場景,在已經商用Ascend 310基礎上,計劃2021年將推出Ascend 320,滿足AI應用開發的需求。
另外面向終端的昇騰Tiny系列將在麒麟990上得到應用。
徐直軍說,不打算單獨將昇騰作為獨立業務面向市場,而是以板卡等服務器等形式出售,希望與大量AI芯片開發企業合作,使他們芯片應用于華為多樣化的應用場景。
在回答記者問時,他也提到,期望昇騰910也在英國推出,具體時間未定,希望基于昇騰910的板卡、服務器等產品可以幫助英國AI研究。
徐直軍還提到,智能手機的預期沒有任正非之前說得那么壞,下降40%是比較悲觀的預測,現實比當時的預測好的多,但減少100多億美金是有的。
芯片“巨無霸”上市,算力超英偉達
徐直軍表示,昇騰910總體技術表現超出預期,作為算力最強AI處理器,當之無愧。
昇騰910(Ascend 910)是華為第一款重磅推出的達芬奇架構云端AI芯片,采用臺積電7nm工藝,最大功耗僅310W,明顯低于設計規格的350W。
這款芯片已經驗證,半精度(FP16)算力達256 TFLOPS,比NVIDIA Tesla V100 GPU的125 TFLOPS還要高一倍。其整數精度(INT8)達512 TeraOPS,還集成了128通道全高清視頻解碼器H.264/265。
華為已把昇騰910用于實際AI訓練任務。
其中,在典型的ResNet-50 網絡的訓練中,昇騰910與MindSpore配合,與現有主流訓練單卡配合TensorFlow相比,顯示出接近2倍的性能提升。每秒訓練的圖片數量從965張提升到1802張。
面向未來,針對不同的場景,包括邊緣計算、自動駕駛車載計算、訓練等場景,華為將持續投資,推出更多的AI處理器,面向全場景持續提供更充裕、更經濟、更適配的AI算力。
達芬奇架構的創新密碼
昇騰910的功臣,正是華為自研的達芬奇架構。
達芬奇是歷史上著名的全才,而華為的達芬奇架構,同樣希望成為適應全場景的全才。
達芬奇架構具備高算力、高效率、靈活可裁剪的特點,具體而言特性如下:
1、可擴展計算,芯片的計算單元可以縱向擴展,支持int8/int32/FP16/FP32多精度,擁有可擴展3D Cube以及張量Tensor/向量Vector/標量Scalar多種計算單元,并擁有皮秒級電流控制和硬件輔助的任務調度。
2、可擴展內存,既有專用的,也有分布的,顯式控制的內存分布實際,包括4 TBytes/s L2 Buffer緩存和1.2 TByte/s HB+M高帶寬內存,和傳統馮·諾依曼架構有所差異。
3、可擴展片上互聯,基于LSU可擴展,片上有超高帶寬Mesh網絡。
4、算力和功耗覆蓋范圍廣,從藍牙耳機到昇騰910芯片,算力范圍達1000萬倍,功耗范圍達20萬倍,很少芯片架構可以覆蓋如此廣的范圍。
基于達芬奇架構的統一性,用戶只需進行一次算子開發和調試,就可以橫跨端邊云進行部署,將算法遷移效率將大大提升。
而實現這些特性的關鍵要訣,在于AI計算的核心——3D Cube矩陣乘法單元。
由于99%的神經網絡模型計算都用到矩陣乘,同等矩陣乘運算,3D Cube要比1D、2D的MAC算力花費更少的Cycle,從而大幅提高單位面積下的AI算力。
除了3D Cube以外,達芬奇核心中還有3個Buffer分別用于存儲輸入和輸出矩陣,有Vector向量計算單元用于處理各種基本的計算類型和許多定制的計算類型,有Scalar標量計算單元來充當小CPU的角色。
新一代AI開源計算框架MindSpore
昇騰系列AI芯片及AI IP,只是華為全棧全場景AI解決方案的最底層。
在這一層之上,是華為芯片算子庫和高度自動化算子開發工具CAAN,可將開發效率提升3倍。
再往上,是今天華為發布的另一個重磅產品——MindSpore開源計算框架,對標TensorFlow、Caffe、Pytorch等主流AI框架。
能否實現AI無處不在,能否在任何場景下確保用戶隱私得到尊重和保護,這些都與AI計算框架息息相關。
華為提出,AI框架應該是開發態友好(例如顯著減少訓練時間和成本)和運行態高效(例如最少資源和最高能效比),更重要的是,要能適應每個場景包括端、邊緣和云。
經過近一年的努力,全場景AI計算框架MindSpore在這三個方面都取得了顯著進展。
面向AI訓練和部署難題,MindSpore架構有如下特點:
1、可大可小,適用全場景不同資源預算獨立部署。
2、通過協同經過處理后的、不帶有隱私信息的梯度、模型信息,而不是數據本身,以此實現在保證用戶隱私數據保護的前提下跨場景協同。
3、將模型保護Built-in到AI框架中,實現模型的安全可信。
4、在原生適應每個場景包括端,邊緣和云,并能夠按需協同的基礎上,通過實現AI算法即代碼,使開發態變得更加友好,顯著減少模型開發時間。
以一個NLP(自然語言處理)典型網絡為例,相比其他框架,用MindSpore可降低核心代碼量20%,開發門檻大大降低,效率整體提升50%以上。
另外,根據此前公布的信息,MindSpore支持端、邊、云獨立和協同的統一訓練和推理,從端到邊緣、云的反饋可以更快處理。
MindSpore以統一分布式架構,支持機器學習、深度學習、強化學習等多種模型,包含在線和離線圖計算,搭配各種調優工具,可實現更快的推送。且具備與核心系統解耦的編程接口。
通過MindSpore框架自身的技術創新及其與昇騰處理器協同優化,有效克服AI計算的復雜性和算力的多樣性挑戰,實現了運行態的高效,大大提高了計算性能。
除了昇騰處理器,MindSpore同時也支持GPU、CPU等其它處理器。
華為全場景的布局,覆蓋了公有云、私有云、邊緣計算、各種行業物聯網終端和消費者終端等不同AI部署環境。
這套方案同時還將于華為的HiAI開發者框架與華為云EI相輔相成。
MiniSpore之上,是應用使能,華為提供一站式AI開發平臺ModelArts、分層API和預集成方案。
這一平臺為開發者提供數據標注、建模、訓練及部署的全流程服務,將AI開發門檻幾乎降低到零,就連開發小白也能分分鐘上手。
華為昇騰“芯”戰略
華為“芯”戰略,強在無處不在。
基于靈活可擴展的特性,達芬奇架構能夠橫跨端邊云全場景提供最優算力。
Max/Multi-Mini系列是云端的獨苗,其首個AI芯片昇騰910正式官宣商用,負責超復雜的云端訓練和推理。這一系列同時也面向邊緣服務器。
另一個已經商用的,是Mini系列的開山之作昇騰310,該系列既能應用于邊緣的IPC,也能用于個人電腦。
Mini系列能兼顧訓練和推理,面向智能手機應用的Lite系列也是如此。另外兩款終端系列Tiny、Nano則主攻推理,前者用于智能手機,后者用于耳機電話等IoT設備應用。
目前,Mini和Max/Multi-Mini系列的首款芯片均已商用,而其余三款暫時還未露出廬山真面目。
徐直軍表示,Tiny將用在麒麟990上。
華為的AI戰略:五大面向
華為的全棧方案具體包括:
Ascend:基于統一、可擴展架構的系列化AI IP 和 芯片,包括Max、Mini、Lite、Tiny和Nano等五個系列;
CANN:芯片算子庫和高度自動化算子開發工具;
MindSpore:支持端、邊、云獨立的和協同的統一訓練和推理框架;
應用使能:提供全流程服務(ModelArts),分層API和預集成方案。
徐直軍再次回顧華為的AI戰略,包括:
1、投資基礎研究:在計算視覺、自然語言處理、決策推理等領域構筑數據高效(更少的數據需求) 、能耗高效(更低的算力和能耗) ,安全可信、自動自治的機器學習基礎能力。
2、打造全棧方案:打造面向云、邊緣和端等全場景的、獨立的以及協同的、全棧解決方案,提供充裕的、經濟的算力資源,簡單易用、高效率、全流程的AI平臺。
3、投資開放生態和人才培養:面向全球,持續與學術界、產業界和行業伙伴廣泛合作。
4、解決方案增強:把AI思維和技術引入現有產品和服務,實現更大價值、更強競爭力。
5、內部效率提升:應用AI優化內部管理,對準海量作業場景,大幅度提升內部運營效率和質量。
華為AI解決方案(portfolio)的全場景,是指包括公有云、私有云、各種邊緣計算、物聯網行業終端以及消費類終端等部署環境。
而全棧是技術功能視角,是指包括Ascend昇騰系列IP和芯片、芯片使能CANN、訓練和推理框架MindSpore和應用使能ModelArts在內的全堆棧方案。
徐直軍也回顧了制定以上AI戰略的初衷。
華為定位AI是一種新的通用目的技術(GPT),如同19世紀的鐵路和電力,以及20世紀的汽車、電腦、互聯網一樣,將應用到經濟的幾乎所有地方。
同時華為也認為AI的應用總體還處于發展初期,AI技術和能力相比于長遠期望還有很大差距。減小甚至消除這些差距,加速AI的應用,正是華為AI戰略的初衷和目標。
具體包括致力于促成以下10個方面的改變:
1、模型的訓練時間大幅減小,從數日、數月降低到幾分鐘、幾秒鐘;
2、算力從稀缺昂貴變成充裕、經濟;
3、從AI主要在云、少量在邊緣變成AI無處不在,任何場景;
4、目前主要算法誕生于1980年,下一步更多AI算法將變得更高效、能耗更低,同時更安全、可解釋;
5、提高AI自動化水平,讓能夠AI自動數據標注、數據獲取、特征提取等;
6、在模型的性能與可用度在工業生產中保持優秀,而不僅僅是“測試優秀”;
7、模型能夠從非實時更新變為實時閉環系統的更新;
8、從與其他技術協同不充分變為多技術協同,包括云、IoT、邊緣計算、區塊鏈等;
9、從一項需要高級技能專家的工作,變成由一站式平臺支持的基本技能;
10、從數據科學家稀缺變為數據科學家、領域專家、數據科學工程師相互協作。
結語:華為的AI生態大作戰
此前,華為公布自己的目標,是堅持“平臺+AI+生態”的戰略,推動產業共識、探索產業增值、繁榮應用生態,實現萬物互聯的智能世界。
如今,以達芬奇架構為基礎,華為超高算力的云端AI芯片昇騰910、主打低功耗的端側AI芯片昇騰310,均已加入華為AI的商用陣營。距離華為的“小目標”,又近了一步。
前有NVIDIA、谷歌、英特爾等芯片巨頭在完整軟硬件產品陣列的基礎上,打造了頗具用戶粘性的生態系統,在先發優勢被占的情形之下,華為的AI“全家桶”打法能否為其吸引到更多AI開發者、建立更為強大的生態系統尚未可知。
但可以確定的是,華為的野心和一貫的超強執行力,使其在AI和芯片領域都是絕對不容小覷的一員猛將。
2025-04-18 08:54
2025-04-18 08:53
2025-04-17 08:16
2025-04-17 08:13
2025-04-16 10:55
2025-04-16 08:50
2025-04-14 14:57
2025-04-14 14:53
2025-04-09 12:40
2025-04-08 08:51