国产精品久久久久久久久亚洲美女 ,无码国产69精品久久久久网站,国产乱子伦视频一区二区三区

12納米擊敗4納米。

1970年底，英特爾發布了“一件劃時代的作品”——Intel 4004微處理器。

這塊全球第一款大規模商用微處理器，出自英特爾“有史以來最偉大的芯片工程師”費德里科.法金（Frederico Faggin）之手。他將2250個晶體管以10微米的距離，集成在了這片僅有3cm×4cm的芯片上，并把自己的名字縮寫“F.F.”刻了上去。

這塊每秒運算6萬次、能夠處理4bit數據、成本僅不到100美元的10微米制程芯片，在當時直接宣告了集成電子設備新時代的來臨。英特爾CEO戈登.摩爾（Gordon Moore）甚至將4004稱為：人類歷史上最具革新性的產品之一。

如今，距離劃時代的4004芯片已經過了51個年頭。在這51年里，芯片技術急速增長。今年6月蘋果發布的5納米M2芯片擁有200億晶體管，晶體管數量已是4004的900萬倍，而制程卻僅是它的兩千分之一。

通常來說，芯片制程決定了其所能集成的晶體管數量，也直接影響著芯片性能。但制程數據也并非完全是越小越好，凡事都有例外。

就在前不久剛剛發布的MLPerf推理v2.1的榜單中，來自中國深圳的AI計算服務與平臺提供商墨芯人工智能憑借12納米制程，在Resnet-50模型中超越了4納米制程的英偉達最強GPU芯片H100。

2018年，墨芯人工智能在硅谷創立，目前總部位于深圳。創始團隊來自于卡內基梅隆大學頂尖AI科學家、世界頂尖半導體公司（如Intel、Marvell和Oracle等）核心高量產芯片研發團隊。

甲子光年曾在今年3月報道過墨芯。當時，墨芯即將發布搭載Antoum芯片的AI計算卡：S4、S10和S30。

盡管與許多明星創業公司同樣做AI芯片，但墨芯的重點與其他家非常不同。不管是最近火熱的GPGPU，還是曾經AI芯片熱潮的ASIC，過去各家公司都把重點放在硬件層面的精進上。但墨芯主打的卻是從軟件——稀疏化算法出發進行軟硬協同設計。

稀疏化算法由于其本身存在一定的難以繞開的技術難點，以往選擇該路線的芯片公司并不多。但隨著數據計算量的增大，稀疏化算法開始越發展現出其高算力、低功耗、高性價比的價值。

這也是墨芯能夠憑借12納米制程贏下4納米H100的重要原因。

本次的MLPerf中，另一家主打稀疏化算法的美國創業公司Neural Magic也提交了成績。這是兩家稀疏化算法路線公司首次參加MLPerf，讓MLCommons的創始人David Kanter感嘆：“新架構令人振奮，展示出了業界的創新力和創造力”。

日前，「甲子光年」采訪了墨芯創始人兼CEO王維，與他探討墨芯為何能做到MLPerf的結果，以及算法將如何引領AI芯片的未來。

1.MLPerf測試——AI算力領域的“圖靈獎”

自英特爾發布4004后的51年里，芯片制造公司不斷改進工藝，讓單位面積能夠容納更多的晶體管。

英特爾創始人預計，單位面積的晶體管數量約每兩年會增加一倍，而芯片性能大約18個月會提升一倍。這就是著名的“摩爾定律”。

過去10年中，隨著人工智能的快速發展，數據計算量變得越來越大。人們對芯片性能的需求，遠遠超過了芯片性能的增長速度。業內專家估計，目前，人工智能的算力需求每3.5個月就會翻倍。

這就導致原來的CPU不再適用于人工智能計算。而能夠進行海量并行運算的GPU，以及滿足特定功能的ASIC逐漸成為AI計算芯片的主流，伴隨著制程的提升而更新迭代。

為了更好地推動人工智能發展、建立衡量機器學習性能的行業指標，2018年，來自谷歌、百度、哈佛大學、斯坦福大學和加州大學伯克利分校的工程師和研究人員，成立了一個名為“MLCommons”的組織，并共同編寫測試套件，用以測試芯片算力，也就是后來的MLPerf。

工作開展得很快。同年，該組織就推出了訓練和高性能計算測試套件。并且在隨后的兩年里又推出了3套推理測試套件。

推出套件的同時，MLCommons每年都會邀請世界各個企業和組織加入，并通過MLPerf套件對芯片性能進行測試。MLCommons每季度都會組織成員提交結果并發布成績。每年一、三季度發布推理結果，二、四季度發布訓練結果。

隨著MLCommons越來越受到認可和關注，加入其中的公司也越來越多。如今，MLCommons已經受到全球超過70個公司和組織的支持，除了最初創始的公司外，商業企業還包括英特爾、英偉達、Meta、微軟等芯片和云計算巨頭。

本季度的推理測試是MLPerf的第6次測試，共收到超過5300個測試結果，其中包括中國企業阿里巴巴、H3C、浪潮、聯想、墨芯、壁仞。

MLPerf測試主要分為固定任務（Closed division）和開放任務（Open division）兩種。

根據MLCommons官方信息，MLPerf為了鼓勵軟件和硬件創新，有兩個分區，在實現結果時有不同程度的靈活性。封閉任務旨在對硬件平臺或軟件框架進行標準一致的比較，要求使用與參考模型相同的模型。開放任務旨在促進創新，允許使用不同的模型或重新訓練。

簡單來說，固定任務更關注硬件能力，而開放任務更關注創新的可能性，即軟件和硬件融合的能力。由此來看，開放任務更可能暗示未來人工智能計算的發展方向。

值得注意的是，如果開放任務的參賽者使用了不同的模型和數據集，需要在提交的結果中標示出來，由此可以提供開放任務和固定任務的比較維度。

本次測試中，墨芯S30計算卡以95784 FPS的單卡算力，奪得Resnet-50模型算力全球第一，是全球旗艦產品H100的1.2倍，是A100的2倍。

同時，墨芯S30運行BERT-Large是A100的2倍，僅次于H100，在Bert-large高精度模型（99.9%），單卡算力達3837 SPS。

作為一個國際組織，MLCommons除了組織成員企業測試之外，更重要的在于推進行業內的交流。這個季度剛開始，MLCommons就著手聯系成員企業，并輔導大家每個階段應該如何提交數據。

過去三個月里，參與測試的成員企業每周都會開展線上會議。墨芯與國際芯片廠商高通、英偉達、英特爾等公司交流探討，不僅了解到各家對于AI計算的側重點、如何評價算力性能等，更意識到了企業之間開放互助態度，并共同將此作為共識向下推進。

也正是這種企業之間互助的態度和對技術創新的追求，讓算法有機會從硬件的競賽中脫穎而出。

2.稀疏化計算——從冷門到熱門

不同于其他公司，墨芯的特色在于稀疏化算法。

稀疏化計算并不是一項新技術。

“稀疏化計算”的原理不難理解，是指在原有AI計算的大量矩陣運算中，將含有0元素和無效元素剔除，讓神經網絡模型消減冗余，以顯著加快計算速度，提高計算性能。

比如在人臉識別的場景中，傳統的算法需要計算圖片中的所有元素與現有圖片模型的關聯，而后得出結論；但稀疏化計算會先在圖片中找出需要比對的元素，而后只需計算這些元素與現有圖片模型的關聯，不再計算圖片中其他的無效元素。

由于稀疏化算法的這種特性，過去它一直被業內質疑會因為舍棄元素而導致最終結果并不準確。但隨著人工智能所需要計算的數據量的急劇膨脹，尋求更高效率、更高性價比的算法，在今天顯得越發重要。

于是近幾年，科技巨頭都開始表達出對稀疏化計算的興趣。

Meta AI 西雅圖研究負責人Luke Zettlemoyer教授指出，在巨大的數據量下，訓練大模型的難度也在急劇增加。“如果想要模型繼續變大，最終不得不做出妥協：不再使用稠密的神經網絡，而是采用稀疏化的思想”。

谷歌人工智能主管Jeff Dean在今年三月提交了論文，闡述了新的通用AI架構Pathways。稀疏、通用和高效是它的關鍵詞。

更重要的信號來自于硬件領域。

與以往完全不同，硬件公司如今也開始支持稀疏化計算。英偉達在2020年發布的基于Ampere架構的A100芯片，支持2倍的稀疏化計算；今年7月，英特爾與阿里巴巴DeepRec開源推薦引擎合作，共同探索稀疏化模型的訓練與預測。

根據稀疏化算法的原理，稀疏化計算天然擁有快速、節省能耗的特性。例如同樣作為旗艦加速卡，A100功耗為400W，H100更是飆升到了700W；而墨芯的S4僅有75W，S30也僅有250W。

而且墨芯采用的還是12納米的工藝，相對于H100的4納米與A100的7納米工藝，成本上預計節省一個數量級。

業內對稀疏化計算的質疑主要在于兩方面：

第一，稀疏化計算在訓練和執行模型進行“稀疏”的步驟時是否會增加資源消耗，從而導致整體的優化率不高；

第二，稀疏化計算是否會損失精度。

墨芯CEO王維告訴「甲子光年」：目前墨芯的計算卡已經能夠達到4~32倍的稀疏率。通過計算卡優化模型，這個過程是“一勞永逸”的。也即優化完成后，企業再做計算時可以直接開啟“瘦身加速”模式。

而在精度層面，MLPerf測試本身就對精度有很高的要求，參賽提交者需要達到相應的精度要求才能通過審核。

從MLPerf公布的結果看，墨芯采用的是和固定任務賽道同樣的模型和數據集，選擇的模型也是Bert-large高精度模型——Bert-large99.9%，即結果精度需要達到官方原始Bert模型精度90.9的99.9%，也就是90.8%以上。

而在實際任務中，墨芯面對精度需求嚴格的客戶，采取使用“更大模型+高稀疏倍率”模式，兼顧其對于大幅提高算力和保證精度的要求；反之，對于算力優先的客戶，可以在可接受的范圍內調整精度，換取更高倍率的加速。

但對于墨芯來說，這些都只是剛剛開始。

目前，不管是墨芯還是墨芯的客戶，都主要在推理側用到稀疏化計算，而在訓練側依舊是稠密計算。未來，墨芯希望將稀疏化帶入訓練端，創造更多的性能提升。

3.AI芯片2.0——算法與硬件融合發展

既然稀疏化算法早已存在，并且具有一定的可取之處，為什么過去沒有公司來做呢？背后的答案其實非常簡單：因為原有的GPU不支持。

人工智能計算本質是海量的并行計算。相對于CPU而言，GPU擁有許多結構簡單的計算單元，適合處理海量并行計算。但在稀疏化計算中，這些簡單的計算單元在內部很難進行高倍的稀疏。

比如英偉達的Tensor Core，擁有4*4的結構，就無法實現墨芯需要的32倍的稀疏。

墨芯的首席科學家嚴恩勖曾在采訪中指出，推進稀疏化計算過程中最大的挑戰在于“找不到合適的硬件”。

所以，為了同時滿足高倍稀疏化和大規模并行運算，墨芯決定從算法和軟件出發，重新定義相應的架構和硬件。墨芯堅持軟硬協同開發，構建了持續多層次優化稀疏運算的底層算法能力，架構保證可編程性、高度可拓展性及快速迭代能力，讓整個硬件從設計之初就完全地支持算法。

這顛覆了外界對AI芯片公司的想象。

一直以來，芯片公司總是從硬件架構來精進，比如GPU、ASIC專用芯片，以及近年來受到關注的Chiplet、存算一體等技術，都是硬件的迭代。軟件像是附屬品，幾乎不被提起。

但事實上，幾乎每家AI芯片公司都有比硬件工程師人數更多的軟件團隊。比如墨芯目前的軟硬件人數比大約為6:4。英偉達每年芯片發布后，次年依靠軟件和系統的升級，又可以提升50%以上的效果。

中國最早一批成立和上市的AI芯片公司寒武紀，在英偉達的CUDA之外，重新搭建了自己的軟件系統。但整個過程不僅花費了比硬件更多的時間和人力，教育依舊長路漫漫。吸取了寒武紀的經驗，新創業的AI芯片公司，都在軟件層面兼容CUDA，但又逐步推出自己的軟件棧，吸引更多人加入研發。

而墨芯走了一條不一樣的路——從創業之初就堅持以算法和軟件為主，基于算法來設計架構和硬件。

王維告訴「甲子光年」：“其實在我看來，這些都是計算科學的問題，軟硬件我不太區分。只是到具體技術實現的時候，哪些事情用硬件做，哪些事情用軟件做而已，本質上大家都在解決計算問題”。

墨芯在此次MLPerf的成績正是這種理念照射進現實。軟硬件協同設計的創新稀疏化架構讓高倍率稀疏計算得以實現，助力墨芯達成MLPerf出色結果。

在S30的芯片架構設計中，除了用于原生稀疏卷積和矩陣計算的稀疏處理單元（SPU），該處理器還集成了一個矢量處理單元（VPU），實現了靈活的可編程性，以跟上AI模型的快速發展。

對于一個創業公司來說，需要找到一個具有顛覆性的角度和方向。墨芯專注于稀疏化計算，并通過硬件適配算法的方式，希望把稀疏化計算的潛力發揮到極致。通過這一路徑，墨芯的目標不僅僅是“替代”現有的GPU，還要創造更多的可能性。

著名的自然語言大模型GPT-3擁有1700多億參數。應用GPU來運行這個模型，需要10張A100的加速卡才行。但應用稀疏化算法，一張墨芯的S30卡就可以讓這個模型跑起來。

這其中的差異，并不只是1張卡和10張卡的成本的區別，它還意味著能夠解決更多技術方面的難題。比如10張卡連接時候的計算能力損耗，在1張卡時就無需考慮；又如在功耗限制下運行的復雜計算也會成為可能。

在未來，通過稀疏化計算，企業能夠有機會設計出更為復雜的模型，為產業應用創造新的機會。

目前，墨芯已在一些頭部互聯網公司進入適配階段；在垂直行業市場，墨芯也已經與生命科學領域的頭部企業達成合作。

未來，AI芯片和算法都需要往更通用和智能的方向發展。正如王維所說，我們不僅要關注芯片企業是如何發展起來的，也要關注AI本身是如何發展的。

最終，AI芯片的本質是支撐和賦能算法。當AI芯片從1.0邁向2.0，軟硬融合將成為最重要的競爭力。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4786

瀏覽量
98194
晶體管

晶體管

+關注

關注
78

文章
10402

瀏覽量
148005
AI芯片

AI芯片

+關注

關注
17

文章
2134

瀏覽量
36809

原文標題：算法引領AI芯片走入2.0時代 | 甲子光年

文章出處：【微信號：jazzyear，微信公眾號：甲子光年】歡迎添加關注！文章轉載請注明出處。

伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

搜索歷史

算法將如何引領AI芯片的未來

評論