国产乱子伦视频一区二区三区 ,一区二区精品视频在线精品 ,大香蕉一区二区三区

電子發(fā)燒友網(wǎng)報(bào)道（文/黃山明）如今，AI已被全球廣泛確認(rèn)為未來(lái)發(fā)展的核心驅(qū)動(dòng)力，不僅是科技前沿，更是重塑經(jīng)濟(jì)、社會(huì)、產(chǎn)業(yè)乃至人類生活方式的關(guān)鍵力量。而在AI技術(shù)蓬勃發(fā)展的背后，是靠著算法、數(shù)據(jù)、算力三大支柱的系統(tǒng)，而硬件是算力的唯一載體，也是數(shù)據(jù)處理、算法落地的物理基礎(chǔ)。

在過(guò)去，AI的算法硬件主要依靠GPU與CPU，但隨著AI技術(shù)的發(fā)展，傳統(tǒng)GPU的弊端開(kāi)始顯現(xiàn)，市場(chǎng)需要一種更高能效比、更低延遲和更便宜的大規(guī)模部署成本的產(chǎn)品，此時(shí)TPU開(kāi)始逐漸在市場(chǎng)中顯現(xiàn)。

從GPU到TPU

說(shuō)起GPU，相信大多數(shù)人都不會(huì)陌生，作為專為圖形渲染設(shè)計(jì)，擁有數(shù)千個(gè)并行計(jì)算核心，能同時(shí)處理大量簡(jiǎn)單任務(wù)的芯片，GPU與深度學(xué)習(xí)的海量矩陣運(yùn)算需求完美契合。因此早在2011年，就有AI研究者發(fā)現(xiàn)英偉達(dá)的GPU能夠處理深度學(xué)習(xí)的巨大計(jì)算需求，谷歌、斯坦福等企業(yè)與機(jī)構(gòu)都開(kāi)始使用。

而在此之前，AI的最大問(wèn)題不是算法，而是神經(jīng)網(wǎng)絡(luò)算不過(guò)來(lái)，訓(xùn)練一次就需要幾周或者幾個(gè)月，模型稍微一大就“跑不動(dòng)”了。

到了2012年，多倫多大學(xué)的Alex Krizhevsky用兩塊GTX 580 GPU訓(xùn)練出AlexNet，在ImageNet圖像識(shí)別大賽中準(zhǔn)確率從74%飆升至85%，震驚業(yè)界，這是深度學(xué)習(xí)第一次碾壓傳統(tǒng)方法。以至于后來(lái)黃仁勛直言，沒(méi)有GTX 580，就沒(méi)有今天的英偉達(dá)，也沒(méi)有現(xiàn)代的AI。

不過(guò)在2013年，谷歌卻面臨了一場(chǎng)算力災(zāi)難，若1億安卓用戶每天使用3分鐘的語(yǔ)音搜索，那么現(xiàn)有數(shù)據(jù)中心算力將不足應(yīng)對(duì)，需要翻倍擴(kuò)建。傳統(tǒng)CPU/GPU在處理神經(jīng)網(wǎng)絡(luò)的大規(guī)模矩陣運(yùn)算時(shí)效率極低，功耗卻極高。

顯然，GPU解決了能不能做AI的問(wèn)題，但面對(duì)AI太貴了、太耗電以及太難規(guī)模化的問(wèn)題無(wú)能為力。2015年，第一代TPU（v1）在谷歌數(shù)據(jù)中心悄然部署，2016年5月Google I/O大會(huì)正式亮相，此時(shí)已內(nèi)部使用一年多。

TPU（Tensor Processing Unit）并不像GPU那樣追求通用型，而是針對(duì)神經(jīng)網(wǎng)絡(luò)犧牲一切多余能力的專用芯片。因此TPU在AI發(fā)展中解決了這三件事，成本、能效、可預(yù)測(cè)性上都要超過(guò)GPU。

具體來(lái)說(shuō)，TPU采用systolic array結(jié)構(gòu)，把矩陣乘法/累加操作做成硬連線流水線，數(shù)據(jù)在陣列內(nèi)部流動(dòng)完成計(jì)算，幾乎省去了傳統(tǒng)GPU需要反復(fù)讀寫(xiě)共享緩存或顯存的步驟。谷歌第六代Trillium與第七代Ironwood的實(shí)測(cè)數(shù)據(jù)顯示，在同等7nm工藝下，TPU的每瓦AI算力達(dá)到GPU的1.4–2.0倍；若與2018年的初代TPU相比，能效提升了近30倍。

并且由于片上HBM距離計(jì)算單元更近，且去掉了圖形渲染所需的大量控制邏輯，TPU在批量推理場(chǎng)景下的延遲普遍比GPU低15–40%；在谷歌搜索、推薦、Claude等線上業(yè)務(wù)中，同樣模型TPU的P99延遲顯著優(yōu)于GPU。

在成本上更是優(yōu)勢(shì)顯著，當(dāng)部署到9000+芯片的Pod級(jí)別時(shí)，TPU配合光電路交換（OCS）可把網(wǎng)絡(luò)功耗再降30%，整機(jī)柜成本比同規(guī)模GPU集群低40–60%。Anthropic、Meta等選擇與谷歌合作，正是看中長(zhǎng)期推理成本可以比GPU方案低4倍以上。

中國(guó)的TPU之路

想要制造TPU并不簡(jiǎn)單，TPU也并非單純的芯片，而是包含了專用架構(gòu)設(shè)計(jì)、配套軟件棧與編譯器支持（例如谷歌的XLA、TensorFlow/JAX集成）、大規(guī)?；ヂ?lián)和集群調(diào)度能力以及針對(duì)深度學(xué)習(xí)訓(xùn)練與推理的整體工程設(shè)計(jì)。

而這種整體系統(tǒng)設(shè)計(jì)相比通用GPU更難拆解學(xué)習(xí)，這是需要跨領(lǐng)域積累，而非練出一塊芯片就算完，TPU背后的項(xiàng)目是谷歌多年針對(duì)AI任務(wù)優(yōu)化的結(jié)果。

而在TPU領(lǐng)域，中國(guó)方面起步較晚，到了2019年，谷歌TPU核心架構(gòu)師楊龔軼凡回國(guó)創(chuàng)辦中昊芯英，國(guó)內(nèi)才首次出現(xiàn)要做真正的張量處理器的創(chuàng)業(yè)公司。

并且在2021年，在北京大學(xué)、清華等高校團(tuán)隊(duì)配合下，中昊芯英完成自研指令集、脈動(dòng)陣列RTL和12nm物理設(shè)計(jì)，流片前夕拿到10億元的融資。

2023年，首顆訓(xùn)練級(jí)TPU“剎那?”一次流片成功，算力可以達(dá)到A100的1.5倍，功耗降低30%，單位成本只有A100的42%，并且實(shí)現(xiàn)了量產(chǎn)交付，也讓中國(guó)首次擁有了可商用的TPU芯片。

而到了2024年，基于“剎那”打造的千卡集群“泰則?”在長(zhǎng)三角、京津冀兩地上線，實(shí)測(cè)可穩(wěn)定訓(xùn)練千億參數(shù)模型；太極股份、浙數(shù)文化、艾布魯?shù)壬鲜泄鞠群笕牍?，形成“芯?系統(tǒng)+云運(yùn)營(yíng)商”小生態(tài)。

今年，天津移動(dòng)TPU智算中心點(diǎn)亮，標(biāo)志著國(guó)產(chǎn)TPU完成“單卡→整機(jī)柜→智算中心”三級(jí)跳，開(kāi)始對(duì)外提供商業(yè)化算力服務(wù)，官方稱同等精度下推理成本比GPU低40–60%。

值得注意的是，除了與運(yùn)營(yíng)商、智算中心協(xié)同部署能力，中昊芯英不僅做芯片，還在構(gòu)建支撐國(guó)產(chǎn)大模型運(yùn)行的軟硬件棧，并且在行業(yè)生態(tài)中逐漸建立合作，讓產(chǎn)品從芯片實(shí)現(xiàn)向算力服務(wù)能力邁進(jìn)。

此前，中昊芯英創(chuàng)始人楊龔軼凡表示，目前實(shí)現(xiàn)高性能TPU AI芯片量產(chǎn)與交付的主要是該公司。同時(shí)，該公司是少數(shù)已盈利的AI芯片企業(yè)，盈利源于國(guó)家支持國(guó)產(chǎn)化進(jìn)程以及創(chuàng)新帶來(lái)的高性價(jià)比產(chǎn)品結(jié)構(gòu)。

據(jù)了解，中昊芯英保持著“一年一芯、一年兩棧”節(jié)奏，第二代7nm芯片已在實(shí)驗(yàn)室回片，配套軟件棧同步開(kāi)發(fā)，預(yù)計(jì)2026年Q2規(guī)模出貨；軟件側(cè)每季度滾動(dòng)發(fā)版，持續(xù)追加PyTorch 2.x新算子與MoE并行策略。

這不僅是中國(guó)在高性能AI處理器路徑上的突破性成果之一，也能減少對(duì)國(guó)外AI算力產(chǎn)品的依賴、增強(qiáng)自主可控能力具有戰(zhàn)略意義，對(duì)國(guó)內(nèi)AI算力生態(tài)建設(shè)是一種實(shí)質(zhì)推動(dòng)。

總結(jié)

TPU的發(fā)展，本質(zhì)上是AI算力需求與硬件供給之間矛盾不斷突破的歷程，從最初解決算力危機(jī) 的專用推理芯片，到支撐大模型訓(xùn)練的 AI超算，再到如今面向生成式AI的推理引擎，TPU發(fā)展始終圍繞著性能、能效、架構(gòu)創(chuàng)新持續(xù)突破。正是TPU提供的超算級(jí)算力，讓大語(yǔ)言模型、多模態(tài)生成等前沿AI成為可能，推動(dòng)AI從實(shí)驗(yàn)室研究走向產(chǎn)業(yè)落地和消費(fèi)級(jí)應(yīng)用。

而隨著中昊芯英等國(guó)內(nèi)企業(yè)推出了真正的高性能TPU芯片，其重要性不在于短期能否完全超越英偉達(dá)或谷歌，而是為國(guó)內(nèi)AI算力提供一個(gè)可自主控制的高級(jí)方向，推動(dòng)國(guó)產(chǎn)算力生態(tài)成長(zhǎng)，包括算力集群部署、模型適配、本地?cái)?shù)據(jù)中心落地，這類戰(zhàn)略意義比單純單項(xiàng)性能更重要。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴