国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

五年完成從0到1,國(guó)產(chǎn)TPU的算力突圍

Simon觀察 ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:黃山明 ? 2025-12-30 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/黃山明)如今,AI已被全球廣泛確認(rèn)為未來(lái)發(fā)展的核心驅(qū)動(dòng)力,不僅是科技前沿,更是重塑經(jīng)濟(jì)、社會(huì)、產(chǎn)業(yè)乃至人類生活方式的關(guān)鍵力量。而在AI技術(shù)蓬勃發(fā)展的背后,是靠著算法、數(shù)據(jù)、算力三大支柱的系統(tǒng),而硬件是算力的唯一載體,也是數(shù)據(jù)處理、算法落地的物理基礎(chǔ)。

在過(guò)去,AI的算法硬件主要依靠GPUCPU,但隨著AI技術(shù)的發(fā)展,傳統(tǒng)GPU的弊端開(kāi)始顯現(xiàn),市場(chǎng)需要一種更高能效比、更低延遲和更便宜的大規(guī)模部署成本的產(chǎn)品,此時(shí)TPU開(kāi)始逐漸在市場(chǎng)中顯現(xiàn)。

從GPU到TPU

說(shuō)起GPU,相信大多數(shù)人都不會(huì)陌生,作為專為圖形渲染設(shè)計(jì),擁有數(shù)千個(gè)并行計(jì)算核心,能同時(shí)處理大量簡(jiǎn)單任務(wù)的芯片,GPU與深度學(xué)習(xí)的海量矩陣運(yùn)算需求完美契合。因此早在2011年,就有AI研究者發(fā)現(xiàn)英偉達(dá)的GPU能夠處理深度學(xué)習(xí)的巨大計(jì)算需求,谷歌、斯坦福等企業(yè)與機(jī)構(gòu)都開(kāi)始使用。

而在此之前,AI的最大問(wèn)題不是算法,而是神經(jīng)網(wǎng)絡(luò)算不過(guò)來(lái),訓(xùn)練一次就需要幾周或者幾個(gè)月,模型稍微一大就“跑不動(dòng)”了。

到了2012年,多倫多大學(xué)的Alex Krizhevsky用兩塊GTX 580 GPU訓(xùn)練出AlexNet,在ImageNet圖像識(shí)別大賽中準(zhǔn)確率從74%飆升至85%,震驚業(yè)界,這是深度學(xué)習(xí)第一次碾壓傳統(tǒng)方法。以至于后來(lái)黃仁勛直言,沒(méi)有GTX 580,就沒(méi)有今天的英偉達(dá),也沒(méi)有現(xiàn)代的AI。

不過(guò)在2013年,谷歌卻面臨了一場(chǎng)算力災(zāi)難,若1億安卓用戶每天使用3分鐘的語(yǔ)音搜索,那么現(xiàn)有數(shù)據(jù)中心算力將不足應(yīng)對(duì),需要翻倍擴(kuò)建。傳統(tǒng)CPU/GPU在處理神經(jīng)網(wǎng)絡(luò)的大規(guī)模矩陣運(yùn)算時(shí)效率極低,功耗卻極高。

顯然,GPU解決了能不能做AI的問(wèn)題,但面對(duì)AI太貴了、太耗電以及太難規(guī)模化的問(wèn)題無(wú)能為力。2015年,第一代TPU(v1)在谷歌數(shù)據(jù)中心悄然部署,2016年5月Google I/O大會(huì)正式亮相,此時(shí)已內(nèi)部使用一年多。

TPU(Tensor Processing Unit)并不像GPU那樣追求通用型,而是針對(duì)神經(jīng)網(wǎng)絡(luò)犧牲一切多余能力的專用芯片。因此TPU在AI發(fā)展中解決了這三件事,成本、能效、可預(yù)測(cè)性上都要超過(guò)GPU。

具體來(lái)說(shuō),TPU采用systolic array結(jié)構(gòu),把矩陣乘法/累加操作做成硬連線流水線,數(shù)據(jù)在陣列內(nèi)部流動(dòng)完成計(jì)算,幾乎省去了傳統(tǒng)GPU需要反復(fù)讀寫(xiě)共享緩存或顯存的步驟。谷歌第六代Trillium與第七代Ironwood的實(shí)測(cè)數(shù)據(jù)顯示,在同等7nm工藝下,TPU的每瓦AI算力達(dá)到GPU的1.4–2.0倍;若與2018年的初代TPU相比,能效提升了近30倍。

并且由于片上HBM距離計(jì)算單元更近,且去掉了圖形渲染所需的大量控制邏輯,TPU在批量推理場(chǎng)景下的延遲普遍比GPU低15–40%;在谷歌搜索、推薦、Claude等線上業(yè)務(wù)中,同樣模型TPU的P99延遲顯著優(yōu)于GPU。

在成本上更是優(yōu)勢(shì)顯著,當(dāng)部署到9000+芯片的Pod級(jí)別時(shí),TPU配合光電路交換(OCS)可把網(wǎng)絡(luò)功耗再降30%,整機(jī)柜成本比同規(guī)模GPU集群低40–60%。Anthropic、Meta等選擇與谷歌合作,正是看中長(zhǎng)期推理成本可以比GPU方案低4倍以上。

中國(guó)的TPU之路

想要制造TPU并不簡(jiǎn)單,TPU也并非單純的芯片,而是包含了專用架構(gòu)設(shè)計(jì)、配套軟件棧與編譯器支持(例如谷歌的XLA、TensorFlow/JAX集成)、大規(guī)?;ヂ?lián)和集群調(diào)度能力以及針對(duì)深度學(xué)習(xí)訓(xùn)練與推理的整體工程設(shè)計(jì)。

而這種整體系統(tǒng)設(shè)計(jì)相比通用GPU更難拆解學(xué)習(xí),這是需要跨領(lǐng)域積累,而非練出一塊芯片就算完,TPU背后的項(xiàng)目是谷歌多年針對(duì)AI任務(wù)優(yōu)化的結(jié)果。

而在TPU領(lǐng)域,中國(guó)方面起步較晚,到了2019年, 谷歌TPU核心架構(gòu)師楊龔軼凡回國(guó)創(chuàng)辦中昊芯英,國(guó)內(nèi)才首次出現(xiàn)要做真正的張量處理器的創(chuàng)業(yè)公司。

并且在2021年,在北京大學(xué)、清華等高校團(tuán)隊(duì)配合下,中昊芯英完成自研指令集、脈動(dòng)陣列RTL和12nm物理設(shè)計(jì),流片前夕拿到10億元的融資。

2023年,首顆訓(xùn)練級(jí)TPU“剎那?”一次流片成功,算力可以達(dá)到A100的1.5倍,功耗降低30%,單位成本只有A100的42%,并且實(shí)現(xiàn)了量產(chǎn)交付,也讓中國(guó)首次擁有了可商用的TPU芯片。

而到了2024年,基于“剎那”打造的千卡集群“泰則?”在長(zhǎng)三角、京津冀兩地上線,實(shí)測(cè)可穩(wěn)定訓(xùn)練千億參數(shù)模型;太極股份、浙數(shù)文化、艾布魯?shù)壬鲜泄鞠群笕牍?,形成“芯?系統(tǒng)+云運(yùn)營(yíng)商”小生態(tài)。

今年,天津移動(dòng)TPU智算中心點(diǎn)亮,標(biāo)志著國(guó)產(chǎn)TPU完成“單卡→整機(jī)柜→智算中心”三級(jí)跳,開(kāi)始對(duì)外提供商業(yè)化算力服務(wù),官方稱同等精度下推理成本比GPU低40–60%。

值得注意的是,除了與運(yùn)營(yíng)商、智算中心協(xié)同部署能力,中昊芯英不僅做芯片,還在構(gòu)建支撐國(guó)產(chǎn)大模型運(yùn)行的軟硬件棧,并且在行業(yè)生態(tài)中逐漸建立合作,讓產(chǎn)品從芯片實(shí)現(xiàn)向算力服務(wù)能力邁進(jìn)。

此前,中昊芯英創(chuàng)始人楊龔軼凡表示,目前實(shí)現(xiàn)高性能TPU AI芯片量產(chǎn)與交付的主要是該公司。同時(shí),該公司是少數(shù)已盈利的AI芯片企業(yè),盈利源于國(guó)家支持國(guó)產(chǎn)化進(jìn)程以及創(chuàng)新帶來(lái)的高性價(jià)比產(chǎn)品結(jié)構(gòu)。

據(jù)了解,中昊芯英保持著“一年一芯、一年兩棧”節(jié)奏,第二代7nm芯片已在實(shí)驗(yàn)室回片,配套軟件棧同步開(kāi)發(fā),預(yù)計(jì)2026年Q2規(guī)模出貨;軟件側(cè)每季度滾動(dòng)發(fā)版,持續(xù)追加PyTorch 2.x新算子與MoE并行策略。

這不僅是中國(guó)在高性能AI處理器路徑上的突破性成果之一,也能減少對(duì)國(guó)外AI算力產(chǎn)品的依賴、增強(qiáng)自主可控能力具有戰(zhàn)略意義,對(duì)國(guó)內(nèi)AI算力生態(tài)建設(shè)是一種實(shí)質(zhì)推動(dòng)。

總結(jié)

TPU的發(fā)展,本質(zhì)上是AI算力需求與硬件供給之間矛盾不斷突破的歷程,從最初解決 算力危機(jī) 的專用推理芯片,到支撐大模型訓(xùn)練的 AI超算,再到如今面向生成式AI的推理引擎,TPU發(fā)展始終圍繞著性能、能效、架構(gòu)創(chuàng)新持續(xù)突破。正是TPU提供的超算級(jí)算力,讓大語(yǔ)言模型、多模態(tài)生成等前沿AI成為可能,推動(dòng)AI從實(shí)驗(yàn)室研究走向產(chǎn)業(yè)落地和消費(fèi)級(jí)應(yīng)用。

而隨著中昊芯英等國(guó)內(nèi)企業(yè)推出了真正的高性能TPU芯片,其重要性不在于短期能否完全超越英偉達(dá)或谷歌,而是為國(guó)內(nèi)AI算力提供一個(gè)可自主控制的高級(jí)方向,推動(dòng)國(guó)產(chǎn)算力生態(tài)成長(zhǎng),包括算力集群部署、模型適配、本地?cái)?shù)據(jù)中心落地,這類戰(zhàn)略意義比單純單項(xiàng)性能更重要。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    170

    瀏覽量

    21654
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    RISC-V+類TPU架構(gòu):國(guó)產(chǎn)實(shí)現(xiàn)從"堆砌""精耕"的范式躍遷

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)在AI大模型技術(shù)迅猛發(fā)展的今天,已成為決定模型性能與商業(yè)價(jià)值的關(guān)鍵因素。然而,隨著模型參數(shù)量與訓(xùn)練計(jì)算量的激增,傳統(tǒng)"堆砌"模式已難以為繼。當(dāng)前,
    的頭像 發(fā)表于 02-11 09:29 ?3996次閱讀
    RISC-V+類<b class='flag-5'>TPU</b>架構(gòu):<b class='flag-5'>國(guó)產(chǎn)</b><b class='flag-5'>算</b><b class='flag-5'>力</b>實(shí)現(xiàn)從&quot;堆砌&quot;<b class='flag-5'>到</b>&quot;精耕&quot;的范式躍遷

    2025中科曙光DeepAI深智能引擎完成全面進(jìn)化

    2025,中科曙光DeepAI深智能引擎完成技術(shù)突破生態(tài)建設(shè)的全面進(jìn)化。2月全球開(kāi)發(fā)
    的頭像 發(fā)表于 12-30 15:47 ?673次閱讀

    云端集中邊緣分布:邊緣智如何重塑網(wǎng)絡(luò)布局

    隨著大模型推理延遲進(jìn)入毫秒級(jí)時(shí)代,整個(gè)科技行業(yè)都意識(shí)網(wǎng)絡(luò)的規(guī)則正在被改寫(xiě)。這場(chǎng)變革的核心,正是云端集中式計(jì)算向邊緣分布式智能的范式轉(zhuǎn)移。據(jù)行業(yè)多家分析機(jī)構(gòu)綜合預(yù)測(cè),全球AI基
    的頭像 發(fā)表于 12-25 11:34 ?422次閱讀
    <b class='flag-5'>從</b>云端集中<b class='flag-5'>到</b>邊緣分布:邊緣智<b class='flag-5'>算</b>如何重塑<b class='flag-5'>算</b><b class='flag-5'>力</b>網(wǎng)絡(luò)布局

    云天勵(lì)飛出席GAIR 2025 AI新十專場(chǎng)

    12月13日,GAIR 2025「AI 新十」專場(chǎng)在深圳舉行。作為國(guó)內(nèi)前沿技術(shù)與產(chǎn)業(yè)變革的重要風(fēng)向標(biāo),GAIR大會(huì)歷經(jīng)七屆積淀,見(jiàn)證并推動(dòng)了中國(guó) AI 產(chǎn)業(yè)算法突破、硬件迭代,
    的頭像 發(fā)表于 12-22 09:38 ?415次閱讀

    湘軍,讓變成生產(chǎn)

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    CPU、GPUNPU,美格智能持續(xù)優(yōu)化異構(gòu)計(jì)算效能

    前言AI已成為數(shù)字經(jīng)濟(jì)時(shí)代的核心生產(chǎn),但全球AI產(chǎn)業(yè)正面臨“供給不足、成本高企、生態(tài)待建”三重挑戰(zhàn)。據(jù)行業(yè)統(tǒng)計(jì),行業(yè)資源平均利用率
    的頭像 發(fā)表于 11-21 16:05 ?1152次閱讀
    <b class='flag-5'>從</b>CPU、GPU<b class='flag-5'>到</b>NPU,美格智能持續(xù)優(yōu)化異構(gòu)<b class='flag-5'>算</b><b class='flag-5'>力</b>計(jì)算效能

    國(guó)產(chǎn)AI芯片真能扛住“內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?

    最近行業(yè)都在說(shuō)“是AI的命門(mén)”,但國(guó)產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實(shí)測(cè)下來(lái)有點(diǎn)超出預(yù)期——7nm工藝下
    發(fā)表于 10-27 13:12

    擁抱DeepSeek開(kāi)源生態(tài)| TPU接入TileLang,集結(jié)北大復(fù)旦山大頂尖團(tuán)隊(duì)!

    TPU的TileLang-TPU項(xiàng)目也于近日完成工程驗(yàn)證。TileLang發(fā)布之初,能聯(lián)合北京大學(xué)、復(fù)旦大學(xué)、山東大學(xué)等高校的科研團(tuán)隊(duì),共同開(kāi)展TileLang接
    的頭像 發(fā)表于 10-03 19:08 ?1413次閱讀
    擁抱DeepSeek開(kāi)源生態(tài)| <b class='flag-5'>算</b>能<b class='flag-5'>TPU</b>接入TileLang,集結(jié)北大復(fù)旦山大頂尖團(tuán)隊(duì)!

    不夠、交付太慢?捷智裸金屬租賃對(duì)標(biāo)物理機(jī)性能,讓你立馬用上高!

    2025國(guó)產(chǎn)大模型升級(jí)帶動(dòng)租賃需求爆發(fā),高性能服務(wù)器“一機(jī)難求”。中研普華預(yù)測(cè),今年我
    的頭像 發(fā)表于 09-12 20:06 ?1321次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>不夠、交付太慢?捷智<b class='flag-5'>算</b>裸金屬租賃對(duì)標(biāo)物理機(jī)性能,讓你立馬用上高<b class='flag-5'>算</b><b class='flag-5'>力</b>!

    國(guó)產(chǎn)飛騰工控機(jī)重大突破:推動(dòng)國(guó)產(chǎn)升級(jí)!

    當(dāng)下,已成為衡量國(guó)家綜合實(shí)力和產(chǎn)業(yè)競(jìng)爭(zhēng)的關(guān)鍵指標(biāo)。隨著數(shù)字化轉(zhuǎn)型的加速,各行業(yè)對(duì)的需求呈爆發(fā)式增長(zhǎng),
    的頭像 發(fā)表于 08-22 10:07 ?484次閱讀

    萬(wàn)卡集群十萬(wàn)卡集群,燧原科技始終踐行普惠

    健康、教育等垂直領(lǐng)域,對(duì)設(shè)施有著更加廣泛的需求,包括智中心和訓(xùn)推一體機(jī)等。 ? 在 2025 世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議(WAIC 2025)上,作為國(guó)產(chǎn)人工智
    發(fā)表于 07-30 09:54 ?4517次閱讀
    <b class='flag-5'>從</b>萬(wàn)卡集群<b class='flag-5'>到</b>十萬(wàn)卡集群,燧原科技始終踐行<b class='flag-5'>算</b><b class='flag-5'>力</b>普惠

    國(guó)產(chǎn)新旗艦!集特GM0-5602主板:海光芯加持,重塑高性能計(jì)算版圖

    一塊精心鍛造的國(guó)產(chǎn)計(jì)算基石,正以澎湃填補(bǔ)中國(guó)高端計(jì)算平臺(tái)的最后空缺。在為王的時(shí)代,一顆真正的“中國(guó)芯”正在掀起巨浪。2025
    的頭像 發(fā)表于 07-04 10:44 ?2143次閱讀
    <b class='flag-5'>國(guó)產(chǎn)</b><b class='flag-5'>算</b><b class='flag-5'>力</b>新旗艦!集特GM<b class='flag-5'>0</b>-5602主板:海光芯加持,重塑高性能計(jì)算版圖

    軟通智完成超億級(jí)A輪融資,加速AI產(chǎn)業(yè)布局

    北京 20256月18日 /美通社/ -- 近日,軟通動(dòng)力旗下軟通智科技(廣東)集團(tuán)有限公司(以下簡(jiǎn)稱"軟通智")完成超億級(jí)A輪融資,本輪融資由盛景嘉成創(chuàng)投領(lǐng)投,廣發(fā)信德、毅達(dá)資
    的頭像 發(fā)表于 06-18 15:37 ?570次閱讀

    加速卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉GPU和TPU!

    隨著AI技術(shù)火得一塌糊涂,大家都在談"大模型"、"AI加速"、"智能計(jì)算",可真到了落地環(huán)節(jié),才是硬通貨。你有沒(méi)有發(fā)現(xiàn),現(xiàn)在越來(lái)越多的AI企業(yè)不光用GPU,也不怎么迷信TPU了?他們嘴里多了一個(gè)新詞兒——智
    的頭像 發(fā)表于 06-05 13:39 ?1644次閱讀
    智<b class='flag-5'>算</b>加速卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉GPU和<b class='flag-5'>TPU</b>!

    芯片的生態(tài)突圍革命

    電子發(fā)燒友網(wǎng)報(bào)道(文 / 李彎彎)大芯片,即具備強(qiáng)大計(jì)算能力的集成電路芯片,主要應(yīng)用于高性能計(jì)算(HPC)、人工智能(AI)、數(shù)據(jù)中心、自動(dòng)駕駛等需要海量數(shù)據(jù)并行計(jì)算的場(chǎng)景。隨著 AI 與大數(shù)
    的頭像 發(fā)表于 04-13 00:02 ?3242次閱讀