国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文搞懂 CPU、GPU 和 TPU

電子工程師 ? 來(lái)源:未知 ? 作者:工程師李察 ? 2018-09-15 10:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

張量處理單元(TPU)是一種定制化的 ASIC 芯片,它由谷歌從頭設(shè)計(jì),并專門(mén)用于機(jī)器學(xué)習(xí)工作負(fù)載。TPU 為谷歌的主要產(chǎn)品提供了計(jì)算支持,包括翻譯、照片、搜索助理和 Gmail 等。

在本文中,我們將關(guān)注 TPU 某些特定的屬性。

神經(jīng)網(wǎng)絡(luò)如何運(yùn)算

在我們對(duì)比 CPUGPU 和 TPU 之前,我們可以先了解到底機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)需要什么樣的計(jì)算。如下所示,假設(shè)我們使用單層神經(jīng)網(wǎng)絡(luò)識(shí)別手寫(xiě)數(shù)字。

如果圖像為 28×28 像素的灰度圖,那么它可以轉(zhuǎn)化為包含 784 個(gè)元素的向量。神經(jīng)元會(huì)接收所有 784 個(gè)值,并將它們與參數(shù)值(上圖紅線)相乘,因此才能識(shí)別為「8」。其中參數(shù)值的作用類似于用「濾波器」從數(shù)據(jù)中抽取特征,因而能計(jì)算輸入圖像與「8」之間的相似性:

這是對(duì)神經(jīng)網(wǎng)絡(luò)做數(shù)據(jù)分類最基礎(chǔ)的解釋,即將數(shù)據(jù)與對(duì)應(yīng)的參數(shù)相乘(上圖兩種顏色的點(diǎn)),并將它們加在一起(上圖右側(cè)收集計(jì)算結(jié)果)。如果我們能得到最高的預(yù)測(cè)值,那么我們會(huì)發(fā)現(xiàn)輸入數(shù)據(jù)與對(duì)應(yīng)參數(shù)非常匹配,這也就最可能是正確的答案。

簡(jiǎn)單而言,神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)和參數(shù)之間需要執(zhí)行大量的乘法和加法。我們通常會(huì)將這些乘法與加法組合為矩陣運(yùn)算,這在我們大學(xué)的線性代數(shù)中會(huì)提到。所以關(guān)鍵點(diǎn)是我們?cè)撊绾慰焖賵?zhí)行大型矩陣運(yùn)算,同時(shí)還需要更小的能耗。

CPU 如何運(yùn)行

因此 CPU 如何來(lái)執(zhí)行這樣的大型矩陣運(yùn)算任務(wù)呢?一般 CPU 是基于馮諾依曼架構(gòu)的通用處理器,這意味著 CPU 與軟件和內(nèi)存的運(yùn)行方式如下:

圖:CPU 如何運(yùn)行

CPU 最大的優(yōu)勢(shì)是靈活性。通過(guò)馮諾依曼架構(gòu),我們可以為數(shù)百萬(wàn)的不同應(yīng)用加載任何軟件。我們可以使用 CPU 處理文字、控制火箭引擎、執(zhí)行銀行交易或者使用神經(jīng)網(wǎng)絡(luò)分類圖像。

但是,由于 CPU 非常靈活,硬件無(wú)法一直了解下一個(gè)計(jì)算是什么,直到它讀取了軟件的下一個(gè)指令。CPU 必須在內(nèi)部將每次計(jì)算的結(jié)果保存到內(nèi)存中(也被稱為寄存器或 L1 緩存)。內(nèi)存訪問(wèn)成為 CPU 架構(gòu)的不足,被稱為馮諾依曼瓶頸。

雖然神經(jīng)網(wǎng)絡(luò)的大規(guī)模運(yùn)算中的每一步都是完全可預(yù)測(cè)的,每一個(gè) CPU 的算術(shù)邏輯單元(ALU,控制乘法器和加法器的組件)都只能一個(gè)接一個(gè)地執(zhí)行它們,每一次都需要訪問(wèn)內(nèi)存,限制了總體吞吐量,并需要大量的能耗。

GPU 如何工作

為了獲得比 CPU 更高的吞吐量,GPU 使用一種簡(jiǎn)單的策略:在單個(gè)處理器中使用成千上萬(wàn)個(gè) ALU。現(xiàn)代 GPU 通常在單個(gè)處理器中擁有 2500-5000 個(gè) ALU,意味著你可以同時(shí)執(zhí)行數(shù)千次乘法和加法運(yùn)算。

圖:GPU 如何工作

這種 GPU 架構(gòu)在有大量并行化的應(yīng)用中工作得很好,例如在神經(jīng)網(wǎng)絡(luò)中的矩陣乘法。實(shí)際上,相比 CPU,GPU 在深度學(xué)習(xí)的典型訓(xùn)練工作負(fù)載中能實(shí)現(xiàn)高幾個(gè)數(shù)量級(jí)的吞吐量。這正是為什么 GPU 是深度學(xué)習(xí)中最受歡迎的處理器架構(gòu)。

但是,GPU 仍然是一種通用的處理器,必須支持幾百萬(wàn)種不同的應(yīng)用和軟件。這又把我們帶回到了基礎(chǔ)的問(wèn)題,馮諾依曼瓶頸。在每次幾千個(gè) ALU 的計(jì)算中,GPU 都需要訪問(wèn)寄存器或共享內(nèi)存來(lái)讀取和保存中間計(jì)算結(jié)果。

因?yàn)?GPU 在其 ALU 上執(zhí)行更多的并行計(jì)算,它也會(huì)成比例地耗費(fèi)更多的能量來(lái)訪問(wèn)內(nèi)存,同時(shí)也因?yàn)閺?fù)雜的線路而增加 GPU 的物理空間占用。

TPU 如何工作

當(dāng)谷歌設(shè)計(jì) TPU 的時(shí)候,我們構(gòu)建了一種領(lǐng)域特定的架構(gòu)。這意味著,我們沒(méi)有設(shè)計(jì)一種通用的處理器,而是專用于神經(jīng)網(wǎng)絡(luò)工作負(fù)載的矩陣處理器。

TPU 不能運(yùn)行文本處理軟件、控制火箭引擎或執(zhí)行銀行業(yè)務(wù),但它們可以為神經(jīng)網(wǎng)絡(luò)處理大量的乘法和加法運(yùn)算,同時(shí) TPU 的速度非常快、能耗非常小且物理空間占用也更小。

其主要助因是對(duì)馮諾依曼瓶頸的大幅度簡(jiǎn)化。因?yàn)樵撎幚砥鞯闹饕蝿?wù)是矩陣處理,TPU 的硬件設(shè)計(jì)者知道該運(yùn)算過(guò)程的每個(gè)步驟。因此他們放置了成千上萬(wàn)的乘法器和加法器并將它們直接連接起來(lái),以構(gòu)建那些運(yùn)算符的物理矩陣。

這被稱作脈動(dòng)陣列(Systolic Array)架構(gòu)。在 Cloud TPU v2 的例子中,有兩個(gè) 128X128 的脈動(dòng)陣列,在單個(gè)處理器中集成了 32768 個(gè) ALU 的 16 位浮點(diǎn)值。

我們來(lái)看看一個(gè)脈動(dòng)陣列如何執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算。首先,TPU 從內(nèi)存加載參數(shù)到乘法器和加法器的矩陣中。

圖:TPU 如何工作

然后,TPU 從內(nèi)存加載數(shù)據(jù)。當(dāng)每個(gè)乘法被執(zhí)行后,其結(jié)果將被傳遞到下一個(gè)乘法器,同時(shí)執(zhí)行加法。因此結(jié)果將是所有數(shù)據(jù)和參數(shù)乘積的和。在大量計(jì)算和數(shù)據(jù)傳遞的整個(gè)過(guò)程中,不需要執(zhí)行任何的內(nèi)存訪問(wèn)。

這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡(luò)運(yùn)算上達(dá)到高計(jì)算吞吐量,同時(shí)能耗和物理空間都很小。

因此使用 TPU 架構(gòu)的好處就是:成本降低至 1/5。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54007

    瀏覽量

    465940
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11277

    瀏覽量

    224951
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111370

原文標(biāo)題:一文搞懂 CPU、GPU 和 TPU

文章出處:【微信號(hào):FPGAer_Club,微信公眾號(hào):FPGAer俱樂(lè)部】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    五年完成從0到1,國(guó)產(chǎn)TPU的算力突圍

    三大支柱的系統(tǒng),而硬件是算力的唯載體,也是數(shù)據(jù)處理、算法落地的物理基礎(chǔ)。 ? 在過(guò)去,AI的算法硬件主要依靠GPUCPU,但隨著AI技術(shù)的發(fā)展,傳統(tǒng)GPU的弊端開(kāi)始顯現(xiàn),市場(chǎng)需要
    的頭像 發(fā)表于 12-30 09:24 ?1631次閱讀

    帶你徹底搞懂K8s網(wǎng)絡(luò)

    說(shuō)實(shí)話,K8s 網(wǎng)絡(luò)是我見(jiàn)過(guò)最讓新手頭疼的知識(shí)點(diǎn),沒(méi)有之。記得我剛接觸 K8s 那會(huì)兒,看著流量在 Pod、Service、Node 之間穿梭,完全是臉懵逼。后來(lái)踩了無(wú)數(shù)坑,熬了無(wú)數(shù)夜,總算把這套網(wǎng)絡(luò)模型摸透了。今天這篇文章,我會(huì)用最接地氣的方式,帶你徹底
    的頭像 發(fā)表于 02-06 10:15 ?420次閱讀

    CPU散熱器粘接用導(dǎo)熱膠怎么選?性能與應(yīng)用全解析 |鉻銳特實(shí)業(yè)

    鉻銳特實(shí)業(yè)|東莞導(dǎo)熱膠廠家|導(dǎo)熱膠怎么選才能讓CPU散熱器既粘得牢又散熱快?本文對(duì)比導(dǎo)熱系數(shù)、粘接強(qiáng)度、電氣絕緣等關(guān)鍵指標(biāo),結(jié)合實(shí)際場(chǎng)景給出筆記本、GPU、服務(wù)器等推薦選型,
    的頭像 發(fā)表于 02-06 01:08 ?188次閱讀
    <b class='flag-5'>CPU</b>散熱器粘接用導(dǎo)熱膠怎么選?性能與應(yīng)用全解析 |鉻銳特實(shí)業(yè)

    什么是TPU?萬(wàn)協(xié)通帶你看懂AI算力的“變形金剛”

    當(dāng)我們?cè)诟袊@ChatGPT的妙語(yǔ)連珠時(shí),你是否好奇過(guò):究竟是什么樣的“心臟”,在支撐這些超級(jí)AI沒(méi)日沒(méi)夜地思考?答案不是你熟悉的CPU,也不僅僅是顯卡GPU,而是位更專注、更硬核的“特種兵
    的頭像 發(fā)表于 01-13 13:22 ?255次閱讀
    什么是<b class='flag-5'>TPU</b>?萬(wàn)協(xié)通帶你看懂AI算力的“變形金剛”

    AI芯片大單!Anthropic從博通采購(gòu)100萬(wàn)顆TPU v7p芯片

    電子發(fā)燒友網(wǎng)報(bào)道(/李彎彎)近日消息,AI企業(yè)Anthropic將直接從博通采購(gòu)近100萬(wàn)顆TPU v7?pIronwood AI芯片,本地部署在其控制的數(shù)據(jù)中心中。也就是說(shuō),博通將直接向
    的頭像 發(fā)表于 01-06 08:38 ?6162次閱讀

    AI硬件全景解析:CPUGPU、NPU、TPU的差異化之路,看懂!?

    CPU作為“通用基石”,支撐所有設(shè)備的基礎(chǔ)運(yùn)行;GPU憑借并行算力,成為AI訓(xùn)練與圖形處理的“主力”;TPU在Google生態(tài)中深耕云端大模型訓(xùn)練;NPU則讓AI從“云端”走向“身邊”(手機(jī)、手表
    的頭像 發(fā)表于 12-17 17:13 ?1734次閱讀
    AI硬件全景解析:<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>、NPU、<b class='flag-5'>TPU</b>的差異化之路,<b class='flag-5'>一</b><b class='flag-5'>文</b>看懂!?

    CPUGPU,渲染技術(shù)如何重塑游戲、影視與設(shè)計(jì)?

    渲染技術(shù)是計(jì)算機(jī)圖形學(xué)的核心內(nèi)容之,它是將三維場(chǎng)景轉(zhuǎn)換為二維圖像的過(guò)程。渲染技術(shù)直在不斷演進(jìn),從最初的CPU渲染到后來(lái)的GPU渲染,性能和質(zhì)量都有了顯著提升。從
    的頭像 發(fā)表于 09-01 12:16 ?980次閱讀
    從 <b class='flag-5'>CPU</b> 到 <b class='flag-5'>GPU</b>,渲染技術(shù)如何重塑游戲、影視與設(shè)計(jì)?

    【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】1、開(kāi)箱初體驗(yàn)(刷系統(tǒng)+靜態(tài)IP設(shè)置+GPU跑分測(cè)評(píng))

    GPU跑分 首先用clinfo命令查看GPU,當(dāng)然也可以在debain-system setting-about界面看到BXE-4-32GPU benchmark軟件
    發(fā)表于 07-09 21:50

    智算加速卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉GPUTPU

    隨著AI技術(shù)火得塌糊涂,大家都在談"大模型"、"AI加速"、"智能計(jì)算",可真到了落地環(huán)節(jié),算力才是硬通貨。你有沒(méi)有發(fā)現(xiàn),現(xiàn)在越來(lái)越多的AI企業(yè)不光用GPU,也不怎么迷信TPU了?他們嘴里多了
    的頭像 發(fā)表于 06-05 13:39 ?1644次閱讀
    智算加速卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉<b class='flag-5'>GPU</b>和<b class='flag-5'>TPU</b>!

    升壓電路搞懂 升壓電路技術(shù)文檔合集

    升壓電路圖集合,升壓電路設(shè)計(jì)方案,電路設(shè)計(jì)技巧,升壓電路搞懂;給大家分享 升壓電路技術(shù)文檔合集
    的頭像 發(fā)表于 05-15 15:58 ?2.3w次閱讀
    升壓電路<b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>搞懂</b> 升壓電路技術(shù)文檔合集

    GPU服務(wù)器與CPU服務(wù)器的區(qū)別:就能給您說(shuō)透這兩者該怎么選!

    最近,小編這里收到很多企業(yè)客戶的提問(wèn):"我們的業(yè)務(wù)到底該選GPU服務(wù)器還是CPU服務(wù)器?" 作為深耕算力領(lǐng)域8年的工程師,今天小編用簡(jiǎn)單明了的內(nèi)容給您講透兩者的本質(zhì)區(qū)別,幫您避開(kāi)選型坑。
    的頭像 發(fā)表于 04-23 13:18 ?1811次閱讀
    <b class='flag-5'>GPU</b>服務(wù)器與<b class='flag-5'>CPU</b>服務(wù)器的區(qū)別:<b class='flag-5'>一</b><b class='flag-5'>文</b>就能給您說(shuō)透這兩者該怎么選!

    超越CPU/GPU:NPU如何讓AI“輕裝上陣”?

    電子發(fā)燒友網(wǎng)報(bào)道(/李彎彎)NPU是種專門(mén)為人工智能(AI)計(jì)算設(shè)計(jì)的處理器,主要用于高效執(zhí)行神經(jīng)網(wǎng)絡(luò)相關(guān)的運(yùn)算(如矩陣乘法、卷積、激活函數(shù)等)。相較于傳統(tǒng)CPU/GPU,NPU在
    的頭像 發(fā)表于 04-18 00:05 ?4000次閱讀

    Google推出第七代TPU芯片Ironwood

    在 Google Cloud Next 25 大會(huì)上,我們隆重推出第 7 代 Tensor Processing Unit (TPU) — Ironwood。這不僅是我們迄今為止性能最高、擴(kuò)展性最佳的定制 AI 加速器,更是第款專為推理而設(shè)計(jì)的
    的頭像 發(fā)表于 04-16 11:20 ?1772次閱讀
    Google推出第七代<b class='flag-5'>TPU</b>芯片Ironwood

    谷歌新TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    電子發(fā)燒友網(wǎng)報(bào)道( / 李彎彎)日前,谷歌在 Cloud Next 大會(huì)上,隆重推出了最新TPU AI 加速芯片 ——Ironwood。據(jù)悉,該芯片預(yù)計(jì)于今年晚些時(shí)候面向 Google
    的頭像 發(fā)表于 04-12 00:57 ?3713次閱讀

    無(wú)法在GPU上運(yùn)行ONNX模型的Benchmark_app怎么解決?

    CPUGPU 上運(yùn)行OpenVINO? 2023.0 Benchmark_app推斷的 ONNX 模型。 在 CPU 上推理成功,但在 GPU 上失敗。
    發(fā)表于 03-06 08:02