電子發燒友網報道(文/周凱揚)ChatGPT的出現,對于數據中心硬件市場無疑是一針強心劑,不少GPU廠商更是從中受益,從再度興起的聊天機器人潮流中收獲了更多訂單。那么對于ChatGPT這類對AI算力有著不小需求的應用來說,ASIC和FPGA是否也能借上這股東風呢?
不同硬件的成本對比
在機器學習推理場景中,除了GPU外,還有一大通用AI硬件適合這一負載,那就是FPGA。與GPU一樣,在技術和算法還未成熟且仍在打磨階段時,可以隨時重新編程改變芯片功能的FPGA架構前期硬件成本顯著低于GPU。在推理性能上,現如今的FPGA加速卡算力遠超CPU,甚至高過不少GPU產品。
而且在ChatGPT這樣的聊天機器人應用上,將FPGA用于推理得以發揮其最大的優勢,那就是高吞吐量和低時延。更高的吞吐量和更低的時延也就意味著更大的并發,對ChatGPT這種應用來說可以極大增強其響應速度。 但隨著算法和模型逐漸成熟,FPGA在成本上的優勢就慢慢不存在了,在大語言模型上需要用到更多的硬件,而FPGA量產規模的單價成本還是太高了,一旦擴充至成千上萬張加速卡,其成本也是不小的。比如AMD推出的新加速卡Alveo V70,據傳單卡價格就在2000美元左右。如果我們以INT8精度來衡量算力的話,假設ChatGPT需要28936塊A100 GPU,那么改用Alveo V70的話,也需要44693塊加速卡。
所以還是有不少人將目光投向了量產規模成本更低的ASIC,比如谷歌就選擇用自研的TPU來部署其聊天機器人Bard。ASIC方案在單芯片算力上或許不是最高的,但計算效率卻是最高的,而且隨著量產化單片成本會逐漸降低。比如谷歌的單個TPU v4 Pod就集成了4096個TPU v4芯片,單芯片的BF16算力達到275TFLOPS,已經相當接近A100單卡峰值算力了。如果只是這樣簡單換算的話,只需幾個TPU v4 Pod,就能滿足與ChatGPT同量級的應用了。
不過ASIC方案并沒有我們想象得那么美好,首先這類硬件的前期設計成本較大,要想投入數據中心商用,必須組建強大的硬件設計和軟件開發團隊,這樣才能有與GPU相抗衡的性能。其次,因為本身專用硬件的特性,專用于機器學習推理的ASIC方案很難最大化數據中心的硬件利用率,不像GPU還可以同時用于訓練、視頻編解碼等等。
搭建屬于自己的ChatGPT的成本有多高
對于GPT-3這樣的大型模型來說,要想個人搭建和部署從成本上看肯定不是實惠的選擇,所以我們可以選擇其他的模型,比如Meta推出的1750億參數OPT-175B模型。加州大學伯克利分校的Sky Lab就借助該模型推出了一個開源系統Alpa,同時具備聊天機器人、翻譯、代碼編寫和數學計算的功能。
要想部署OPT-175B模型并搭建Alpa這樣的文字聊天應用,對GPU的要求要遠遠小于ChatGPT。但這是建立在其本身響應速度和功能特性就顯著弱于ChatGPT的情況下,比如一旦設定的回答長度過長,就需要等上數十秒,何況它列出的GPU需求也不算小。
根據Alpa的官方說明,雖然不需要用到最新一代的A100 80GB這樣價格高昂的GPU或是InfiniBand這樣先進的互聯方案,但對顯存的最低要求也已經達到了350GB。所以Alpa給的建議是使用32個英偉達Tesla V100 GPU,從而提供512GB的顯存,這樣硬件造價在50萬到150萬之間。

Tesla V100 GPU / 英偉達
如果你只是想開展聊天機器人的服務,而不是自己買硬件的話,也可以選擇各大公有云服務廠商的方案,比如亞馬遜AWS的EC2 P3系列,就是專為機器學習和HPC準備的實例。每個EC2 P3.16xlarge實例上有8塊Tesla V100 GPU,所以至少租賃4個實例就能運行Alpa了。
不過這樣一來服務器的費用也并不算便宜,單個實例按需付費每小時的花費在24.48美元左右,也就是說如果要全天運行的話,運行Alpa的成本為2400美元一天。哪怕云服務廠商通常都會給到長期承諾使用的折扣,這也是一筆不小的支出。
谷歌推出的Cloud TPU方案也是如此,如果真的打算以租賃服務器的方式來打造ChatGPT,那么谷歌目前給出的按需定價是每芯片小時價格3.22美元。要想部署數萬規模的TPU v4芯片媲美ChatGPT,那么一定逃不掉超高的費用。
結語
不久前我們已經提到了ChatGPT的加入或許會給微軟的現有產品帶來定價的提升,如今這個猜測也已經成真。微軟近日宣布,從今年5月1日開始,微軟Bing搜索API的定價將會直線飆升,其中超大并發(每秒250次處理)的S1實例定價從每千次處理7美元提升至25美元,而額外的Bing統計更是從每千次處理1美元的價格拔高至10美元。如此看來,可見大語言模型的推理成本有多高可見一斑了,哪怕是微軟也經不起這樣燒錢。
所以對于ChatGPT這種應用,其運營者不同,對待硬件成本的看法也會不同,比如微軟、谷歌之類已經擁有大規模服務器硬件的廠商,必然會利用現有GPU資源的同時,考慮如何用定制化的ASIC進一步節省成本。而體量較小的運營者,例如聊天機器人應用開發商、研究機構等,還是會選擇租賃服務器或小規模本地部署,其首選硬件也會是GPU。
再說回FPGA,雖然從目前數據中心的市場現狀來看,FPGA的AI推理加速卡仍處于一個弱勢的位置。但隨著AMD開始推出Alveo V70這樣全新XDNA架構的方案,或許能給未來需要更大吞吐量的模型提供新的出路,尤其是視頻分析推理應用。
不同硬件的成本對比
在機器學習推理場景中,除了GPU外,還有一大通用AI硬件適合這一負載,那就是FPGA。與GPU一樣,在技術和算法還未成熟且仍在打磨階段時,可以隨時重新編程改變芯片功能的FPGA架構前期硬件成本顯著低于GPU。在推理性能上,現如今的FPGA加速卡算力遠超CPU,甚至高過不少GPU產品。
而且在ChatGPT這樣的聊天機器人應用上,將FPGA用于推理得以發揮其最大的優勢,那就是高吞吐量和低時延。更高的吞吐量和更低的時延也就意味著更大的并發,對ChatGPT這種應用來說可以極大增強其響應速度。 但隨著算法和模型逐漸成熟,FPGA在成本上的優勢就慢慢不存在了,在大語言模型上需要用到更多的硬件,而FPGA量產規模的單價成本還是太高了,一旦擴充至成千上萬張加速卡,其成本也是不小的。比如AMD推出的新加速卡Alveo V70,據傳單卡價格就在2000美元左右。如果我們以INT8精度來衡量算力的話,假設ChatGPT需要28936塊A100 GPU,那么改用Alveo V70的話,也需要44693塊加速卡。
所以還是有不少人將目光投向了量產規模成本更低的ASIC,比如谷歌就選擇用自研的TPU來部署其聊天機器人Bard。ASIC方案在單芯片算力上或許不是最高的,但計算效率卻是最高的,而且隨著量產化單片成本會逐漸降低。比如谷歌的單個TPU v4 Pod就集成了4096個TPU v4芯片,單芯片的BF16算力達到275TFLOPS,已經相當接近A100單卡峰值算力了。如果只是這樣簡單換算的話,只需幾個TPU v4 Pod,就能滿足與ChatGPT同量級的應用了。
不過ASIC方案并沒有我們想象得那么美好,首先這類硬件的前期設計成本較大,要想投入數據中心商用,必須組建強大的硬件設計和軟件開發團隊,這樣才能有與GPU相抗衡的性能。其次,因為本身專用硬件的特性,專用于機器學習推理的ASIC方案很難最大化數據中心的硬件利用率,不像GPU還可以同時用于訓練、視頻編解碼等等。
搭建屬于自己的ChatGPT的成本有多高
對于GPT-3這樣的大型模型來說,要想個人搭建和部署從成本上看肯定不是實惠的選擇,所以我們可以選擇其他的模型,比如Meta推出的1750億參數OPT-175B模型。加州大學伯克利分校的Sky Lab就借助該模型推出了一個開源系統Alpa,同時具備聊天機器人、翻譯、代碼編寫和數學計算的功能。
要想部署OPT-175B模型并搭建Alpa這樣的文字聊天應用,對GPU的要求要遠遠小于ChatGPT。但這是建立在其本身響應速度和功能特性就顯著弱于ChatGPT的情況下,比如一旦設定的回答長度過長,就需要等上數十秒,何況它列出的GPU需求也不算小。
根據Alpa的官方說明,雖然不需要用到最新一代的A100 80GB這樣價格高昂的GPU或是InfiniBand這樣先進的互聯方案,但對顯存的最低要求也已經達到了350GB。所以Alpa給的建議是使用32個英偉達Tesla V100 GPU,從而提供512GB的顯存,這樣硬件造價在50萬到150萬之間。

Tesla V100 GPU / 英偉達
不過這樣一來服務器的費用也并不算便宜,單個實例按需付費每小時的花費在24.48美元左右,也就是說如果要全天運行的話,運行Alpa的成本為2400美元一天。哪怕云服務廠商通常都會給到長期承諾使用的折扣,這也是一筆不小的支出。
谷歌推出的Cloud TPU方案也是如此,如果真的打算以租賃服務器的方式來打造ChatGPT,那么谷歌目前給出的按需定價是每芯片小時價格3.22美元。要想部署數萬規模的TPU v4芯片媲美ChatGPT,那么一定逃不掉超高的費用。
結語
不久前我們已經提到了ChatGPT的加入或許會給微軟的現有產品帶來定價的提升,如今這個猜測也已經成真。微軟近日宣布,從今年5月1日開始,微軟Bing搜索API的定價將會直線飆升,其中超大并發(每秒250次處理)的S1實例定價從每千次處理7美元提升至25美元,而額外的Bing統計更是從每千次處理1美元的價格拔高至10美元。如此看來,可見大語言模型的推理成本有多高可見一斑了,哪怕是微軟也經不起這樣燒錢。
所以對于ChatGPT這種應用,其運營者不同,對待硬件成本的看法也會不同,比如微軟、谷歌之類已經擁有大規模服務器硬件的廠商,必然會利用現有GPU資源的同時,考慮如何用定制化的ASIC進一步節省成本。而體量較小的運營者,例如聊天機器人應用開發商、研究機構等,還是會選擇租賃服務器或小規模本地部署,其首選硬件也會是GPU。
再說回FPGA,雖然從目前數據中心的市場現狀來看,FPGA的AI推理加速卡仍處于一個弱勢的位置。但隨著AMD開始推出Alveo V70這樣全新XDNA架構的方案,或許能給未來需要更大吞吐量的模型提供新的出路,尤其是視頻分析推理應用。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
發布評論請先 登錄
相關推薦
熱點推薦
OpenAI甩出王炸:一個APP干翻整個辦公室,ASIC開始逆襲GPU?
電子發燒友網報道(文/李彎彎)北京時間7月18日凌晨,OpenAI通過一場精彩絕倫的技術直播盛宴,向全球用戶正式揭開了具有劃時代意義的AI智能體——ChatGPT Agent的神秘面紗。這款智能體
第三屆華南理工大學“紫光同創杯”FPGA大賽成功舉辦
1月24日,第三屆華南理工大學“紫光同創杯”FPGA大賽成功舉辦。本屆“紫光同創杯”由華南理工大學微電子學院和深圳市紫光同創電子股份有限公司聯合舉辦,旨在讓學生熟練使用國產FPGA開發
FPGA+GPU異構混合部署方案設計
為滿足對 “納秒級實時響應” 與 “復雜數據深度運算” 的雙重需求,“FPGA+GPU”異構混合部署方案通過硬件功能精準拆分與高速協同,突破單一硬件的性能瓶頸 ——FPGA聚焦低延遲實時交易鏈路,
WT588F02KD-32N二合一語音芯片:讓智能保溫杯開口說話,喝水從此充滿儀式感
一顆指甲蓋大小的芯片,正在重新定義我們與一杯水的互動方式。清晨,當你端起保溫杯,一聲溫柔的“早上好,水溫45℃,適宜飲用”打破了沉默;工作繁忙時,貼心的“主人,您已2小時未飲水,請及時
AI芯片市場鏖戰,GPU與ASIC誰將占據主動?
本文轉自:TechSugar隨著人工智能技術在大模型訓練、邊緣計算、自動駕駛等領域的深度滲透,核心算力硬件的競爭進入白熱化階段。圖形處理單元(GPU)與專用集成電路(ASIC)作為兩大主流技術路線
如何看懂GPU架構?一分鐘帶你了解GPU參數指標
GPU架構參數如CUDA核心數、顯存帶寬、TensorTFLOPS、互聯方式等,并非“冰冷的數字”,而是直接關系設備能否滿足需求、如何發揮最大價值、是否避免資源浪費等問題的核心要素。本篇文章將全面
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰
的工作嗎?
從書中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。
其他的還是知道的,FPGA屬于AI芯片這個真不知道,以為它是數字芯片的,不曉得屬于AI
發表于 09-12 16:07
AI芯片,需要ASIC
電子發燒友網報道(文/李彎彎) 2025年,全球AI芯片市場正迎來一場結構性變革。在英偉達GPU占據主導地位的大格局下,ASIC(專用集成電路)憑借針對AI任務的定制化設計,成為推動算力革命的新動力
一杯奶茶錢如何搞定大模型應用開發?
一個很明顯的事實是,AI的進步速度依然很快,而且超出了很多人的預期。 文字創作方面,Claude 3.7 Sonnet這樣的大模型已經能夠應付大多數場景下的寫作需求,不僅輸出質量穩定,文筆也十分簡潔
EZ-USB SX3 CYUSB3017-BZXI 能否與PolarFire MicrochipFPGA 在同一電氣設計中共存?
雖然 SX3 配置實用程序不支持給定的 FPGA,但EZ-USB SX3 CYUSB3017-BZXI 能否與PolarFire MicrochipFPGA 在同一電氣設計中共存?
發表于 05-23 07:10
一文看懂空心杯電機
空心杯電機是一種特殊結構的直流電機,其工作原理與普通電機有所不同。本文將詳細介紹空心杯電機的特點、工作原理、應用領域等。 空心杯電機通常由外部罩杯、定子線圈、轉子磁體、軸承等組件組成。
PCBA加工廠常見的體系認證
??隨著汽車行業的興盛,市面上越來越多的汽車流入,帶動了汽車電子的發展,很多PCBA加工廠都想分一杯羹。而汽車電子準入門檻較高,對工廠的技術和設備實力都有著嚴格的審核標準,IATF16949體系技術含金量較高,認證內容也較復雜。一般來說具備該體系認證的廠商都具備
ChatGPT炒熱GPU,ASIC和FPGA能否分一杯羹?

評論