亚洲欧美成人久久综合中文网,久久久久久久久久久三级片,91精品人妻一区二区三区久久久

在人工智能的世界里，正在發(fā)生一場(chǎng)翻天覆地的變化，隨著 ChatGPT、Sora 的橫空出世，我們正在從深度學(xué)習(xí)時(shí)代轉(zhuǎn)向生成式人工智能時(shí)代，而在這場(chǎng)巨變中，芯片成為了科技巨頭們的必爭(zhēng)之地。

近日，硅谷一家初創(chuàng)企業(yè)以一款獨(dú)特的芯片產(chǎn)品攻占各大科技媒體板塊頭條。該公司正以一種與過(guò)往不同的方式推動(dòng)這場(chǎng)人工智能革命。該公司名為 Groq，是一家人工智能解決方案公司。

據(jù)多家外媒報(bào)道，Groq 剛剛推出了 alpha 預(yù)覽版的推理引擎，該引擎使用其定制的語(yǔ)言處理單元 (LPU) 芯片架構(gòu)。這款推理引擎主打一個(gè)“快”字，每秒能輸出 500 個(gè) token。相比之下，Chat GPT-3.5 每秒生成速度為 40 個(gè) token。

“Groq 那疾如閃電的演示開(kāi)始瘋傳，讓人們第一次意識(shí)到當(dāng)前版本的 ChatGPT、Gemini 甚至是 Grok 看起來(lái)是多么笨拙和遲緩。”有網(wǎng)友感嘆道。

“你必須嘗試的瘋狂技術(shù)！” HyperWrite AI CEO Matt Shumer 在 X 上極力稱(chēng)贊 Groq：“以 500 tok/s 的速度運(yùn)行 Mixtral 8x7B-32k，答案幾乎是即時(shí)的。開(kāi)辟新的用例，并徹底改變現(xiàn)有用例的用戶(hù)體驗(yàn)可能性。”

根據(jù) Shumer 發(fā)布在 X 上的演示，Groq 能夠瞬間給出包含數(shù)百個(gè)單詞的事實(shí)性答案，并提供邏輯鏈上的消息來(lái)源。

在另一段演示中，Groq 公司創(chuàng)始人兼 CEO Jonathon Ross 還邀請(qǐng) CNN 主持人以實(shí)時(shí)對(duì)話(huà)的方式，跟跨越半個(gè)地球的 AI 聊天機(jī)器人來(lái)了場(chǎng)電視直播交流。雖然之前的 ChatGPT、Gemini 等其他聊天機(jī)器人也都帶來(lái)令人印象深刻的表現(xiàn)，但 Groq 單憑速度一項(xiàng)就傾倒了眾生。正所謂“天下武功，唯快不破”，速度往往是決定技術(shù)成果能否實(shí)際應(yīng)用的關(guān)鍵。

在 Groq 的第一個(gè)公開(kāi)基準(zhǔn)測(cè)試中，Meta AI 的 Llama 2 70B 在 Groq LPU 推理引擎上運(yùn)行，其輸出令牌吞吐量快了 18 倍，優(yōu)于所有其他基于云的推理提供商。

此外，根據(jù) Artificial Analysis 上周公布的第三方測(cè)試結(jié)果，Groq 每秒能夠生成 247 個(gè) token，遠(yuǎn)遠(yuǎn)高于微軟的 18 個(gè) token。也就是說(shuō)如果將 ChatGPT 運(yùn)行在 Groq 芯片之上，其速度將可提高 13 倍有余。

成本推算屢受質(zhì)疑

在傳統(tǒng) CPU 和 GPU 領(lǐng)域，更快的推理速度往往意味著要付出更高的成本。但從成立之初，Groq 就在強(qiáng)調(diào)公司的使命是將計(jì)算成本降至零。

在面對(duì)成本問(wèn)題時(shí)，Ross 曾在兩年前接受《福布斯》采訪時(shí)表示：“Groq 決定做一些完全不同的事情，進(jìn)行與傳統(tǒng)半導(dǎo)體行業(yè)智慧相反的創(chuàng)新。我們的使命是將計(jì)算成本降至零。我知道每個(gè)人都討厭高昂的計(jì)算成本。但是，如果你回顧一下計(jì)算的歷史就會(huì)發(fā)現(xiàn)計(jì)算成本避無(wú)可避。因此，當(dāng)我們說(shuō)‘將計(jì)算成本降至零’時(shí)，我們?nèi)匀灰跃哂懈?jìng)爭(zhēng)力的行業(yè)價(jià)格點(diǎn)來(lái)銷(xiāo)售我們的解決方案。也就是說(shuō)，當(dāng)我們提供數(shù)量級(jí)的性能改進(jìn)（200 倍、600 倍、1000 倍）時(shí)，我們每美元所提供的性能是 200、600、1000 倍。所以，它正在接近免費(fèi)。”

Groq 在官網(wǎng)上稱(chēng)“保證擊敗同等上市模型的已發(fā)布提供商所發(fā)布的每百萬(wàn) token 的價(jià)格。”

但一些業(yè)內(nèi)人士以及開(kāi)發(fā)者群體對(duì)于 Groq 卡的高昂價(jià)格和 CEO 主張的的“價(jià)格正在接近免費(fèi)”的說(shuō)辭提出了質(zhì)疑。原 Facebook 人工智能科學(xué)家、原阿里巴巴技術(shù)副總裁賈揚(yáng)清就給 Grop 算了一筆賬，Groq 的成本到底如何，且看大佬的分析。

（圖片來(lái)自網(wǎng)絡(luò)）

此外，也有 Groq 前員工在 Hacker News 上表示 Groq 理論上的推理成本是不切合實(shí)際的。

Groq 曾在發(fā)文中指出，他們使用了 576 個(gè)芯片來(lái)實(shí)現(xiàn)以 500 T/s 的速度運(yùn)行 Mixtral 8x7B-32k 這樣的結(jié)果。但不得不注意的是，每個(gè)單獨(dú)的用戶(hù)都需要一個(gè)單獨(dú)的 KV 緩存，每個(gè)用戶(hù)將增加更多千兆字節(jié)。

我曾在 Groq 工作兩年，我預(yù)計(jì)他們實(shí)現(xiàn)這些性能數(shù)字的總費(fèi)用將超過(guò)數(shù)百萬(wàn)美元，他們發(fā)布的理論價(jià)格應(yīng)該比實(shí)際使用價(jià)格更低，因此這個(gè)結(jié)果是不切實(shí)際的。從每美元實(shí)際性能的角度來(lái)看，它們似乎不可行，但如果你將成本問(wèn)題拋到九霄云外，那么它們確實(shí)挺酷的。

Groq 背后的秘密：架構(gòu)和編譯器

那么，Groq 又是如何做到如此之快呢？據(jù)悉，Groq 能做到如此之快背后的秘訣是架構(gòu)和編譯器的創(chuàng)新。

從零開(kāi)始設(shè)計(jì)芯片架構(gòu)

在一次公開(kāi)技術(shù)分享中，Groq CEO Ross 透露， Groq 芯片的架構(gòu)從頭開(kāi)始設(shè)計(jì)的，其中包含數(shù)千個(gè)并行處理推理查詢(xún)的多線(xiàn)程處理器。每個(gè)芯片周?chē)加幸粋€(gè)獨(dú)特的、確定性的數(shù)據(jù)流架構(gòu)，可最大限度地提高吞吐量，同時(shí)最大限度地減少延遲和功耗。

Groq 的 TSP 處理器繞過(guò)了造成時(shí)序不可預(yù)測(cè)性的緩存和控制邏輯。相反，結(jié)果按照軟件定義的序列直接從一個(gè)執(zhí)行單元流向下一個(gè)執(zhí)行單元，從輸入到輸出僅花費(fèi)幾微秒。

對(duì)于大規(guī)模部署，GroqNode 服務(wù)器提供機(jī)架就緒的可擴(kuò)展計(jì)算系統(tǒng)。GroqNode 是八個(gè) GroqCard 加速器組，在 4U 服務(wù)器機(jī)箱中具有集成芯片到芯片連接以及雙服務(wù)器級(jí) CPU 和高達(dá) 1 TB 的 DRAM。GroqNode 旨在實(shí)現(xiàn)大型深度學(xué)習(xí)模型的高性能和低延遲部署。

最后，對(duì)于數(shù)據(jù)中心部署，GroqRacks 提供了可擴(kuò)展的加速器網(wǎng)絡(luò)。GroqRack 結(jié)合了 8 個(gè) GroqNode 集的功能，具有多達(dá) 64 個(gè)互連芯片。其結(jié)果是一個(gè)確定性網(wǎng)絡(luò)，單個(gè)機(jī)架的端到端延遲僅為 1.6 微秒，非常適合海量工作負(fù)載，并且旨在擴(kuò)展到整個(gè)數(shù)據(jù)中心。

在面對(duì)面的基準(zhǔn)測(cè)試中，與基于 GPU 的大型語(yǔ)言模型推理系統(tǒng)相比，Groq 系統(tǒng)的延遲時(shí)間提高了 100 倍，而成本僅為 1/5。當(dāng) GPU 性能受到批處理要求和內(nèi)存層次結(jié)構(gòu)的影響時(shí)，Groq 的架構(gòu)是從頭開(kāi)始構(gòu)建的，以最大限度地減少單個(gè)查詢(xún)的延遲。

通過(guò)消除昂貴的數(shù)據(jù)移動(dòng)，GroqChips 僅消耗幾瓦的功率，而不是像 GPU 那樣消耗數(shù)百瓦的功率。這使得能源效率提高了 10 倍，這對(duì)于控制爆炸式增長(zhǎng)的 AI 計(jì)算成本至關(guān)重要。

值得注意的是，Groq 自稱(chēng)“第一個(gè)語(yǔ)言處理單元 (LPU) 的創(chuàng)建者”。它的核心壁壘在于其獨(dú)特的 LPU 推理引擎，LPU 代表語(yǔ)言處理單元，這是一種新型的端到端處理單元系統(tǒng)，可為具有順序組件的計(jì)算密集型應(yīng)用程序提供最快的推理，例如人工智能大語(yǔ)言模型。

Groq 一直在強(qiáng)調(diào)，LPU 解決了大語(yǔ)言模型的兩個(gè)瓶頸：計(jì)算密度和內(nèi)存帶寬。就大語(yǔ)言模型而言，LPU 比 GPU 和 CPU 具有更大的計(jì)算能力。這減少了每個(gè)單詞的計(jì)算時(shí)間，從而可以更快地生成文本序列。此外，消除外部?jī)?nèi)存瓶頸使 LPU 推理引擎能夠在大語(yǔ)言模型上提供比 GPU 好幾個(gè)數(shù)量級(jí)的性能。

根據(jù)推特上與 Groq 關(guān)系密切的投資人 k_zeroS 分享，LPU 的工作原理與 GPU 截然不同。它采用了時(shí)序指令集計(jì)算機(jī)（Temporal Instruction Set Computer）架構(gòu)，這意味著它無(wú)需像使用高帶寬存儲(chǔ)器（HBM）的 GPU 那樣頻繁地從內(nèi)存中加載數(shù)據(jù)。這一特點(diǎn)不僅有助于避免 HBM 短缺的問(wèn)題，還能有效降低成本。

與傳統(tǒng) GPU、GPU、TPU 相比，Groq 的 LPU 也有其自身優(yōu)勢(shì)。

一直以來(lái)，使用現(xiàn)有架構(gòu)并連接許多 CPU 解決了訓(xùn)練挑戰(zhàn)。人工智能推理要困難得多，因?yàn)樗菍?shí)時(shí)的、對(duì)延遲敏感的，并且需要高性能和高效率。

隨著時(shí)間的推移，CPU 變得越來(lái)越大、越來(lái)越復(fù)雜，具有多個(gè)內(nèi)核、多個(gè)線(xiàn)程、片上網(wǎng)絡(luò)和控制電路。負(fù)責(zé)加速軟件性能和輸出的開(kāi)發(fā)人員必須處理復(fù)雜的編程模型、安全問(wèn)題以及由于處理抽象層而導(dǎo)致編譯器控制可見(jiàn)性的喪失。簡(jiǎn)而言之，標(biāo)準(zhǔn)計(jì)算架構(gòu)具有不提供推理性能優(yōu)勢(shì)的硬件功能和元素。

GPU 架構(gòu)專(zhuān)為 DRAM 帶寬而設(shè)計(jì)，并構(gòu)建在多數(shù)據(jù)或多任務(wù)固定結(jié)構(gòu)處理引擎上。GPU 執(zhí)行大規(guī)模并行處理任務(wù)，但存在內(nèi)存訪問(wèn)延遲，而 ML 已經(jīng)突破了外部?jī)?nèi)存帶寬的限制。

不同于英偉達(dá) GPU 需要依賴(lài)高速數(shù)據(jù)傳輸，Groq 的 LPU 在其系統(tǒng)中沒(méi)有采用高帶寬存儲(chǔ)器（HBM）。它使用的是 SRAM，其速度比 GPU 所用的存儲(chǔ)器快約 20 倍。

鑒于 AI 的推理計(jì)算相較于模型訓(xùn)練需要的數(shù)據(jù)量遠(yuǎn)小，Groq 的 LPU 因此更節(jié)能。在執(zhí)行推理任務(wù)時(shí)，它從外部?jī)?nèi)存讀取的數(shù)據(jù)更少，消耗的電量也低于英偉達(dá)的 GPU。

如果在 AI 處理場(chǎng)景中采用 Groq 的 LPU，可能就無(wú)需為英偉達(dá) GPU 配置特殊的存儲(chǔ)解決方案。LPU 并不像 GPU 那樣對(duì)存儲(chǔ)速度有極高要求。Groq 公司宣稱(chēng)，其技術(shù)能夠通過(guò)其強(qiáng)大的芯片和軟件，在 AI 任務(wù)中取代 GPU 的角色。

編譯器是重要基石

在編譯器部分，Groq 也做了大量創(chuàng)新。Jonathan Ross 堅(jiān)持將編譯器作為公司技術(shù)能力的基石，因此設(shè)計(jì)團(tuán)隊(duì)在做芯片的前六個(gè)月的時(shí)間里專(zhuān)注于設(shè)計(jì)和構(gòu)建編譯器。只有在團(tuán)隊(duì)對(duì)編譯器感到滿(mǎn)意后，才開(kāi)始研究芯片架構(gòu)。

與傳統(tǒng)編譯器不同，Groq 不依賴(lài)內(nèi)核或手動(dòng)干預(yù)。通過(guò)編譯器和硬件的軟件優(yōu)先協(xié)同設(shè)計(jì)方法，Groq 構(gòu)建了編譯器，自動(dòng)將模型直接映射到底層架構(gòu)。自動(dòng)編譯過(guò)程允許編譯器優(yōu)化硬件上的模型執(zhí)行，而無(wú)需手動(dòng)開(kāi)發(fā)或調(diào)整內(nèi)核。

該編譯器還可以輕松添加資源和擴(kuò)展。到目前為止，Groq 已經(jīng)使用剛剛描述的自動(dòng)化流程編譯了 500 多個(gè)用于實(shí)驗(yàn)?zāi)康牡?AI 模型。

當(dāng) Groq 將客戶(hù)的工作負(fù)載從 GPU 移植到 Groq LPU 時(shí)，第一步是刪除針對(duì) GPU 的不可移植的供應(yīng)商特定內(nèi)核，然后刪除任何手動(dòng)并行或內(nèi)存語(yǔ)義。當(dāng)所有非必要的內(nèi)容都被剝離后，剩下的代碼會(huì)變得更加簡(jiǎn)單和優(yōu)雅。

目前，在 Groq 網(wǎng)站上，用戶(hù)可以隨意測(cè)試不同的聊天機(jī)器人，并查看它們?cè)?Groq LPU 上的運(yùn)行速度。感興趣的朋友可以點(diǎn)擊嘗試：https://groq.com/

Groq 為何備受關(guān)注？

Groq/Grok 這個(gè)詞來(lái)自 Robert Heinlein 于 1961 年創(chuàng)作的科幻小說(shuō)《異鄉(xiāng)異客》（Stranger in a Strange Land），本身的意思是“深刻而直觀地理解”。也許正是為了達(dá)成這樣的效果，眾多 AI 廠商才爭(zhēng)相用它來(lái)形容自己的 AI 產(chǎn)品。

那么，Groq 為何能在短期內(nèi)獲得如此大的關(guān)注？

有分析認(rèn)為，之所以備受關(guān)注，原因主要有三點(diǎn)：其一，是 Groq 在架構(gòu)和編譯器上的創(chuàng)新（上文已經(jīng)詳解，不再贅述）；其二，是谷歌芯片大佬光環(huán)加持；其三，是 Groq LPU 的出現(xiàn)有望使客戶(hù)擺脫硬件的鎖定。

2016 年底，Jonathon Ross 從谷歌離職創(chuàng)辦了 Groq，希望能為 AI 和 HPC 工作負(fù)載提供毫不妥協(xié)的低延遲和高性能。Ross 此前發(fā)明了驅(qū)動(dòng)谷歌機(jī)器學(xué)習(xí)（ML）軟件的張量處理單元（TPU），這兩項(xiàng)技術(shù)為當(dāng)時(shí)紅極一時(shí)的 AlphaGo 提供了重要的技術(shù)支撐。當(dāng)時(shí)，谷歌的這支工程團(tuán)隊(duì)在大約 14 個(gè)月內(nèi)就完成了第一代 TPU，因此被外界認(rèn)為是一支技術(shù)實(shí)力超群的技術(shù)團(tuán)隊(duì)。

就在那一年，這支技術(shù)實(shí)力超強(qiáng)的谷歌 TPU 團(tuán)隊(duì)中的前 10 名成員中有 8 名成員跟隨 Ross 離開(kāi)了谷歌。

2017 年，這家初創(chuàng)公司從風(fēng)險(xiǎn)投資家 Chamath Palihapitiya 那里獲得了 1030 萬(wàn)美元的資金，公司最近還聘請(qǐng)了 Xilinx 銷(xiāo)售副總裁 Krishna Rangasayee 擔(dān)任首席運(yùn)營(yíng)官。

這個(gè)神秘的團(tuán)隊(duì)在成立后的三年時(shí)間里幾乎從社交媒體中“隱身”，沒(méi)有過(guò)多關(guān)于公司的消息爆出。直到 2019 年 10 月，Groq 發(fā)布了一篇名為《世界，認(rèn)識(shí) Groq》的博客，向世界宣告了自己的存在。

此后的時(shí)間里，Groq 打造出了名為語(yǔ)言處理單元（LPU）的 AI 芯片，并向外界放出消息稱(chēng)其速度已經(jīng)超越了英偉達(dá)的圖形處理單元（GPU）。換句話(huà)說(shuō)，從早期結(jié)果來(lái)看，LPU 的確有希望擊敗已經(jīng)在 AI 模型領(lǐng)域成為行業(yè)標(biāo)準(zhǔn)的英偉達(dá) GPU。

迄今為止，Groq 已從頂級(jí)風(fēng)險(xiǎn)投資公司獲得了約 3.62 億美元的資金。

據(jù) Ross 介紹，Groq 的軟件定義架構(gòu)提供了更大的靈活性，有望幫助客戶(hù)擺脫傳統(tǒng)硬件解決方案中將用戶(hù)鎖定在特定于供應(yīng)商的框架（例如 CUDA 和英偉達(dá)生態(tài)系統(tǒng)）中的處境。

正如 Ross 所描述的，“我們的編譯器會(huì)自動(dòng)執(zhí)行此操作。因此，您可以在其中放入一行 groq.it，然后將模型放在括號(hào)中，就這樣了。” 這種便攜式方法允許使用 PyTorch 等標(biāo)準(zhǔn)框架訓(xùn)練的模型無(wú)需修改即可在 Groq 系統(tǒng)上高效運(yùn)行。

通過(guò)避免專(zhuān)有接口，Groq 能夠與最新出現(xiàn)的機(jī)器學(xué)習(xí)創(chuàng)新兼容，而不需要模型轉(zhuǎn)換。因此，Groq 的平臺(tái)設(shè)計(jì)旨在防止當(dāng)今困擾許多 GPU 部署的硬件鎖定問(wèn)題。對(duì)于平衡新興需求與遺留約束的開(kāi)發(fā)團(tuán)隊(duì)來(lái)說(shuō)，Groq 的靈活性提供了一條前進(jìn)的道路。

盡管 Groq 贏得了一波廣泛關(guān)注，但其 AI 芯片是否真能與英偉達(dá) GPU 或者谷歌 TPU 在計(jì)算性能和可擴(kuò)展性上正面對(duì)抗仍然有待觀察。

英偉達(dá)的霸主地位，短期內(nèi)誰(shuí)都撼動(dòng)不了

在近期 Groq 攻占各大科技媒體頭條板塊之時(shí)，老牌 AI 芯片霸主英偉達(dá)剛剛公布了去年第四季度財(cái)報(bào)。

據(jù)英偉達(dá)最新財(cái)報(bào)顯示，截至 2024 年 1 月 28 日，2024 財(cái)年第四季度收入達(dá)到 221 億美元，環(huán)比增長(zhǎng) 22%，同比增長(zhǎng) 265%，凈利潤(rùn)為 122.85 億美元，同比增長(zhǎng) 769%。值得一提的是，英偉達(dá)單季度收入甚至已高于 2021 年全年。這一增長(zhǎng)主要得益于人工智能技術(shù)的快速發(fā)展，特別是在加速計(jì)算和生成式 AI 領(lǐng)域。

受此影響，該公司股價(jià)在美股盤(pán)后一度大漲 10%。英偉達(dá) CEO 黃仁勛表示，加速計(jì)算和生成式人工智能已經(jīng)達(dá)到了引爆點(diǎn)，全球各個(gè)公司、行業(yè)和國(guó)家的需求都在飆升。

多年來(lái)，通過(guò)巧妙的收購(gòu)、內(nèi)部硬件 / 軟件開(kāi)發(fā)和戰(zhàn)略聯(lián)盟，以及利用 ChatGPT 發(fā)布所引發(fā)的生成式 AI 熱潮，英偉達(dá)以壓倒性?xún)?yōu)勢(shì)牢牢占領(lǐng)了芯片霸主地位。無(wú)論是全行業(yè)的芯片短缺，還是其擬斥資 400 億美元收購(gòu)芯片競(jìng)爭(zhēng)對(duì)手 Arm 的失敗，都沒(méi)有對(duì)英偉達(dá)的驚人增長(zhǎng)產(chǎn)生任何明顯影響。

“一個(gè)新的計(jì)算時(shí)代已經(jīng)開(kāi)始。世界各地的公司正在從通用計(jì)算向加速計(jì)算和生成式人工智能轉(zhuǎn)型。”英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛在公司財(cái)報(bào)中表示。

每家芯片公司都把英偉達(dá)列為了一個(gè)巨大的目標(biāo)，如今，Groq 似乎距離趕超英偉達(dá)這一目標(biāo)更近了些。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴