Siri和OK Google是最早實現(xiàn)語音控制的應用程序,這著實為我們帶來了很多樂趣;但很快我們便意識到,必須仔細說出請求才能獲得實用回答。
就現(xiàn)在所見,ChatGPT理解程度高,使用起來更容易,但直到最近,其功能還僅限于通過基于云的應用程序進行文本互動。現(xiàn)如今,ChatGPT是大勢所趨,手機幾乎人人必備,促使著針對ChatGPT(手機版)的transformer網(wǎng)絡盡快推出,讓每個擁有手機的人都能感受到大語言模型的威力。
在此方面面臨的一個明顯挑戰(zhàn)是,我們所知的 ChatGPT依賴于數(shù)萬億個參數(shù)。而這種規(guī)模的transformer網(wǎng)絡只能在云端運行。有人建議采用混合模式,即先由手機或其他應用程序負責完成部分簡單工作,再連接到云端進行更為繁重的推理。然而,普通手機用戶可能無法接受混合解決方案與生俱來的長時間延遲和隱私風險問題。因此,更好的方法是,直接在手機上處理大部分或全部transformer網(wǎng)絡工作,只在需要時將偶爾出現(xiàn)的匿名搜索請求轉至云端處理。
縮減網(wǎng)絡大小
如何在手持設備上安裝龐大的transformer網(wǎng)絡?Google DeepMind在檢索transformer方面取得了重大突破。其RETRO transformer網(wǎng)絡運行時的大小只有 LLM transformer的百分之幾,因為前者的模型參數(shù)中不包含具體數(shù)據(jù)。只保留了基本的語言對話技能,但在理解水平上仍可與GPT3相媲美。如此將網(wǎng)絡大小縮減到了約80億個參數(shù)。
CEVA在預處理時進一步縮減此網(wǎng)絡大小,將對感興趣領域提示的準確度幾乎沒有影響的參數(shù)歸零,進行再訓練。仔細利用這一功能可以大大加快transformer網(wǎng)絡分析的速度。
準備邊緣模型的第二步是壓縮,CEVA對此非常熟悉,并在支持檢索transformer方面做得更好。我們充分利用NeuPro-M架構進行再訓練,大力推進此步驟,促使廣泛的混合定點精度和低精度選項降到4位,未來甚至還能降到2位。
通過使用這些技術,我們可以將現(xiàn)有檢索transformer壓縮至最低1/20(較現(xiàn)在而言),盡管其相較LLM而言已經(jīng)壓縮了很多。將這種壓縮剪枝應用于RETRO模型縮減后,可以產(chǎn)生巨大縮減,將萬億參數(shù)模型轉換為十億參數(shù)模型,進而有望實現(xiàn)ChatGPT(移動版)。
NeuPro-M AI核心
當然,僅僅適合的transformer網(wǎng)絡是不夠的。它還需要運行得足夠快,才能滿足用戶對響應時間的期望。而這一點可以通過專為LLM應用程序優(yōu)化的NeuPro-M NPU IP多引擎架構實現(xiàn)。在此流程中,首先要做到的是由真正的稀疏引擎來進行管理,且這一步舉足輕重。稀疏引擎管理可跳過權重或數(shù)據(jù)為零的冗余操作,提高吞吐量,這是需要注意的一點。而在預處理時縮減之后,會出現(xiàn)大量歸零參數(shù),盡管這些參數(shù)分布不均勻。對于這種非結構化稀疏引擎,每個NeuPro-M處理器內核中的專用稀疏引擎可發(fā)揮4倍性能優(yōu)勢(與傳統(tǒng)稀疏引擎相比),并相應地降低功耗。
鑒于transformer架構可以分解為可并行實現(xiàn)的離散正交運算,下一優(yōu)化應運而生。此時,可以利用 NeuPro-M多核架構支持多達8個內核。transformer中 query、key和value三個向量的計算會在引擎中分批進行,在共享公共二級緩存的多個內核并行處理。并行處理不僅有利于attention步驟,還有利于softmax步驟,以及計算attention函數(shù)之后的歸一化函數(shù)。在傳統(tǒng)的人工智能系統(tǒng)中,softmax可能是遏制性能提升的重大瓶頸。在NeuPro-M中,attention和softmax可以并行實現(xiàn),因此softmax對于吞吐時間的增加幾乎可以忽略不計。NeuPro-M在transformer計算中實現(xiàn)大規(guī)模并行處理如下圖所示。


▲transformer計算中的可擴展并行化
NeuPro-M架構包括特殊支持,最大限度地提高芯片吞吐量,線程之間幾乎沒有停滯,進一步簡化這些流中的高度并行性以及線程之間的數(shù)據(jù)共享。
為ChatGPT(移動版)構建語音界面
完成最難的部分后,在前端添加語音識別和在后端添加文本轉語音,便可以通過額外相對簡單的transformer網(wǎng)絡實現(xiàn)。將我們的ClearVox語音處理前端軟件連接到語音識別transformer,以輸入提示,并接受引導,確定主transformer應執(zhí)行哪一組精煉提示。必要時,可從互聯(lián)網(wǎng)上檢索查詢相關文檔。最后,使用文本轉語音transformer對下載的回復或文件進行語音處理。現(xiàn)在來說,完全在手機上運行,且具有完全基于語音的 ChatGPT功能界面便是ChatGPT(移動版)的不同之處。
更廣泛的應用
NeuPro-M平臺并不局限于ChatGPT(移動版)這樣的GPT類應用。它可以同樣應用于任何生成式方法。例如,您可以使用穩(wěn)定的擴散transformer生成圖像、視頻或任何其他人工生成或修改的體驗。NeuPro-M解決方案在transformer網(wǎng)絡建模方面非常通用。
審核編輯:彭菁
-
網(wǎng)絡
+關注
關注
14文章
8265瀏覽量
94757 -
手持設備
+關注
關注
0文章
57瀏覽量
24732 -
應用程序
+關注
關注
38文章
3344瀏覽量
60257 -
Transformer
+關注
關注
0文章
156瀏覽量
6937
原文標題:針對ChatGPT(手機版)的優(yōu)化版Transformer網(wǎng)絡
文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
如何在 Vision Five 2 上安裝 python 庫?
如何在2026年Rocky Linux(8、9和10)上安裝Docker
手持移動終端的常見設備,智能移動終端設備的機型有哪些?
Transformer如何讓自動駕駛變得更聰明?
如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務
RFID手持掃描設備是什么 RFID手持掃描設備有什么作用
什么是RFID手持終端設備?
【經(jīng)驗分享】在Omni3576上編譯Redis-8.0.2源碼,并安裝及性能測試
如何在Android設備上安裝Cyusb3014芯片驅動?
如何在Ubuntu上安裝NVIDIA顯卡驅動?
如何在 Raspberry Pi 5 上設置 Raspberry Pi AI Kit
告別復雜的終極指南:如何在樹莓派上安裝 Manjaro:2024
人臉識別指南:如何在樹莓派上安裝和設置 Dlib
頂堅手持終端賦能鐵路巡檢,打造智慧鐵路網(wǎng)絡
如何在手持設備上安裝龐大的transformer網(wǎng)絡
評論