国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于Arm Ethos-U85 NPU部署小語言模型

Arm社區(qū) ? 來源:Arm社區(qū) ? 2025-01-20 09:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著人工智能 (AI) 的演進,人們對使用小語言模型 (SLM) 在嵌入式設備上執(zhí)行 AI 工作負載的興趣愈發(fā)高漲。

以下的演示展現(xiàn)了端點 AI 在物聯(lián)網(wǎng)和邊緣計算領域的發(fā)展?jié)摿?。在此演示中,當用戶輸入一個句子后,系統(tǒng)將基于該句擴展生成一個兒童故事。這項演示受到了微軟“Tiny Stories”論文和 Andrej Karpathy 的 TinyLlama2 項目的啟發(fā),TinyLlama2 項目使用了 2,100 萬個故事來訓練小語言模型生成文本。

該演示搭載了 Arm Ethos-U85 NPU,并在嵌入式硬件上運行小語言模型。盡管大語言模型 (LLM) 更加廣為人知,但由于小語言模型能夠以更少的資源和較低的成本提供出色的性能,而且訓練起來也更為簡易且成本更低,因此越來越受到關注。

在嵌入式硬件上實現(xiàn)

基于 Transformer 的小語言模型

我們的演示展示了 Ethos-U85 作為一個小型低功耗平臺,具備運行生成式 AI 的能力,并凸顯了小語言模型在特定領域中的出色表現(xiàn)。TinyLlama2 模型相較 Meta 等公司的大模型更為簡化,很適合用于展示 Ethos-U85 的 AI 性能,可作為端點 AI 工作負載的理想之選。

為開發(fā)此演示,我們進行了大量建模工作,包括創(chuàng)建一個全整數(shù)的 INT8(和 INT8x16)TinyLlama2 模型,并將其轉換為適合 Ethos-U85 限制的固定形狀 TensorFlow Lite 格式。

我們的量化方法表明,全整數(shù)語言模型在取得高準確度和輸出質量之間實現(xiàn)了良好平衡。通過量化激活、歸一化函數(shù)和矩陣乘法,我們無需進行浮點運算。由于浮點運算在芯片面積和能耗方面成本較高,這對于資源受限的嵌入式設備來說是一個關鍵考量。

Ethos-U85 在 FPGA 平臺上以 32 MHz 的頻率運行語言模型,其文本生成速度可達到每秒 7.5 到 8 個詞元 (token),與人類的閱讀速度相當,同時僅消耗四分之一的計算資源。在實際應用的系統(tǒng)級芯片 (SoC) 上,該性能最多可提高十倍,從而顯著提升了邊緣側 AI 的處理速度和能效。

兒童故事生成特性采用了 Llama2 的開源版本,并結合了 Ethos NPU 后端,在 TFLite Micro 上運行演示。大部分推理邏輯以 C++ 語言在應用層編寫,并通過優(yōu)化上下文窗口內容,提高了故事的連貫性,確保 AI 能夠流暢地講述故事。

由于硬件限制,團隊需要對 Llama2 模型進行適配,以確保其在 Ethos-U85 NPU 上高效運行,這要求對性能和準確性進行仔細考量。INT8 和 INT16 混合量化技術展示了全整數(shù)模型的潛力,這有利于 AI 社區(qū)更積極地針對邊緣側設備優(yōu)化生成式模型,并推動神經網(wǎng)絡在如 Ethos-U85 等高能效平臺上的廣泛應用。

Arm Ethos-U85 彰顯卓越性能

Ethos-U85 的乘法累加 (MAC) 單元可以從 128 個擴展至 2,048 個,與前一代產品 Ethos-U65 相比,其能效提高了 20%。另外相較上一代產品,Ethos-U85 的一個顯著特點是能夠原生支持 Transformer 網(wǎng)絡。

Ethos-U85 支持使用前代 Ethos-U NPU 的合作伙伴能夠實現(xiàn)無縫遷移,并充分利用其在基于 Arm 架構的機器學習 (ML) 工具上的既有投資。憑借其卓越能效和出色性能,Ethos-U85 正愈發(fā)受到開發(fā)者青睞。

如果在芯片上采用 2,048 個 MAC 配置,Ethos-U85 可以實現(xiàn) 4 TOPS 的性能。在演示中,我們使用了較小的配置,即在 FPGA 平臺上采用 512 個 MAC,并以 32 MHz 的頻率運行具有 1,500 萬個參數(shù)的 TinyLlama2 小語言模型。

這一能力凸顯了將 AI 直接嵌入設備的可能性。盡管內存有限(320 KB SRAM 用于緩存,32 MB 用于存儲),Ethos-U85 仍能高效處理此類工作負載,為小語言模型和其他 AI 應用在深度嵌入式系統(tǒng)中的廣泛應用奠定了基礎。

將生成式 AI 引入嵌入式設備

開發(fā)者需要更加先進的工具來應對邊緣側 AI 的復雜性。Arm 通過推出 Ethos-U85,并支持基于 Transformer 的模型,致力于滿足這一需求。隨著邊緣側 AI 在嵌入式應用中的重要性日益增加,Ethos-U85 正在推動從語言模型到高級視覺任務等各種新用例的實現(xiàn)。

Ethos-U85 NPU 提供了創(chuàng)新前沿解決方案所需的卓越性能和出色能效。我們的演示顯示了將生成式 AI 引入嵌入式設備的重要進展,并凸顯了在 Arm 平臺上部署小語言模型便捷可行。

Arm 正為邊緣側 AI 在廣泛應用領域帶來新機遇,Ethos-U85 也因此成為推動新一代智能、低功耗設備發(fā)展的關鍵動力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9553

    瀏覽量

    391859
  • 嵌入式
    +關注

    關注

    5198

    文章

    20445

    瀏覽量

    334002
  • 物聯(lián)網(wǎng)

    關注

    2945

    文章

    47819

    瀏覽量

    414858
  • AI
    AI
    +關注

    關注

    91

    文章

    39774

    瀏覽量

    301372

原文標題:Arm Ethos-U85 NPU:利用小語言模型在邊緣側實現(xiàn)生成式 AI

文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    在AI基礎設施中部署語言模型的三大舉措

    文:Gartner研究副總裁周玲中國企業(yè)機構已逐步在生產環(huán)境中運行或者計劃運行大語言模型,但在AI基礎設施的生產部署與高效運營方面仍面臨諸多挑戰(zhàn)。目前,中國正加速提升其生成式AI能力,覆蓋大
    的頭像 發(fā)表于 02-09 16:28 ?386次閱讀
    在AI基礎設施中<b class='flag-5'>部署</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>的三大舉措

    1 GHz Arm? Cortex?-M85 MCU上部署AI模型

    ,即可體驗在1GHzArmCortex-M85MCU上部署AI模型。(公眾號后臺回復RA8P1,加入交流群)目錄應用效果預覽流程圖環(huán)境準備訓練模型ai
    的頭像 發(fā)表于 12-02 21:04 ?9200次閱讀
    1 GHz <b class='flag-5'>Arm</b>? Cortex?-M<b class='flag-5'>85</b> MCU上<b class='flag-5'>部署</b>AI<b class='flag-5'>模型</b>

    如何利用NPU模型壓縮技術優(yōu)化邊緣AI

    隨著人工智能模型從設計階段走向實際部署,工程師面臨著雙重挑戰(zhàn):在計算能力和內存受限的嵌入式設備上實現(xiàn)實時性能。神經處理單元(NPU)作為強大的硬件解決方案,擅長處理 AI 模型密集的計
    的頭像 發(fā)表于 11-07 15:26 ?1257次閱讀
    如何利用<b class='flag-5'>NPU</b>與<b class='flag-5'>模型</b>壓縮技術優(yōu)化邊緣AI

    瑞薩電子RA8P1系列32位AI MCU介紹

    RA8P1系列是瑞薩電子首款搭載高性能Arm Cortex-M85(支持Helium矢量擴展)及Ethos-U55 NPU的32位AI加速微控制器(MCU)。該系列通過單芯片超過
    的頭像 發(fā)表于 09-23 10:15 ?3118次閱讀
    瑞薩電子RA8P1系列32位AI MCU介紹

    基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU多模態(tài)部署評測

    關鍵詞:瑞芯微 RK3576、NPU(神經網(wǎng)絡處理器)、端側小語言模型(SLM)、多模態(tài) LLM、邊緣 AI 部署、開發(fā)板、RKLLM隨著大語言
    發(fā)表于 08-29 18:08

    Qwen2-VL-3B模型在米爾瑞芯微RK3576開發(fā)板NPU多模態(tài)部署指導與評測

    隨著大語言模型(LLM)技術的快速迭代,從云端集中式部署到端側分布式運行的趨勢日益明顯。端側小型語言模型(SLM)憑借低延遲、高隱私性和離線
    的頭像 發(fā)表于 08-28 08:05 ?5878次閱讀
    Qwen2-VL-3B<b class='flag-5'>模型</b>在米爾瑞芯微RK3576開發(fā)板<b class='flag-5'>NPU</b>多模態(tài)<b class='flag-5'>部署</b>指導與評測

    Alif Semiconductor發(fā)布支持生成式AI的MCU基準測試結果,鞏固其在邊緣AI領域的領先地位

    ·?Ensemble E4/E6/E8 MCU和融合處理器搭載領先的邊緣AI加速器——Arm Ethos-U85 NPU,集成ISP和寬內存總線,可高效實現(xiàn)圖像采集與緩沖。 ·?在微控制器行業(yè)中
    的頭像 發(fā)表于 08-13 15:39 ?2.2w次閱讀
    Alif Semiconductor發(fā)布支持生成式AI的MCU基準測試結果,鞏固其在邊緣AI領域的領先地位

    Arm方案 基于Arm架構的邊緣側設備(樹莓派或 NVIDIA Jetson Nano)上部署PyTorch模型

    本文將為你展示如何在樹莓派或 NVIDIA Jetson Nano 等基于 Arm 架構的邊緣側設備上部署 PyTorch 模型。
    的頭像 發(fā)表于 07-28 11:50 ?2872次閱讀

    【VisionFive 2單板計算機試用體驗】3、開源大語言模型部署

    1、ollama平臺搭建 ollama可以快速地部署開源大模型,網(wǎng)址為https://ollama.com, 試用該平臺,可以在多平臺上部署 Deepseek-R1, Qwen3, Llama
    發(fā)表于 07-19 15:45

    無法在NPU上推理OpenVINO?優(yōu)化的 TinyLlama 模型怎么解決?

    NPU 上推斷 OpenVINO?優(yōu)化的 TinyLlama 模型。 遇到的錯誤: get_shape was called on a descriptor::Tensor with dynamic shape
    發(fā)表于 07-11 06:58

    請問如何在C++中使用NPU上的模型緩存?

    無法確定如何在 C++ 中的 NPU 上使用模型緩存
    發(fā)表于 06-24 07:25

    基于RK3576開發(fā)板的RKLLM大模型部署教程

    RKLLM工具鏈是一個專為在Rockchip NPU平臺上部署語言模型(LLM)而設計的開發(fā)套件。它主要包括RKLLM-Toolkit和RKLLM Runtime兩個核心組件
    的頭像 發(fā)表于 05-16 17:48 ?2288次閱讀
    基于RK3576開發(fā)板的RKLLM大<b class='flag-5'>模型</b><b class='flag-5'>部署</b>教程

    瑞薩RZ/V2H平臺支持部署離線版DeepSeek -R1大語言模型

    瑞薩RZ/V2H平臺支持部署離線版DeepSeek -R1大語言模型
    的頭像 發(fā)表于 05-13 17:07 ?1639次閱讀
    瑞薩RZ/V2H平臺支持<b class='flag-5'>部署</b>離線版DeepSeek -R1大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    后摩智能NPU適配通義千問Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開源混合推理模型。用時不到1天,后摩智能自研NPU迅速實現(xiàn)Qwen3 系列模型(Qwen3 0.6B-14B)在端邊側的高效部署。這一成果充分彰顯了
    的頭像 發(fā)表于 05-07 16:46 ?1380次閱讀

    Arm 推出 Armv9 邊緣 AI 計算平臺,以超高能效與先進 AI 能力賦能物聯(lián)網(wǎng)革新

    架構的超高能效 CPU——Arm Cortex-A320 以及對 Transformer 網(wǎng)絡具有原生支持的 Ethos-U85 AI 加速器為核心的邊緣AI 計算平臺,可支持運行超 10 億參數(shù)
    的頭像 發(fā)表于 03-06 11:43 ?2053次閱讀
    <b class='flag-5'>Arm</b> 推出 Armv9 邊緣 AI 計算平臺,以超高能效與先進 AI 能力賦能物聯(lián)網(wǎng)革新