国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Hugging Face大語言模型優化技術

jf_WZTOguxH ? 來源:AI前線 ? 2023-10-09 16:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大語言模型的生產部署存在兩個主要的挑戰,一個是需要大量的參數,一個是需要處理非常長的用于表示上下文信息的輸入序列。Hugging Face 基于他們提供大模型服務的經驗分享了一些克服這些障礙的技術。

Patrick von Platen 在文中介紹的 Hugging Face 研究的三種技術是降低數值精度、使用一種叫作 Flash Attention 的注意力算法,以及使用專門的推理架構。

大語言模型需要大量的 VRAM 來加載,從幾十 (bigcode/starcoder) 到數百 GB (Llama、Bloom、GPT3)。第一個優化手段是從 float32 切換到 bfloat16 精度:

現在幾乎所有的模型都是基于 bfloat16 訓練的,如果你的 GPU 支持 bfloat16,就沒有理由基于全 float32 精度運行模型。float32 不會給出比訓練模型所使用的精度更好的推理結果。

這可以使總體內存消耗減少一半,但可惜的是,在許多情況下仍然需要很大的內存。一種更激進的方法是將模型權重量化為 8 位或 4 位,這已經被證明不會導致顯著的性能下降。

量化對于文本生成來說特別有效,因為我們所關心的是選擇最有可能的下一個標記集合,而不是下一個標記 Logit 分布的確切值。

這將進一步減少所需的內存,使得在只有 16GB VRAM 的 GPU 上運行較小的模型成為可能,盡管代價是推理時間稍長。

von Platen 寫道,使用 Flash Attention 是另一相關鍵的優化,它是大語言模型用來理解輸入標記上下文關系的自注意力層的一種算法,有可能打破輸入標記數量的二次增長。

因為該算法太過復雜,無法在這里描述,但可以這么說,它利用了 softmax 規范化統計數據和一些數學手段,在只需要隨輸入標記線性增長的內存的情況下提供相同的輸出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。

在實踐中,目前絕對沒有理由不使用 Flash Attention。該算法在數學層面給出了相同的輸出,并且速度更快,內存效率更高。

Here recent research can help to make the right choice with two components that quickly become bottlenecks, says von Platen,positional embeddingsand thekey-value cache.

在生產環境中部署大語言模型的第三項優化措施是選擇正確的架構,讓它們能夠有效地處理長文本輸入。von Platen 寫道,最近的研究有助于我們如何對兩個很快成為瓶頸的組件做出選擇——一個是 _ 位置嵌入 (positional embeddings)_,一個是 _ 鍵值緩存 _。

位置嵌入通過將每個標記的位置編碼為數字表示來幫助語言大模型理解序列順序。對于需要處理大型文本輸入任務的大語言模型,應該使用 RoPE 和 ALiBi 等相對位置嵌入技術進行訓練。

RoPE 和 ALiBi 位置編碼都可以外推到訓練期間未遇到過的輸入長度,而事實證明,與 RoPE 相比,外推對于開箱即用的 ALiBi 的效果要好得多。

目前的許多大語言模型中已經在使用這兩種算法。

鍵值緩存可以作為對對話上下文進行編碼的一種方法。鍵值緩存在發生每個新交互時增加一個元素,這比為每個請求編碼 / 解碼上下文的方法要有效得多。von Platen 詳細介紹了兩類鍵值緩存,即 Multi-Query-Attention (MQA) 和 Grouped-Query-Attention(GQA) 。

von Platen 的文章所涵蓋的內容不只有本文所概述的這些,他的文章中還提供了實際的例子來證明他的觀點,所以請不要錯過他的文章。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5177

    瀏覽量

    135235
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11301
  • 大模型
    +關注

    關注

    2

    文章

    3621

    瀏覽量

    5139

原文標題:Hugging Face 大語言模型優化技術

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統一獎勵與策略優化,相關研究論文已被人工智能領域的國際頂級學術會議AAAI 2026收錄。這一成果標志著摩爾線程在大
    的頭像 發表于 11-17 16:03 ?463次閱讀
    摩爾線程新一代大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    NVIDIA推出面向語言、機器人和生物學的全新開源AI技術

    NVIDIA 秉持對開源的長期承諾,推出了面向語言、機器人和生物學的全新開源 AI 技術,為構建開源生態系統做出貢獻,擴展 AI 的普及并推動創新。NVIDIA 正將這些模型、數據和訓練框架貢獻給
    的頭像 發表于 11-06 11:49 ?1034次閱讀

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應用開發者都可以構建并部署帶有先進動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓練框架,任何人都可以針對特定用例對現有
    的頭像 發表于 10-21 11:11 ?796次閱讀
    NVIDIA開源Audio2<b class='flag-5'>Face</b><b class='flag-5'>模型</b>及SDK

    什么是AI模型的推理能力

    NVIDIA 的數據工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理推理
    的頭像 發表于 09-23 15:19 ?1229次閱讀

    Arm神經技術是業界首創在 Arm GPU 上增添專用神經加速器的技術,移動設備上實現PC級別的AI圖形性能

    應用,該 AI 圖形優化升級技術能夠以每幀四毫秒的速度實現兩倍的分辨率提升 開發者即刻就能通過業界首個神經圖形的開放開發套件進行構建,其中包含虛幻引擎插件、模擬器,以及 GitHub 和 Hugging
    的頭像 發表于 08-14 17:59 ?2734次閱讀

    歐洲借助NVIDIA Nemotron優化主權大語言模型

    NVIDIA 正攜手歐洲和中東的模型構建商與云提供商,共同優化主權大語言模型 (LLM),加速該地區各行業采用企業級 AI。
    的頭像 發表于 06-12 15:42 ?1151次閱讀

    商湯科技日日新V6大模型斬獲“雙料第一” 一項國內榜首,一個全球第一

    衛冕“雙冠”! 通用語言能力并列國內榜首、多模態能力全球最強,商湯「日日新V6」近期斬獲“雙料第一”。 5月28日,權威大模型測評機構SuperCLUE《中文大模型基準測評2025年5月報告》全新
    的頭像 發表于 05-30 11:13 ?1560次閱讀
    商湯科技日日新V6大<b class='flag-5'>模型</b>斬獲“雙料第一” 一項國內榜首,一個全球第一

    如何基于Android 14在i.MX95 EVK上運行Deepseek-R1-1.5B和性能

    Internet,或者您可以手動下載模型。按“ ”并選擇 “從Hugging Face添加” 并搜索1.5B,找到deepseek-R1-1.5B模型,下載
    發表于 04-04 06:59

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能模型,能夠理解并生成與視覺內容相關的自然
    的頭像 發表于 03-17 15:32 ?8613次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    利用英特爾OpenVINO在本地運行Qwen2.5-VL系列模型

    近期阿里通義實驗室在 Hugging Face 和 ModelScope 上開源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在內的 3 個
    的頭像 發表于 03-12 13:42 ?2571次閱讀
    利用英特爾OpenVINO在本地運行Qwen2.5-VL系列<b class='flag-5'>模型</b>

    Vgg16模型無法使用模型優化器重塑怎么解決?

    Vgg16 模型無法使用模型優化器重塑。
    發表于 03-06 06:29

    使用各種TensorFlow模型運行模型優化器時遇到錯誤非法指令怎么解決?

    使用各種 TensorFlow 模型運行模型優化器時遇到 [i]錯誤非法指令
    發表于 03-05 09:56

    運行時OpenVINO?找不到模型優化器,為什么?

    在運行時OpenVINO?找不到模型優化器,運行模型下載程序命令并收到錯誤消息: omz_downloader:找不到命令
    發表于 03-05 08:16

    使用face-detection-retail-0004運行OpenVINO?模型服務器時“缺少特定名稱的輸入”怎么解決?

    使用 face-detection-retail-0004 OpenVINO?模型服務器啟動。 通過與 KServe 兼容的 RESTful API 啟動推理: \"inputs
    發表于 03-05 08:05

    從OpenVINO? 2019_R3下載的face-detection-retail-0004模型,運行時報錯怎么解決?

    從 OpenVINO? 2019_R3 下載的 face-detection-retail-0004 模型。 構建開源OpenVINO?版本 2020.1 運行 Interactive
    發表于 03-05 06:00