国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大語言模型(LLM)快速理解

穎脈Imgtec ? 2024-06-04 08:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自2022年,ChatGPT發布之后,大語言模型(Large Language Model),簡稱LLM掀起了一波狂潮。作為學習理解LLM的開始,先來整體理解一下大語言模型。


一、發展歷史

大語言模型的發展歷史可以追溯到早期的語言模型和機器翻譯系統,但其真正的起點可以說是隨著深度學習技術的興起而開始。

1.1 統計語言模型

在深度學習技術出現之前,語言模型主要基于傳統的統計方法,也稱為統計語言模型(SLM)。

SLMs是基于統計語言方法開始,基本思想是基于馬爾可夫假設建立詞預測模型,如根據最近的上下文預測下一個詞。具有固定上下文長度n的SLM也稱為n—gram語言模型。

然而這些模型雖然簡單,但在處理長文本序列時存在著詞匯稀疏性和上下文理解能力有限等問題。

1.2 神經語言模型

隨著神經網絡技術的發展,Bengio等人于2003年提出了神經語言模型,將語言模型建模問題轉化為了一個神經網絡的學習問題。

循環神經網絡(RNN)和長短期記憶網絡(LSTM)的提出進一步增強了神經語言模型對文本序列的建模能力。這些模型能夠捕捉到文本序列中的長程依賴關系,從而提高了語言模型的性能。

2013年,Google提出了Word2Vec模型,通過詞嵌入(Word Embedding)的方式將單詞映射到連續的向量空間中,提高了語言模型對單詞語義的理解能力。

2017年,谷歌提出了Transformer模型,該模型通過自注意力機制(Self-Attention)實現了并行計算,大大提高了模型的訓練速度。

1.3 預訓練語言模型

2018年,OpenAI發布了第一個版本的GPT模型,利用Transformer結構進行預訓練,這是首個成功利用大規模無監督學習方法來預訓練通用語言表示的模型。

2018年,Google提出了BERT模型,與GPT的區別是GPT采用了單向的自回歸方式進行預訓練,而BERT通過MLM和NSP實現雙向上下文建模。使得預訓練語言模型的性能得到了進一步的提升。

隨后就激發了后續一系列的預訓練模型的發展,如XLNet、RoBERTTa、T5、 GPT-2、GPT-3、GPT 3.5、GPT-4 等等。而大語言模型也是在此過程中被定義下來的。


二、什么是大語言模型

2.1 定義

從大語言模型字面意思來理解,“語言”和“模型”很好理解,就是代表著在自然語言處理上的AI模型。而這個大指的是神經網絡很大,包括模型的參數數量、訓練數據量、計算資源等。

參數數量

大語言模型通常含有數十億到數千億個參數,使得模型能夠有更強的語言理解、推理和生成能力。

如果只通過 GPT(生成式預訓練 Transformer)模型的演進規模來看:

2018年發布的GPT-1包含 1.17 億個參數,9.85 億個單詞。2019年發布的GPT-2包含15億個參數。2020年發布的GPT-3包含1750億個參數。ChatGPT 就是基于這個模型。2023年發布的GPT-4據爆料它可能包含1.8萬億個參數

訓練數據訓練大語言模型通常需要大規模的文本語料庫。這些語料庫可以包括來自互聯網、書籍、新聞等各種來源的文本數據,從而確保模型能夠學習到豐富和多樣化的語言知識。如GPT-3,它是在混合數據集上進行訓練的;PaLM使用了一個有社交媒體對話、過濾后的網頁、書籍、Github、多語言維基百科和新聞組成的預訓練數據集。計算資源訓練大型語言模型需要大量的計算資源,包括高性能的計算機集群、大容量的存儲設備以及高速的網絡連接。英偉達價格高昂但依然一卡難求的高性能GPU H100,長期霸占著LLM領域的熱門話題,可以說,英偉達壟斷了目前的AI算力市場。馬斯克甚至戲言:GPU現在比drug還緊俏。

2.2 大語言模型訓練方式

現有的神經網絡在進行訓練時,一般基于反向傳播算法(BP算法),先對網絡中的參數進行隨機初始化,再利用隨機梯度下降(SGD)等優化算法不斷優化模型參數。

大語言模型的訓練通常采用兩階段方法:預訓練(pre-training)和微調(fine-tuning)預訓練(Pre-training):

  • 在預訓練階段,模型使用大規模無監督的文本數據進行訓練,學習文本數據中的語言表示。
  • 通常采用自監督學習方法,即使用文本數據自身作為標簽來訓練模型。

訓練過程中,模型通過最小化損失函數來優化參數,以使得模型能夠更好地表示文本中的語義和語法信息。

微調(Fine-tuning):

  • 在預訓練完成后,可以將預訓練好的模型參數應用于特定的下游任務,如文本生成、文本分類、情感分析等。
  • 在微調階段,通常使用帶標簽的數據集對模型進行進一步訓練,以適應特定任務的需求。微調可以在預訓練模型的頂部添加一個或多個額外的層,并使用標簽數據對這些層進行訓練。

微調的目標是調整模型參數,使得模型能夠更好地適應特定任務的特征和標簽,從而提高任務性能。

在微調階段,模型在與目標任務或領域相關的更具體、更小的數據集上進一步訓練。這有助于模型微調其理解,并適應任務的特殊要求。


三、預訓練

3.1 數據收集及處理

3.1.1 數據來源

無論是怎樣的模型,數據的質量都是相當重要的。現有的大語言模型主要混合各種公共文本數據集作為預訓練語料庫。如下為一些代表性模型的預訓練數據來源的分布情況。43e86b7e-2209-11ef-bd4a-92fbcf53809c.jpg語料庫的來源可以廣義分為通用文本數據和專用文本數據。通用指的就是如網頁、書籍和對話文本等廣泛可獲取的,可以增強模型的泛化能力;專用文本數據就是在想讓模型更加專注某一專業領域時所用的,如科學數據、代碼等。如上圖中的模型中,就大部分都是使用了通用的預訓練數據。

3.1.2 數據預處理

收集數據之后,由于不確定性,所以需要對數據進行預處理,尤其是噪聲、榮譽、無關或有害的數據。預處理過程如下:4402580e-2209-11ef-bd4a-92fbcf53809c.jpg(1) 質量過濾(Quality Filtering)刪除低質量數據,常采用基于分類器和基于啟發式兩種方法。分類器就是使用用高質量數據訓練好的二分類的模型來對數據進行分類,不過可能會刪除方言、口語和社會語言的高質量文本。基于啟發式就是設計一組精心設計的規則來消除低質量文本,如基于語言、生成文本的評估度量、統計特征、關鍵詞等。

(2)去重(De-duplication)

重復數據會降低語言模型的多樣性,所以需要進行去重處理。
從數據顆粒上來說,可以分為在句子級、文檔級和數據集級等進行去重;(3)隱私去除(Privary Reduction)如涉及敏感個人信息的隱私內容,也是需要去除的,很簡單有效的就是用基于如姓名、地址、電話號碼等關鍵詞的方法。(4)分詞(Tokenization)非常關鍵的步驟,將原始文本分割成詞序列。

3.2 架構

3.2.1 編碼器-解碼器架構(Encoder-Decoder)

4414c386-2209-11ef-bd4a-92fbcf53809c.jpg如傳統Transformer 模型就是建立在此結構上。它使用了6層的Encoder和Decoder44207d84-2209-11ef-bd4a-92fbcf53809c.jpg

3.2.2 因果編碼器架構(Causal decoder)

這時當前主流使用的,采用單向注意力掩碼,以確保每個輸入標記只能關注過去的標記和它本身。輸入輸出標記通過解碼器以相同的方式處理。典型的模型有 GPT1/23, OPT, BLOOM, Gopher。

3.2.3 前綴解碼器架構(Prefix decoder)

修正了因果解碼器的掩碼機制,以使其能夠對前綴標記執行雙向注意力,并僅對生成的標記執行單向注意力。
這樣與編碼器-解碼器架構類似,前綴解碼器可以雙向編碼前綴序列并自回歸地逐個預測輸出標記,其中在編碼和解碼過程中共享相同的參數。總的來說,Encoder-Decoder適用于序列到序列的任務,Causal Decoder適用于需要生成自回歸序列的任務,而Prefix Decoder適用于需要根據特定前綴生成序列的任務。

3.3 模型訓練

在數據處理好,模型搭建好之后,就要開始對模型進行訓練。


四、微調和強化學習

在預訓練后,大語言模型可以獲得解決各種任務的通用能力。然而,還可以通過特定目標進一步調整,也就是微調(Instruction Tuning)

4.1 指令微調

通過在特定的指令性任務數據集上進行訓練,提高模型對于指令類輸入的理解和響應。指令的意思,舉個例子,對聊天機器人的指令,需要包括如“今天天氣如何”和對應的回答,供模型學習。也就是說需要包含明確指令的數據集,一個指令需要包括一個任務描述、一個輸入輸出對以及少量實例(可選)。常用的指令實例格式化方法有格式化已有的數據集還有格式化人類需求。指令微調對模型的性能改進和任務泛化能夠起到很好的作用

4.2 對齊微調

大語言模型有時可能表現出意外的行為,例如制造虛假信息、追求不準確的目標,以及產生有害的、誤導性的和偏見性的表達。為了避免這些意外行為,研究提出了人類對齊,使大語言模型行為能夠符合人類的期望也就是對齊微調。

在預訓練階段使用的訓練語料庫是沒有對模型的主觀定性評估的。所以可以在使用人類反饋的數據進行微調,這個過程稱為強化學。


五、應用

大語言模型作為具有廣泛應用的變革工具而受到重視。

文本生成:這些模型具有理解上下文、含義和語言的微妙復雜性的固有能力。因此,他們可以生成連貫且上下文相關的文本。

問答與信息檢索:大語言模型在問答和信息檢索領域正在快速發展。他們理解人類語言的卓越能力使他們能夠從龐大的數據存儲庫中提取相關細節。

情感分析與意見挖掘:了解人類的情感和觀點在不同的環境中都具有巨大的意義,從塑造品牌認知到進行市場分析。像在社交媒體監控和品牌認知分析領域的應用。

  • 輔助代碼生成:如GitHub Copilot、通義靈碼

本文來源:嗣金雜談

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11293
  • ChatGPT
    +關注

    關注

    31

    文章

    1598

    瀏覽量

    10207
  • LLM
    LLM
    +關注

    關注

    1

    文章

    346

    瀏覽量

    1309
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數規模巨大(通常達到數十億甚至萬億級別)、使用海量數據訓練而成的人工智能模型。2.什么是大語言模型
    的頭像 發表于 02-02 16:36 ?765次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,<b class='flag-5'>快速</b>全面了解!

    廣和通發布端側情感對話大模型FiboEmo-LLM

    9月,廣和通正式發布自主研發的端側情感對話大模型FiboEmo-LLM。該模型專注于情感計算與自然語言交互融合,致力于為AI玩具、智能陪伴設備等終端場景提供“情感
    的頭像 發表于 09-26 13:37 ?1868次閱讀

    米爾RK3576部署端側多模態多輪對話,6TOPS算力驅動30億參數LLM

    qwen2_5_vl_3b_vision_rk3576.rknn 模型(本文)。 核心作用:將輸入圖像壓縮為視覺 token 如 256 個視覺 token,直接輸入至大語言模型中,實現圖像信息向
    發表于 09-05 17:25

    3萬字長文!深度解析大語言模型LLM原理

    我們正在參加全球電子成就獎的評選,歡迎大家幫我們投票~~~謝謝支持本文轉自:騰訊技術工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數學解決了工業場景的問題,筆者基于過往工程經驗
    的頭像 發表于 09-02 13:34 ?3334次閱讀
    3萬字長文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>LLM</b>原理

    Votee AI借助NVIDIA技術加速方言小語種LLM開發

    了精準的方言及小語種大語言模型 (LLM)。此舉成功解決了數據稀缺、語言復雜及計算效率等挑戰,為全球數以百萬計、缺乏數字化資源的語言使用者提
    的頭像 發表于 08-20 14:21 ?822次閱讀

    飛凌嵌入式RK3576多模態大模型圖像理解助手,讓嵌入式設備“看懂”世界

    LLM)+視覺語言模型(VLM)多模態架構,推出多模態大模型圖像理解助手,為嵌入式設備打造 “智能視覺中樞”,讓終端設備能夠真正 “看懂”
    的頭像 發表于 07-25 11:09 ?1639次閱讀
    飛凌嵌入式RK3576多模態大<b class='flag-5'>模型</b>圖像<b class='flag-5'>理解</b>助手,讓嵌入式設備“看懂”世界

    如何在魔搭社區使用TensorRT-LLM加速優化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署。
    的頭像 發表于 07-04 14:38 ?2124次閱讀

    歐洲借助NVIDIA Nemotron優化主權大語言模型

    NVIDIA 正攜手歐洲和中東的模型構建商與云提供商,共同優化主權大語言模型 (LLM),加速該地區各行業采用企業級 AI。
    的頭像 發表于 06-12 15:42 ?1126次閱讀

    LM Studio使用NVIDIA技術加速LLM性能

    隨著 AI 使用場景不斷擴展(從文檔摘要到定制化軟件代理),開發者和技術愛好者正在尋求以更 快、更靈活的方式來運行大語言模型LLM)。
    的頭像 發表于 06-06 15:14 ?1115次閱讀
    LM Studio使用NVIDIA技術加速<b class='flag-5'>LLM</b>性能

    使用瑞薩MPU芯片RZ/V2H部署DeepSeek-R1模型

    DeepSeek大語言模型LLM)可用于理解人類語言的交互方式,思考,并給出合適的回應。
    的頭像 發表于 05-15 14:40 ?975次閱讀
    使用瑞薩MPU芯片RZ/V2H部署DeepSeek-R1<b class='flag-5'>模型</b>

    小白學大模型:從零實現 LLM語言模型

    在當今人工智能領域,大型語言模型LLM)的開發已經成為一個熱門話題。這些模型通過學習大量的文本數據,能夠生成自然語言文本,完成各種復雜的任
    的頭像 發表于 04-30 18:34 ?1244次閱讀
    小白學大<b class='flag-5'>模型</b>:從零實現 <b class='flag-5'>LLM</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    詳解 LLM 推理模型的現狀

    2025年,如何提升大型語言模型LLM)的推理能力成了最熱門的話題之一,大量優化推理能力的新策略開始出現,包括擴展推理時間計算、運用強化學習、開展監督微調和進行提煉等。本文將深入探討LLM
    的頭像 發表于 04-03 12:09 ?1543次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理<b class='flag-5'>模型</b>的現狀

    新品 | Module LLM Kit,離線大語言模型推理模塊套裝

    推理與數據交互需求。ModuleLLM是一款集成化的離線大語言模型(LLM)推理模塊,專為需要高效、智能交互的終端設備設計。Module13.2LLMMate模塊
    的頭像 發表于 03-28 18:49 ?1154次閱讀
    新品 | Module <b class='flag-5'>LLM</b> Kit,離線大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>推理模塊套裝

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能模型,能夠理解
    的頭像 發表于 03-17 15:32 ?8550次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析

    無法在OVMS上運行來自Meta的大型語言模型LLM),為什么?

    無法在 OVMS 上運行來自 Meta 的大型語言模型LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama_chat Python* Demo 時遇到錯誤。
    發表于 03-05 08:07