Recursive prompting增強(qiáng)語言模型方案

1 簡介?????????

有的工作嘗試引出中間推理步驟，通過將復(fù)雜問題顯示分解為多個子問題，從而以分而治之的方式來解決?？紤]到組合泛化對于語言模型有一定的挑戰(zhàn)，這種遞歸方法的對于復(fù)雜任務(wù)特定有用。根據(jù)解決子問題的方式可以分為串行跟并行兩種，串行的方式每個子問題相互依賴，前面子問題的答案會加入到后續(xù)子問題的prompt中，生成后續(xù)子問題的答案，而并行的方式則各個子問題的答案生成是獨立的，最后再將多個子問題的答案融合到一起。

2 并行式??????????

DECOMPRC

在閱讀理解場景下，多跳閱讀理解要求從眾多段落中進(jìn)行推理跟歸納。于是出現(xiàn)了新的方案DECOMPRC，將多跳閱讀理解問題分解成多個相對簡單的子問題（現(xiàn)有閱讀理解模型可以回復(fù)），從而提高閱讀理解準(zhǔn)確性。

圖1:?DECOMPRC示例

整個方案分為三個部分

a)?將原始的多跳閱讀理解問題分解為多個單跳子問題?？梢愿鶕?jù)多個不同的推理類型得到多種分解方式，這里需要根據(jù)不同推理類型分別訓(xùn)練多個用于問題分解的模型，對于每個分解模型，采用Point的方式，利用BERT對原問題進(jìn)行預(yù)測，得到幾個關(guān)鍵位置，利用關(guān)鍵位置原文本進(jìn)行劃分，再加上一些規(guī)則手段，就可以得到對應(yīng)的子問題了。例如預(yù)測出一個中間位置，就可以將原問題分割成兩部分，第一部分作為第一個子問題，第二部分作為第二個子問題，考慮到第二部分可能都是陳述句，就將前面的詞轉(zhuǎn)換成which。這里將分解模型簡化為一個span prediction問題，只需要400個訓(xùn)練數(shù)據(jù)就得到很不錯的效果了。

b)?在第一步會產(chǎn)生多種問題分解方式，對于每一種分解方式，利用單跳閱讀理解模型回復(fù)每個子問題，然后根據(jù)不同分分解類型的特性得到最終的答案。

c)?對于每一種分解方式，將原問題，分解類型，該分解方式下的問題跟對應(yīng)答案一同作為模型輸入，預(yù)測哪種分解方式對應(yīng)的結(jié)果最合理，將該分解方式下的答案作為多跳閱讀理解問題的答案。

整個流程可以簡單理解為，系統(tǒng)提供了幾種將多跳問題分解為子問題的方式，分別計算每個分解方式的合理性，再選擇其中最優(yōu)的分解方式對應(yīng)的答案作為原問題最終答案。

在QA場景下，通過將復(fù)雜問題分解為相對簡單的子問題（QA模型可以回復(fù)），從而提高問答的效果。具體到多跳QA問題上，現(xiàn)將復(fù)雜問題分解為多個子問題，利用單跳QA模型生成全部子問題的答案并融合到一起作為復(fù)雜問題的答案。

圖2: QA場景下的recursive prompting方案示例?

整個系統(tǒng)分為三個部分

a)?無監(jiān)督問題分解，將原問題分解為多個相對簡單的子問題。這里需要訓(xùn)練一個分解模型，用于將復(fù)雜問題分解成多個子問題。由于這個任務(wù)下的監(jiān)督訓(xùn)練數(shù)據(jù)構(gòu)造成本高昂，于是提出了一種無監(jiān)督的訓(xùn)練數(shù)據(jù)構(gòu)造方式，對于每一個復(fù)雜問題q，從語料集Q中檢索召回得到N個對應(yīng)的簡單問題s作為q的子問題，N的取值可以依賴于具體任務(wù)或者具體問題。我們希望這些簡單問題在某些方面跟q足夠相似，同時這些簡單問題s之間有明顯差異。從而構(gòu)造出復(fù)雜問題跟子問題序列之間的偽pair對（q, [s1,…sN]）,用于訓(xùn)練分解模型。

b)?生成子問題回復(fù)，利用現(xiàn)有的QA模型，去生成各個子問題的回復(fù)。這里不對QA模型有太多限制，只要它能正確回復(fù)語料庫S中的簡單問題即可，所以盡量采用在S中效果優(yōu)異的QA模型。

c)?生成復(fù)雜問題回復(fù)，將復(fù)雜問題，各個子問題跟對應(yīng)回復(fù)一同作為QA模型的輸入，生成復(fù)雜問題的回復(fù)。這里的QA模型可以采用跟第二步一樣的模型，只要將輸入做對應(yīng)調(diào)整即可。

圖3: QA場景下的recursive prompting方案示例

圖4: 實驗結(jié)果對比

從實驗效果上可以明顯看出這些問題分解的方式能夠顯著提升模型效果。

串行式

SEQZERO

如何利用大規(guī)模語言模型將自然語言問題轉(zhuǎn)化為SQL語句？SEQZERO就是一種解法。由于SQL這種規(guī)范語言的復(fù)合結(jié)構(gòu)，SQL語句很多情況下會顯得復(fù)雜且冗長，要讓語言模型學(xué)會生草本跟SQL語言需要大量訓(xùn)練數(shù)據(jù)，于是出現(xiàn)了一種基于few-shot的方法SEQZERO。

一個SQL語句包括多個部分，例如From **，SELCT **， WHERE **，只要能從自然語言問題中提出這幾個部分對應(yīng)的元素，然后通過規(guī)則可以轉(zhuǎn)化為對應(yīng)的SQL語句。于是SEQZERO的做法就是先利用語言模型預(yù)測得到其中一個元素，將該元素加入到原問題中生成下個元素，重復(fù)此操作直到生成全部元素，然后通過規(guī)則將所有結(jié)果組合起來的就得到對應(yīng)的SQL語句。在預(yù)測每個元素的過程中，為了得到更加強(qiáng)大的泛化能力，采用了few-shot跟zero-shot的集成策略。

圖5: SEQZERO示例

Least-to-most

雖然chain-of-thought prompting在很多自然語言推理任務(wù)有顯著效果，但是當(dāng)問題比prompt里的示例更難時，它的表現(xiàn)會很糟糕。舉個例子，比如任務(wù)抽取文本每個單詞最后一個字母，prompt的示例輸入是3個單詞，輸入相對較短，但是問題的長度卻是10個單詞，這種情況下chain-of-thought prompting的策略就會失效。于是提出了Least-to-most，通過兩階段的prompting來解決這種問題，第一階段通過prompting將原問題分解為一系列子問題，第二階段則是通過prompting依次解決子問題，前面子問題的問題跟答案會加入到候選子問題的模型輸入中去，方便語言模型更好地回復(fù)候選子問題。由于這兩個階段任務(wù)有所區(qū)別，對應(yīng)的prompt內(nèi)容也不同。

圖6: Least-to-most示例

4 其他

Successive prompting

前面幾種方法都是一開始就將問題分解為多個子問題，然后在通過串行或者并行的方式回復(fù)所有子問題，而successive prompting則是每次分解出一個子問題，讓語言模型去回復(fù)該子問題，再將該子問題以及對應(yīng)答案加入到模型輸入種，進(jìn)而分解出下一個子問題，重復(fù)這個過程直到?jīng)]有新的子問題生成，那么最后一個子問題的答案就是原問題的答案。

圖7: successive prompting示例

5 總結(jié)???????????????

Recursive prompting這種思路其實蠻好理解的，目前大規(guī)模語言模型處理這些簡單任務(wù)效果是很不錯的，但是復(fù)雜問題就比較糟糕了，一方面構(gòu)造這些復(fù)雜問題相關(guān)數(shù)據(jù)的工作很艱巨，另一方面直接讓語言模型在這些復(fù)雜問題數(shù)據(jù)上訓(xùn)練效果也很一般（想想為什么有些數(shù)據(jù)集上sota指標(biāo)也很低）。但是讓語言模型學(xué)會根據(jù)具體問題進(jìn)行拆解，通過將復(fù)雜問題分解為相對簡單的子問題，采用分而治之的方式，再將子問題答案匯總，不就得到原問題的答案了嘛。這也跟我們?nèi)祟惖男袨槟Ｊ礁咏咏?，對于?fù)雜任務(wù)，我們會通過合理規(guī)劃將其劃分為具體多個子任務(wù)，然后再去一一解決這些子任務(wù)。想想中華民族偉大復(fù)興的道路，不也是通過一個又一個的五年計劃逐步向前推進(jìn)的嘛。

編輯：黃飛

閱讀全文

語言模型(11283) 語言模型(11283)
無監(jiān)督學(xué)習(xí)(2883) 無監(jiān)督學(xué)習(xí)(2883)

拆解大語言模型RLHF中的PPO算法

由于本文以大語言模型 RLHF 的 PPO 算法為主，所以希望你在閱讀前先弄明白大語言模型 RLHF 的前兩步，即 SFT Model 和 Reward Model 的訓(xùn)練過程。另外因為本文不是純講強(qiáng)化學(xué)習(xí)的文章，所以我在敘述的時候不會假設(shè)你已經(jīng)非常了解強(qiáng)化學(xué)習(xí)了。

2023-12-11 18:30:49

3844

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

，在實際應(yīng)用場景中效果不好。為了解決這個問題，將知識注入到PLMs中已經(jīng)成為一個非?；钴S的研究領(lǐng)域。本次分享將介紹三篇知識增強(qiáng)的預(yù)訓(xùn)練語言模型論文，分別通過基于知識向量、知識檢索以及知識監(jiān)督的知識注入方法來增強(qiáng)語言預(yù)訓(xùn)練模型。

2022-04-02 17:21:43

10696

如何利用Transformers了解視覺語言模型

將模型稱為 “視覺語言” 模型是什么意思？一個結(jié)合了視覺和語言模態(tài)的模型？但這到底是什么意思呢？

2023-03-03 09:49:37

1578

大型語言模型在關(guān)鍵任務(wù)和實際應(yīng)用中的挑戰(zhàn)

大型語言模型的出現(xiàn)極大地推動了自然語言處理領(lǐng)域的進(jìn)步，但同時也存在一些局限性，比如模型可能會產(chǎn)生看似合理但實際上是錯誤或虛假的內(nèi)容，這一現(xiàn)象被稱為幻覺（hallucination）?；糜X的存在使得

2023-08-15 09:33:45

2260

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關(guān)系

電子發(fā)燒友網(wǎng)報道（文/李彎彎）大語言模型（LLM）是基于海量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務(wù)，如文本摘要、問答、翻譯等

2024-01-02 09:28:33

4637

LLM之外的性價比之選，小語言模型

? 電子發(fā)燒友網(wǎng)報道（文/周凱揚）大語言模型的風(fēng)靡給AI應(yīng)用創(chuàng)造了不少機(jī)會，無論是效率還是創(chuàng)意上，大語言模型都帶來了前所未有的表現(xiàn)，這些大語言模型很快成為大型互聯(lián)網(wǎng)公司或者AI應(yīng)用公司的殺手級產(chǎn)品

2024-06-03 05:15:00

3342

【《大語言模型應(yīng)用指南》閱讀體驗】+ 俯瞰全書

上周收到《大語言模型應(yīng)用指南》一書，非常高興，但工作項目繁忙，今天才品鑒體驗，感謝作者編寫了一部內(nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作，也感謝電子發(fā)燒友論壇提供了一個讓我了解大語言模型和機(jī)器學(xué)習(xí)

2024-07-21 13:35:17

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇，對于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀，但對于我還是有許多的知識點、專業(yè)術(shù)語比較陌生，需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書中

2024-07-25 14:33:23

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實現(xiàn)。主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。大語言模型涉及以下幾個過程：數(shù)據(jù)收集：大語言模型通過從互聯(lián)網(wǎng)、書籍、新聞、社交媒體等多種渠道

2024-08-02 11:03:41

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

全面剖析大語言模型的核心技術(shù)與基礎(chǔ)知識。首先，概述自然語言的基本表示，這是理解大語言模型技術(shù)的前提。接著，詳細(xì)介紹自然語言處理預(yù)訓(xùn)練的經(jīng)典結(jié)構(gòu)Transformer，以及其工作原理，為構(gòu)建大語言

2024-05-05 12:17:03

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

實際應(yīng)用前需解決的挑戰(zhàn)。為提升大語言模型的性能，高級的提示詞技術(shù)可以促進(jìn)大語言模型與環(huán)境進(jìn)行動態(tài)交互，引導(dǎo)其生成和推理規(guī)劃。檢索增強(qiáng)生成技術(shù)（RAG）的核心理念在于從知識庫或互聯(lián)網(wǎng)中檢索與問題緊密

2024-05-07 17:21:45

【大語言模型：原理與工程實踐】大語言模型的評測

評測任務(wù)則重點評估模型在提供方法論和實踐建議方面的能力。這類任務(wù)要求模型能像經(jīng)驗豐富的導(dǎo)師或?qū)＜夷菢樱瑸橛脩籼峁┯袃r值的建議和解決方案?？傊@套綜合性的評測框架為全面評估大語言模型的對話能力提供了有力

2024-05-07 17:12:40

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

大語言模型的核心特點在于其龐大的參數(shù)量，這賦予了模型強(qiáng)大的學(xué)習(xí)容量，使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)習(xí)容量的增加，對預(yù)訓(xùn)練數(shù)據(jù)的需求也相應(yīng)

2024-05-07 17:10:27

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

《大語言模型》是一本深入探討人工智能領(lǐng)域中語言模型的著作。作者通過對語言模型的基本概念、基礎(chǔ)技術(shù)、應(yīng)用場景分析，為讀者揭開了這一領(lǐng)域的神秘面紗。本書不僅深入討論了語言模型的理論基礎(chǔ)，還涉及自然語言

2024-04-30 15:35:24

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

讀者更好地把握大語言模型的應(yīng)用場景和潛在價值。盡管涉及復(fù)雜的技術(shù)內(nèi)容，作者盡力以通俗易懂的語言解釋概念，使得非專業(yè)背景的讀者也能夠跟上節(jié)奏。圖表和示例的運用進(jìn)一步增強(qiáng)了書籍的可讀性。本書適合對人工智能

2024-05-07 10:30:50

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

了如BERT和GPT等劃時代的模型。BERT通過雙向訓(xùn)練增強(qiáng)了文本理解能力，而GPT則展示了強(qiáng)大的文本生成能力。大語言模型，擁有數(shù)百億甚至更多參數(shù)，已成為自然語言處理領(lǐng)域的佼佼者，展現(xiàn)出強(qiáng)大的多任務(wù)

2024-05-04 23:55:44

【大語言模型：原理與工程實踐】核心技術(shù)綜述

我也不打算把網(wǎng)上相關(guān)的信息在總結(jié)一下，這樣的話，工作量很大。我主要看了-大語言模型基礎(chǔ)技術(shù)這節(jié) 大語言模型（Large Language Models，LLMs）的核心技術(shù)涵蓋了從模型的架構(gòu)設(shè)計到

2024-05-05 10:56:58

【大規(guī)模語言模型：從理論到實踐】- 閱讀體驗

和抗噪聲能力；以及通過可視化工具來增強(qiáng)模型的解釋性等。同時，隨著技術(shù)的不斷進(jìn)步和發(fā)展，在未來能夠發(fā)展出更加高效、健壯和可解釋的大語言模型。

2024-06-07 14:44:24

關(guān)于自然語言處理之54 語言模型(自適應(yīng))

自然語言處理——54 語言模型(自適應(yīng))

2020-04-09 08:20:30

大語言模型：原理與工程實踐+初識2

前言深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的分支，而大語言模型是深度學(xué)習(xí)的分支。機(jī)器學(xué)習(xí)的核心是讓計算機(jī)系統(tǒng)通過對數(shù)據(jù)的學(xué)習(xí)提高性能，深度學(xué)習(xí)則是通過創(chuàng)建人工神經(jīng)網(wǎng)絡(luò)處理數(shù)據(jù)。近年人工神經(jīng)網(wǎng)絡(luò)高速發(fā)展，引發(fā)深度學(xué)習(xí)

2024-05-13 00:09:37

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學(xué)習(xí)，需要訓(xùn)練各種數(shù)據(jù)知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數(shù)據(jù)時表現(xiàn)出色，耳真正厲害的是Transformer，此框架被推出后直接

2024-05-12 23:57:34

求增強(qiáng)電源模塊系統(tǒng)穩(wěn)定性的幾個方案

如何提升EMC性能？求增強(qiáng)電源模塊系統(tǒng)穩(wěn)定性的幾個方案

2021-03-16 06:48:24

自然語言處理的語言模型

自然語言處理——53 語言模型（數(shù)據(jù)平滑）

2020-04-16 11:11:25

一種新的動態(tài)微觀語言競爭社會仿真模型

語言競爭傳播演化現(xiàn)象是典型的不能假設(shè)、無法進(jìn)行真實性實驗的社會科學(xué)問題，而建立在社會仿真模型基礎(chǔ)上的計算實驗是可行的方案。利用基于Agent的社會圈子網(wǎng)絡(luò)理論并引入語言的內(nèi)部詞匯結(jié)構(gòu)給出一種新的動態(tài)

2017-11-23 15:41:04

自然語言處理常用模型解析

自然語言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語言處理開源項目/開發(fā)包有哪些？

2017-12-28 15:42:30

6424

一種注意力增強(qiáng)的自然語言推理模型aESIM

在自然語言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此，提出一種注意力增強(qiáng)的自然語言推理模型aESM。將詞注意力層以及自適應(yīng)方向權(quán)重層添加到ESIM模型的雙向LSTM網(wǎng)絡(luò)中，從而更有

2021-03-25 11:34:15

知識圖譜與BERT相結(jié)合助力語言模型

感謝清華大學(xué)自然語言處理實驗室對預(yù)訓(xùn)練語言模型架構(gòu)的梳理，我們將沿此脈絡(luò)前行，探索預(yù)訓(xùn)練語言模型的前沿技術(shù)，紅框中為已介紹的文章，綠框中為本期介紹的模型，歡迎大家留言討論交流。在之前的一期推送中

2021-05-19 15:47:41

4437

詳解剖析Go語言調(diào)度模型的設(shè)計

golang的MPG調(diào)度模型是保障Go語言效率高的一個重要特性，本文詳細(xì)介紹了Go語言調(diào)度模型的設(shè)計。前言 Please remember that at the end of the day

2021-07-26 10:12:43

2756

使用DeepSpeed和Megatron驅(qū)動MT-NLG語言模型

盡管巨型語言模型正在推動語言生成技術(shù)的發(fā)展，但它們也面臨著偏見和毒性等問題。人工智能社區(qū)正在積極研究如何理解和消除語言模型中的這些問題，包括微軟和 NVIDIA 。

2022-04-17 11:25:34

2959

Multilingual多語言預(yù)訓(xùn)練語言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM預(yù)訓(xùn)練多語言模型，整體思路基于BERT，并提出了針對多語言預(yù)訓(xùn)練的3個優(yōu)化任務(wù)。后續(xù)很多多語言預(yù)訓(xùn)練工作都建立在XLM的基礎(chǔ)上，我們來詳細(xì)看看XLM的整體訓(xùn)練過程。

2022-05-05 15:23:49

3893

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語言模型不使用[MASK]標(biāo)記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預(yù)訓(xùn)練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

2169

利用視覺語言模型對檢測器進(jìn)行預(yù)訓(xùn)練

預(yù)訓(xùn)練通常被用于自然語言處理以及計算機(jī)視覺領(lǐng)域，以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力，達(dá)到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場景文本檢測當(dāng)中，如最早的使用ImageNet預(yù)訓(xùn)練模型初始化參數(shù)

2022-08-08 15:33:35

2094

預(yù)訓(xùn)練語言模型的字典描述

今天給大家?guī)硪黄狪JCAI2022浙大和阿里聯(lián)合出品的采用對比學(xué)習(xí)的字典描述知識增強(qiáng)的預(yù)訓(xùn)練語言模型-DictBERT，全名為《Dictionary Description Knowledge

2022-08-11 10:37:55

1661

NVIDIA NeMo最新語言模型服務(wù)幫助開發(fā)者定制大規(guī)模語言模型

NVIDIA NeMo 大型語言模型（LLM）服務(wù)幫助開發(fā)者定制大規(guī)模語言模型；NVIDIA BioNeMo 服務(wù)幫助研究人員生成和預(yù)測分子、蛋白質(zhì)及 DNA

2022-09-22 10:42:29

1203

CogBERT：腦認(rèn)知指導(dǎo)的預(yù)訓(xùn)練語言模型

另一方面，從語言處理的角度來看，認(rèn)知神經(jīng)科學(xué)研究人類大腦中語言處理的生物和認(rèn)知過程。研究人員專門設(shè)計了預(yù)訓(xùn)練的模型來捕捉大腦如何表示語言的意義。之前的工作主要是通過明確微調(diào)預(yù)訓(xùn)練的模型來預(yù)測語言誘導(dǎo)的大腦記錄，從而納入認(rèn)知信號。

2022-11-03 15:07:08

1695

介紹幾篇EMNLP'22的語言模型訓(xùn)練方法優(yōu)化工作

來自：圓圓的算法筆記今天給大家介紹3篇EMNLP 2022中語言模型訓(xùn)練方法優(yōu)化的工作，這3篇工作分別是：針對檢索優(yōu)化語言模型：優(yōu)化語言模型訓(xùn)練過程，使能夠生成更合適的句子表示用于檢索

2022-12-22 16:14:56

1570

支持Python和Java的BigCode開源輕量級語言模型

BigCode 是一個開放的科學(xué)合作組織，致力于開發(fā)大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型，該模型擁有 11 億個參數(shù)

2023-01-17 14:29:53

1365

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

如果給語言模型生成一些 prompting，它還向人們展示了其解決復(fù)雜任務(wù)的能力。標(biāo)準(zhǔn) prompting 方法，即為使用少樣本的問答對或零樣本的指令的一系列方法，已經(jīng)被證明不足以解決需要多個推理步驟的下游任務(wù)（Chowdhery 等，2022）。

2023-02-02 16:15:26

1601

大型語言模型有哪些用途？

大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。 AI 應(yīng)用在大型語言模型的幫助下，可用于解決總結(jié)文章、編寫故事和參與長對話等多種繁重工作。大型語言模型（LLM）是一種深度學(xué)習(xí)算法，可以

2023-02-23 19:50:04

6084

LeCun新作：全面綜述下一代「增強(qiáng)語言模型」

最近圖靈獎得主Yann LeCun參與撰寫了一篇關(guān)于「增強(qiáng)語言模型」的綜述，回顧了語言模型與推理技能和使用工具的能力相結(jié)合的工作，并得出結(jié)論，這個新的研究方向有可能解決傳統(tǒng)語言模型的局限性，如可解釋性、一致性和可擴(kuò)展性問題。

2023-03-03 11:03:20

1575

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。

2023-03-08 13:57:00

9399

Firefly(流螢): 中文對話式大語言模型

Bloom是個多語言模型，由于需要兼容多語言，所以詞表有25w之多，在中文領(lǐng)域中，大部分詞表并不會被用到。我們通過刪減冗余的詞表，從多語言模型中提取常用的中英文詞表，最終詞表從25w減少到46145，縮減為原來的18.39%，在保留預(yù)訓(xùn)練知識的同時，有效減少參數(shù)量，提高訓(xùn)練效率。

2023-04-07 10:36:08

8171

使用LoRA和Hugging Face高效訓(xùn)練大語言模型

在本文中，我們將展示如何使用大語言模型低秩適配 (Low-Rank Adaptation of Large Language Models，LoRA) 技術(shù)在單 GPU 上微調(diào) 110 億參數(shù)的 FLAN-T5 XXL 模型。

2023-04-14 17:37:40

3420

各種大語言模型是徹底被解封了

基礎(chǔ) LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語言模型，T5-style 表示 encoder-decoder 的語言模型，GLM-style 表示 GLM 特殊的模型結(jié)構(gòu)，Multi-task 是指 ERNIE 3.0 的模型結(jié)構(gòu)

2023-04-20 11:25:44

2555

AI大語言模型的原理、演進(jìn)及算力測算專題報告

GPT是基于Transformer架構(gòu)的大語言模型，近年迭代演進(jìn)迅速。構(gòu)建語言模型是自然語言處理中最基本和最重要的任務(wù)之一。GPT是基于Transformer架構(gòu)衍生出的生成式預(yù)訓(xùn)練的單向語言模型，通過對大量語料數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí)

2023-04-28 10:01:59

1855

大語言模型的多語言機(jī)器翻譯能力分析

以ChatGPT為代表的大語言模型（Large Language Models, LLM）在機(jī)器翻譯（Machine Translation, MT）任務(wù)上展現(xiàn)出了驚人的潛力。

2023-05-17 09:56:26

3806

PyTorch教程9.3.之語言模型

電子發(fā)燒友網(wǎng)站提供《PyTorch教程9.3.之語言模型.pdf》資料免費下載

2023-06-05 09:59:00

PyTorch教程-9.3. 語言模型

9.3. 語言模型? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:24

767

基于預(yù)訓(xùn)練模型和語言增強(qiáng)的零樣本視覺學(xué)習(xí)

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加一些 prompt 會讓模型能力進(jìn)一步提升怎么讓能力更好？可以引入其他知識，即其他的預(yù)訓(xùn)練模型，包括大語言模型、多模態(tài)模型也包括

2023-06-15 16:36:11

1094

基于Transformer的大型語言模型（LLM）的內(nèi)部機(jī)制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內(nèi)部機(jī)制，以提高它們的可靠性和可解釋性。隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內(nèi)部

2023-06-25 15:08:49

2367

大型語言模型的應(yīng)用

?? 大型語言模型（LLM）是一種深度學(xué)習(xí)算法，可以通過大規(guī)模數(shù)據(jù)集訓(xùn)練來學(xué)習(xí)識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。大語言模型（LLM）代表著 AI 領(lǐng)域的重大進(jìn)步，并有望通過習(xí)得的知識改變

2023-07-05 10:27:35

2808

語言模型的發(fā)展歷程基于神經(jīng)網(wǎng)絡(luò)的語言模型解析

簡單來說，語言模型能夠以某種方式生成文本。它的應(yīng)用十分廣泛，例如，可以用語言模型進(jìn)行情感分析、標(biāo)記有害內(nèi)容、回答問題、概述文檔等等。但理論上，語言模型的潛力遠(yuǎn)超以上常見任務(wù)。

2023-07-14 11:45:40

1398

清華大學(xué)大語言模型綜合性能評估報告發(fā)布！哪個模型更優(yōu)秀？

近日，清華大學(xué)新聞與傳播學(xué)院發(fā)布了《大語言模型綜合性能評估報告》，該報告對目前市場上的7個大型語言模型進(jìn)行了全面的綜合評估。近年，大語言模型以其強(qiáng)大的自然語言處理能力，成為AI領(lǐng)域的一大熱點。它們

2023-08-10 08:32:01

2137

檢索增強(qiáng)的語言模型方法的詳細(xì)剖析

? 本篇內(nèi)容是對于ACL‘23會議上陳丹琦團(tuán)隊帶來的Tutorial所進(jìn)行的學(xué)習(xí)記錄，以此從問題設(shè)置、架構(gòu)、應(yīng)用、挑戰(zhàn)等角度全面了解檢索增強(qiáng)的語言模型，作為對后續(xù)工作的準(zhǔn)備與入門，也希望能給大家?guī)?/div>

2023-08-21 09:58:01

2984

大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

最近，AI大模型測評火熱，尤其在大語言模型領(lǐng)域，“聰明”的上限被不斷刷新。商湯與上海AI實驗室等聯(lián)合打造的大語言模型“書生·浦語”（InternLM）也表現(xiàn)出色，分別在智源FlagEval

2023-08-25 13:00:02

1124

訓(xùn)練大語言模型帶來的硬件挑戰(zhàn)

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓(xùn)練這些模型帶來的硬件挑戰(zhàn)，以及GPU和網(wǎng)絡(luò)行業(yè)如何針對訓(xùn)練的工作負(fù)載不斷優(yōu)化硬件。

2023-09-01 17:14:56

2809

FPGA加速器支撐ChatGPT類大語言模型創(chuàng)新

作者：Bill Jenkins，Achronix人工智能/機(jī)器學(xué)習(xí)產(chǎn)品營銷總監(jiān) 探索FPGA加速語言模型如何通過更快的推理、更低的延遲和更好的語言理解來重塑生成式人工智能簡介：大語言模型近年來

2023-09-04 16:55:25

1140

騰訊發(fā)布混元大語言模型

騰訊發(fā)布混元大語言模型騰訊全球數(shù)字生態(tài)大會上騰訊正式發(fā)布了混元大語言模型，參數(shù)規(guī)模超千億，預(yù)訓(xùn)練語料超2萬億tokens。作為騰訊自研的通用大語言模型，混元大語言模型具有中文創(chuàng)作能力、任務(wù)執(zhí)行

2023-09-07 10:23:54

1586

CLE Diffusion：可控光照增強(qiáng)擴(kuò)散模型

本文提出了新型的可控光照增強(qiáng)框架，主要采用了條件擴(kuò)散模型來控制任意區(qū)域的任意亮度增強(qiáng)。通過亮度控制模塊（Brightness Control Module)將亮度信息信息融入Diffusion網(wǎng)絡(luò)中，并且設(shè)計了和任務(wù)適配的條件控制信息和損失函數(shù)來增強(qiáng)模型的能力。

2023-09-11 17:20:14

1942

虹科分享 | 谷歌Vertex AI平臺使用Redis搭建大語言模型

基礎(chǔ)模型和高性能數(shù)據(jù)層這兩個基本組件始終是創(chuàng)建高效、可擴(kuò)展語言模型應(yīng)用的關(guān)鍵，利用Redis搭建大語言模型，能夠?qū)崿F(xiàn)高效可擴(kuò)展的語義搜索、檢索增強(qiáng)生成、LLM 緩存機(jī)制、LLM記憶和持久化。有

2023-09-18 11:26:49

1987

揭秘編碼器與解碼器語言模型

Transformer 架構(gòu)的問世標(biāo)志著現(xiàn)代語言大模型時代的開啟。自 2018 年以來，各類語言大模型層出不窮。

2023-10-24 11:42:05

1697

如何在搜索引擎中應(yīng)用AI大語言模型，提高企業(yè)生產(chǎn)力？

人工智能尤其是大型語言模型的應(yīng)用，重塑了我們與信息交互的方式，也為企業(yè)帶來了重大的變革。將基于大模型的檢索增強(qiáng)生成（RAG）集成到業(yè)務(wù)實踐中，不僅是一種趨勢，更是一種必要。它有助于實現(xiàn)數(shù)據(jù)驅(qū)動型決策

2023-11-06 08:10:02

1166

跨語言提示：改進(jìn)跨語言零樣本思維推理

進(jìn)一步地，提出了Cross-Lingual Self-consistent Prompting (CLSP)，利用不同語言專家的知識和不同語言間更加多樣的思考方式，集成了多個推理路徑，顯著地提高了self-consistency的跨語言性能。CLSP 都能夠在CLP的基礎(chǔ)上更進(jìn)一步地有效提高零樣本跨語言 CoT 性能。

2023-11-08 16:59:42

1589

了解亞馬遜云科技搭建智能搜索大語言模型增強(qiáng)方案的快速部署流程

/算法/軟件工程師的人力投入和包括硬件在內(nèi)的物力投入。那么在自己的環(huán)境中搭建智能搜索大語言模型增強(qiáng)方案是必不可少的。因此，本篇內(nèi)容主要為大語言模型方案的快速部署。該方案部署流程并不復(fù)雜，只需要您對于亞馬遜云科技

2023-11-10 11:08:27

1425

基于檢索的大語言模型簡介

簡介章節(jié)講的是比較基礎(chǔ)的，主要介紹了本次要介紹的概念，即檢索（Retrieval）和大語言模型（LLM）

2023-11-15 14:50:36

1421

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進(jìn)行介紹。大語言模型指的是具有數(shù)十億參數(shù)（B+）的預(yù)訓(xùn)練語言模型（例如：GPT-3, Bloom, LLaMA)。這種模型可以用于各種自然語言處理任務(wù)，如文本生成、機(jī)器翻譯和自然語言理解等。

2023-12-04 15:51:46

1470

大規(guī)模語言模型的基本概念、發(fā)展歷程和構(gòu)建流程

大規(guī)模語言模型（Large Language Models，LLM），也稱大規(guī)模語言模型或大型語言模型，是一種由包含數(shù)百億以上參數(shù)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語言模型，使用自監(jiān)督學(xué)習(xí)方法通過大量無標(biāo)注

2023-12-07 11:40:43

6327

大語言模型概述

在科技飛速發(fā)展的當(dāng)今時代，人工智能技術(shù)成為社會進(jìn)步的關(guān)鍵推動力之一。在廣泛關(guān)注的人工智能領(lǐng)域中，大語言模型以其引人注目的特性備受矚目。大語言模型的定義及發(fā)展歷史大語言模型是一類基于深度學(xué)習(xí)技術(shù)

2023-12-21 17:53:59

3103

大語言模型使用指南

在信息爆炸的時代，我們渴望更智能、更高效的語言處理工具。GPT-3.5等大語言模型的崛起為我們提供了前所未有的機(jī)會。這不僅是技術(shù)的進(jìn)步，更是人與機(jī)器共舞的一幕。本篇文章將帶你走進(jìn)這個奇妙的語言王國

2023-12-29 14:18:59

1167

大語言模型推斷中的批處理效應(yīng)

隨著開源預(yù)訓(xùn)練大型語言模型（Large Language Model, LLM ）變得更加強(qiáng)大和開放，越來越多的開發(fā)者將大語言模型納入到他們的項目中。其中一個關(guān)鍵的適應(yīng)步驟是將領(lǐng)域特定的文檔集成到預(yù)訓(xùn)練模型中，這被稱為微調(diào)。

2024-01-04 12:32:39

1367

大語言模型（LLMs）如何處理多語言輸入問題

研究者們提出了一個框架來描述LLMs在處理多語言輸入時的內(nèi)部處理過程，并探討了模型中是否存在特定于語言的神經(jīng)元。

2024-03-07 14:44:02

1397

Stability AI發(fā)布Stable Code Instruct 3B大語言模型，可編譯多種編程語言

據(jù)報道，Stability AI公司近期推出了適配程序員使用的Stable Code Instruct 3B大語言模型，此款模型的顯著特點是能夠?qū)崿F(xiàn)編程語言間的自如切換。

2024-03-27 10:04:00

1221

小米大語言模型MiLM正式通過備案

近日，小米官方宣布，其自主研發(fā)的大語言模型MiLM已成功通過大模型備案，標(biāo)志著小米在人工智能領(lǐng)域取得了又一重要突破。

2024-05-20 09:31:42

1102

大語言模型(LLM)快速理解

自2022年，ChatGPT發(fā)布之后，大語言模型（LargeLanguageModel），簡稱LLM掀起了一波狂潮。作為學(xué)習(xí)理解LLM的開始，先來整體理解一下大語言模型。一、發(fā)展歷史大語言模型的發(fā)展

2024-06-04 08:27:47

2712

谷歌發(fā)布新型大語言模型Gemma 2

在人工智能領(lǐng)域，大語言模型一直是研究的熱點。近日，全球科技巨頭谷歌宣布，面向全球研究人員和開發(fā)人員，正式發(fā)布了其最新研發(fā)的大語言模型——Gemma 2。這款模型以其高效能和低成本的特點，引起了業(yè)界的廣泛關(guān)注。

2024-06-29 09:48:32

966

如何加速大語言模型推理

隨著人工智能技術(shù)的飛速發(fā)展，大語言模型（LLM）已成為自然語言處理領(lǐng)域的核心工具，廣泛應(yīng)用于智能客服、文本生成、機(jī)器翻譯等多個場景。然而，大語言模型的高計算復(fù)雜度和資源消耗成為其在實際應(yīng)用中面臨

2024-07-04 17:32:04

1976

基于神經(jīng)網(wǎng)絡(luò)的語言模型有哪些

基于神經(jīng)網(wǎng)絡(luò)的語言模型（Neural Language Models, NLMs）是現(xiàn)代自然語言處理（NLP）領(lǐng)域的一個重要組成部分，它們通過神經(jīng)網(wǎng)絡(luò)來捕捉語言的統(tǒng)計特性和語義信息，從而生成自然語言

2024-07-10 11:15:53

2105

Transformer語言模型簡介與實現(xiàn)過程

在自然語言處理（NLP）領(lǐng)域，Transformer模型以其卓越的性能和廣泛的應(yīng)用前景，成為了近年來最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出，并首次應(yīng)用于神經(jīng)機(jī)器翻譯

2024-07-10 11:48:45

3835

大語言模型的預(yù)訓(xùn)練

隨著人工智能技術(shù)的飛速發(fā)展，自然語言處理（NLP）作為人工智能領(lǐng)域的一個重要分支，取得了顯著的進(jìn)步。其中，大語言模型（Large Language Model, LLM）憑借其強(qiáng)大的語言理解和生成

2024-07-11 10:11:52

1581

谷歌全新推出開放式視覺語言模型PaliGemma

這種熱烈的反響非常鼓舞人心，開發(fā)者們打造了一系列多樣的項目，例如用于印度語言的多語言變體 Navarasa，以及設(shè)備端側(cè)動作模型 Octopus v2。開發(fā)者們展示了 Gemma 在打造極具影響力且易于使用的 AI 解決方案方面的巨大潛力。

2024-10-15 17:37:04

1544

Llama 3 語言模型應(yīng)用

在人工智能領(lǐng)域，語言模型的發(fā)展一直是研究的熱點。隨著技術(shù)的不斷進(jìn)步，我們見證了從簡單的關(guān)鍵詞匹配到復(fù)雜的上下文理解的轉(zhuǎn)變。一、Llama 3 語言模型的核心功能上下文理解：Llama 3 能夠

2024-10-27 14:15:51

1221

大語言模型如何開發(fā)

大語言模型的開發(fā)是一個復(fù)雜且細(xì)致的過程，涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計、訓(xùn)練、微調(diào)和部署等多個階段。以下是對大語言模型開發(fā)步驟的介紹，由AI部落小編整理發(fā)布。

2024-11-04 10:14:43

955

使用vLLM+OpenVINO加速大語言模型推理

隨著大語言模型的廣泛應(yīng)用，模型的計算需求大幅提升，帶來推理時延高、資源消耗大等挑戰(zhàn)。

2024-11-15 14:20:19

2193

語言模型自動化的優(yōu)點

語言模型自動化不僅優(yōu)化了信息處理流程，提高了工作效率，還促進(jìn)了跨文化交流，增強(qiáng)了人機(jī)交互的智能化水平。以下，是對語言模型自動化優(yōu)點的梳理，由AI部落小編梳理。

2024-11-26 11:17:01

737

大語言模型優(yōu)化生成管理方法

大語言模型的優(yōu)化生成管理是一個系統(tǒng)工程，涉及模型架構(gòu)、數(shù)據(jù)處理、內(nèi)容控制、實時響應(yīng)以及倫理監(jiān)管等多個層面。以下，是對大語言模型優(yōu)化生成管理方法的梳理，由AI部落小編整理。

2024-12-02 10:45:10

765

云端語言模型開發(fā)方法

云端語言模型的開發(fā)是一個復(fù)雜而系統(tǒng)的過程，涉及數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練優(yōu)化、部署應(yīng)用等多個環(huán)節(jié)。下面，AI部落小編為您分享云端語言模型的開發(fā)方法。

2024-12-02 10:48:50

964

大語言模型開發(fā)語言是什么

在人工智能領(lǐng)域，大語言模型（Large Language Models, LLMs）背后，離不開高效的開發(fā)語言和工具的支持。下面，AI部落小編為您介紹大語言模型開發(fā)所依賴的主要編程語言。

2024-12-04 11:44:41

1150

如何優(yōu)化自然語言處理模型的性能

優(yōu)化自然語言處理（NLP）模型的性能是一個多方面的任務(wù)，涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個環(huán)節(jié)。以下是一些具體的優(yōu)化策略：一、數(shù)據(jù)預(yù)處理優(yōu)化文本清洗：去除文本中

2024-12-05 15:30:52

2614

大語言模型開發(fā)框架是什么

大語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面，AI部落小編為您介紹大語言模型開發(fā)框架。

2024-12-06 10:28:43

926

NaVILA：加州大學(xué)與英偉達(dá)聯(lián)合發(fā)布新型視覺語言模型

日前，加州大學(xué)的研究人員攜手英偉達(dá)，共同推出了一款創(chuàng)新的視覺語言模型——NaVILA。該模型在機(jī)器人導(dǎo)航領(lǐng)域展現(xiàn)出了獨特的應(yīng)用潛力，為智能機(jī)器人的自主導(dǎo)航提供了一種全新的解決方案。視覺語言模型

2024-12-13 10:51:22

1007

AI大語言模型開發(fā)步驟

開發(fā)一個高效、準(zhǔn)確的大語言模型是一個復(fù)雜且多階段的過程，涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計、訓(xùn)練與優(yōu)化、評估與調(diào)試等多個環(huán)節(jié)。接下來，AI部落小編為大家詳細(xì)闡述AI大語言模型的開發(fā)步驟。

2024-12-19 11:29:22

1321

語言模型管理的作用

要充分發(fā)揮語言模型的潛力，有效的語言模型管理非常重要。以下，是對語言模型管理作用的分析，由AI部落小編整理。

2025-01-02 11:06:37

618

望獲實時Linux系統(tǒng)與大語言模型深度融合，開創(chuàng)實時智能無限可能！

控制領(lǐng)域，大語言模型能夠顯著提升控制系統(tǒng)的智能化水平，確保實時性的同時實現(xiàn)高質(zhì)量的人機(jī)交互，為具身機(jī)器人、智能駕駛等對實時性和智能化有強(qiáng)烈需求的場景提供理想的解決方案。然而，大語言模型在與傳統(tǒng)實時操作系統(tǒng)結(jié)

2025-01-08 13:44:44

1090

一文詳解視覺語言模型

視覺語言模型（VLM）是一種多模態(tài)、生成式 AI 模型，能夠理解和處理視頻、圖像和文本。

2025-02-12 11:13:18

3479

大語言模型的解碼策略與關(guān)鍵優(yōu)化總結(jié)

本文系統(tǒng)性地闡述了大型語言模型(LargeLanguageModels,LLMs)中的解碼策略技術(shù)原理及其實踐應(yīng)用。通過深入分析各類解碼算法的工作機(jī)制、性能特征和優(yōu)化方法，為研究者和工程師提供了全面

2025-02-18 12:00:33

1182

小白學(xué)大模型：訓(xùn)練大語言模型的深度指南

在當(dāng)今人工智能飛速發(fā)展的時代，大型語言模型（LLMs）正以其強(qiáng)大的語言理解和生成能力，改變著我們的生活和工作方式。在最近的一項研究中，科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У赜?xùn)練大型語言模型，進(jìn)行了超過

2025-03-03 11:51:04

1299

?VLM（視覺語言模型）?詳細(xì)解析

視覺語言模型（Visual Language Model, VLM）是一種結(jié)合視覺（圖像/視頻）和語言（文本）處理能力的多模態(tài)人工智能模型，能夠理解并生成與視覺內(nèi)容相關(guān)的自然語言。以下是關(guān)于VLM

2025-03-17 15:32:40

7974

小白學(xué)大模型：從零實現(xiàn) LLM語言模型

在當(dāng)今人工智能領(lǐng)域，大型語言模型（LLM）的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù)，能夠生成自然語言文本，完成各種復(fù)雜的任務(wù)，如寫作、翻譯、問答等。https

2025-04-30 18:34:25

1138

思必馳空調(diào)大模型解決方案

這不是幻想，是基于思必馳空調(diào)大模型解決方案發(fā)生的真實體驗，該方案深度融合了思必馳自研的全鏈路智能語音交互技術(shù)與對話式語言大模型DFM，它不僅能“聽見”指令，更能“聽懂”情緒，根據(jù)用戶的習(xí)慣和喜好智能調(diào)節(jié)溫度、風(fēng)速、模式等，真正做到懂你所想。

2025-07-31 17:46:03

824

已全部加載完成

搜索歷史

Recursive prompting增強(qiáng)語言模型方案

評論