国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

牛津劍橋研究警告:AI訓AI成「劇毒」,會讓模型崩潰!

AI智勝未來 ? 來源:新智元 ? 2023-06-21 15:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】最差的人類語料,也要勝過AI生成的文本。

隨著GPT-4、Stable Diffusion和Midjourney的爆火,越來越多的人開始在工作和生活中引入生成式AI技術

甚至,有人已經開始嘗試用AI生成的數據來訓練AI了。難道,這就是傳說中的「數據永動機」?

然而,來自牛津、劍橋、帝國理工等機構研究人員發(fā)現,如果在訓練時大量使用AI內容,會引發(fā)模型崩潰(model collapse),造成不可逆的缺陷。

也就是,隨著時間推移,模型就會忘記真實基礎數據部分。即使在幾乎理想的長期學習狀態(tài)下,這個情況也無法避免。

因此研究人員呼吁,如果想要繼續(xù)保持大規(guī)模數據帶來的模型優(yōu)越性,就必須認真對待人類自己寫出來的文本。

036c6436-0c1d-11ee-962d-dac502259ad0.png

論文地址:https://arxiv.org/abs/2305.17493v2

但現在的問題在于——你以為的「人類數據」,可能并不是「人類」寫的。

洛桑聯邦理工學院(EPFL)的最新研究稱,預估33%-46%的人類數據都是由AI生成的。

037bd59c-0c1d-11ee-962d-dac502259ad0.png

訓練數據,都是「垃圾」

毫無疑問,現在的大語言模型已經進化出了相當強大的能力,比如GPT-4可以在某些場景下生成與人類別無二致的文本。

但這背后的一個重要原因是,它們的訓練數據大部分來源于過去幾十年人類在互聯網上的交流。

如果未來的語言模型仍然依賴于從網絡上爬取數據的話,就不可避免地要在訓練集中引入自己生成的文本。

對此,研究人員預測,等GPT發(fā)展到第n代的時候,模型將會出現嚴重的崩潰問題。

03d36c1c-0c1d-11ee-962d-dac502259ad0.png

那么,在這種不可避免會抓取到LLM生成內容的情況下,為模型的訓練準備由人類生產的真實數據,就變得尤為重要了。

大名鼎鼎的亞馬遜數據眾包平臺Mechanical Turk(MTurk)從2005年啟動時就已經成為許多人的副業(yè)選擇。

科研人員可以發(fā)布各種瑣碎的人類智能任務,比如給圖像標注、調查等,應有盡有。

而這些任務通常是計算機和算法無法處理的,甚至,MTurk成為一些預算不夠的科研人員和公司的「最佳選擇」。

就連貝佐斯還將MTurk的眾包工人戲稱為「人工人工智能」。

03efef9a-0c1d-11ee-962d-dac502259ad0.png

除了MTurk,包括Prolific在內的眾包平臺已經成為研究人員和行業(yè)實踐者的核心,能夠提供創(chuàng)建、標注和總結各種數據的方法,以便進行調查和實驗。

然而,來自EPFL的研究發(fā)現,在這個人類數據的關鍵來源上,有近乎一半的數據都是標注員用AI創(chuàng)建的。

0407fe3c-0c1d-11ee-962d-dac502259ad0.png

論文地址:https://arxiv.org/abs/2306.07899v1

模型崩潰

而最開始提到的「模型崩潰」,就是在給模型投喂了太多來自AI的數據之后,帶來的能夠影響多代的退化。

也就是,新一代模型的訓練數據會被上一代模型的生成數據所污染,從而對現實世界的感知產生錯誤的理解。

04445878-0c1d-11ee-962d-dac502259ad0.png

更進一步,這種崩潰還會引發(fā)比如基于性別、種族或其他敏感屬性的歧視問題,尤其是如果生成AI隨著時間的推移學會在其響應中只生成某個種族,而「忘記」其他種族的存在。

而且,除了大語言模型,模型崩潰還會出現在變分自編碼器(VAE)、高斯混合模型上。

需要注意的是,模型崩潰的過程與災難性遺忘(catastrophic forgetting)不同,模型不會忘記以前學過的數據,而是開始把模型的錯誤想法曲解為現實,并且還會強化自己對錯誤想法的信念。

0458d26c-0c1d-11ee-962d-dac502259ad0.png

舉個例子,比如模型在一個包含100張貓圖片的數據集上進行訓練,其中有10張藍毛貓,90張黃毛貓。

模型學到的結論是,黃毛貓更普遍,同時會傾向于把藍毛貓想象的比實際更偏黃,所以在被要求生成新數據時可能會返回一些類似綠毛貓的結果。

而隨著時間的推移,藍毛的原始特征在多個訓練epoch中逐漸被侵蝕,直接從藍色變成了綠色,最終再演變?yōu)辄S色,這種漸進的扭曲和丟失少數特征的現象就是模型崩潰。

048caa74-0c1d-11ee-962d-dac502259ad0.png

具體來說,模型崩潰可以分為兩種情況:

1. 早期模型崩潰(early model collapse),模型開始丟失有關分布尾部的信息;

2. 后期模型崩潰(late model collapse),模型與原始分布的不同模式糾纏在一起,并收斂到一個與原始分布幾乎沒有相似之處的分布,往往方差也會非常小。

與此同時,研究人員也總結出了造成模型崩潰的兩個主要原因:

其中,在更多的時候,我們會得到一種級聯效應,即單個不準確的組合會導致整體誤差的增加。

1. 統計近似誤差(Statistical approximation error)

在重采樣的每一步中,信息中非零概率都可能會丟失,導致出現統計近似誤差,當樣本數量趨于無限會逐漸消失,該誤差是導致模型崩潰的主要原因。

0498afea-0c1d-11ee-962d-dac502259ad0.png

2. 函數近似誤差(Functional approximation error)

該誤差主要源于模型中的函數近似器表達能力不足,或者有時在原始分布支持之外的表達能力太強。

眾所周知,神經網絡在極限情況下是通用的函數近似器,但實際上這種假設并不總是成立的,特別是神經網絡可以在原始分布的支持范圍之外引入非零似然。

舉個簡單例子,如果我們試圖用一個高斯分布來擬合兩個高斯的混合分布,即使模型具有關于數據分布的完美信息,模型誤差也是不可避免的。

需要注意的是,在沒有統計誤差的情況下,函數近似誤差只會發(fā)生在第一代,一旦新的分布能被函數近似器描述出來,就會在各代模型中保持完全相同的分布。

04a94d32-0c1d-11ee-962d-dac502259ad0.png

可以說,模型強大的近似能力是一把雙刃劍:其表達能力可能會抵消統計噪聲,從而更好地擬合真實分布,但同樣也會使噪聲復雜化。

對此,論文共同一作Ilia Shumailov表示:「生成數據中的錯誤會累積,最終迫使從生成數據中學習的模型進一步錯誤地理解現實。而且模型崩潰發(fā)生得非??欤P蜁杆偻涀畛鯇W習的大部分原始數據?!?/p>

解決方法

好在,研究人員發(fā)現,我們還是有辦法來避免模型崩潰的。

第一種方法是保留原始的、完全或名義上由人類生成的數據集的高質量副本,并避免與AI生成的數據混合,然后定期使用這些數據對模型進行重新訓練,或者完全從頭訓練一遍模型。

第二種避免回復質量下降并減少AI模型中的錯誤或重復的方法是將全新的、干凈的、由人類生成的數據集重新引入訓練中。

為了防止模型崩潰,開發(fā)者需要確保原始數據中的少數派在后續(xù)數據集中得到公正的表征。

數據需要仔細備份,并覆蓋所有可能的邊界情況;在評估模型的性能時,需要考慮到模型將要處理的數據,甚至是最不可信的數據。

隨后,當重新訓練模型時,還需要確保同時包括舊數據和新數據,雖然會增加訓練的成本,但至少在某種程度上有助于緩解模型崩潰。

不過,這些方法必須要內容制作者或AI公司采取某種大規(guī)模的標記機制,來區(qū)分AI生成的內容和人類生成的內容。

目前,有一些開箱即用的解決方案,比如GPTZero,OpenAI Detector,或Writer在簡單的文本上工作得很好。

04fa8ecc-0c1d-11ee-962d-dac502259ad0.png

然而,在一些特殊的文本中,這些方法并不能有效執(zhí)行。比如,在EPFL研究中有ChatGPT合成的10個總結,而GPTZero只檢測到6個是合成的。

對此,研究人員通過微調自己的模型來檢測AI的使用,發(fā)現ChatGPT在編寫本文時是最常用的LLM。

對于構建的檢測AI數據的方法,研究人員利用原始研究中的答案和用ChatGPT合成的數據,訓練了一個定制的「合成-真實分類器」。

然后用這個分類器來估計重新進行的任務中合成答案的普遍性。

050ebece-0c1d-11ee-962d-dac502259ad0.png

具體來講,研究人員首先使用真正由人類撰寫的MTurk回應,和合成LLM生成的回應,來訓練特定任務的「合成-真實分類器」。

其次,將這個分類器用于MTurk的真實回應(其中眾包人可能使用,也可能沒有依賴LLM),以估計LLM使用的普遍性。

最后,研究者確認了結果的有效性,在事后比較分析擊鍵數據與MTurk的回應。

實驗結果顯示,這個模型在正確識別人工智能文本方面高達99%的準確率。

此外,研究人員用擊鍵數據驗證了結果,發(fā)現:

- 完全在MTurk文本框中寫的總結(不太可能是合成的)都被歸類為真實的;

- 在粘貼的總結中,提取式總結和LLM的使用有明顯區(qū)別。

0524540a-0c1d-11ee-962d-dac502259ad0.png

具體來講,人工智能生成的文本通常與原始總結幾乎沒有相似之處。這表明AI模型正在生成新文本,而不是復制和粘貼原始內容的一部分。

「人類數據」很重要

現在,人們普遍擔心LLM將塑造人類的「信息生態(tài)系統」,也就是說,在線可獲得的大部分信息都是由LLM生成的。

使用綜合生成數據訓練的LLM的性能明顯降低,就像Ilia Shumailov所稱會讓模型患上「癡呆癥」。

而這個問題將會變得更加嚴重,因為隨著LLM的普及,眾包工作者們已經廣泛使用ChatGPT等各種LLM。

但對于人類內容創(chuàng)作者來說,這是一個好消息,提高工作效率的同時,還賺到了錢。

但是,若想挽救LLM不陷于崩潰的邊緣,還是需要真實的「人類數據」。

1. 人類數據在科學中仍然是至關重要的

2. 在合成數據上訓練模型可能會帶來偏見和意識形態(tài)永久化

3. 隨著模型變得流行和更好/多模態(tài),采用率只會增加

總的來說,由人類生成的原始數據可以更好地表示世界,雖然也可能包含某些劣質、概率較低的數據;而生成式模型往往只會過度擬合流行數據,并對概率更低的數據產生誤解。

那么,在充斥著生成式AI工具和相關內容的未來,人類制作的內容或許會比今天更有價值,尤其是作為AI原始訓練數據的來源。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301427
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11314
  • GPT
    GPT
    +關注

    關注

    0

    文章

    368

    瀏覽量

    16873

原文標題:GPT-5將死于GPT-4背刺?牛津劍橋研究警告:AI訓AI成「劇毒」,會讓模型崩潰!

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型 ai coding 比較

    序 我主要用途是 ai coding,從各種渠道獲取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    發(fā)表于 02-19 13:43

    Transformer 入門:從零理解 AI模型的核心原理

    模型更容易學習 直觀理解 css 體驗AI代碼助手 代碼解讀 復制代碼 ?? 溫度計類比: 原始點積就像測量火山溫度,數值太極端 縮放后就像測量室溫,數值更合理 ? 考試分數類比: 原始:[0
    發(fā)表于 02-10 16:33

    使用NORDIC AI的好處

    不依賴持續(xù)聯網,整體系統可靠性更高。[Edge AI 概述; Nordic Edge AI 技術頁] 覆蓋從“小 MCU”到“高性能 SoC”的完整產品線 Neuton 模型 :超小模型
    發(fā)表于 01-31 23:16

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    解決人類智能無法解決的復雜問題。實現AGI的AI相關研究機構和企業(yè)的主要目標。 一、生成式AI點燃AGI之火 CHatGPT就是已經取得成功的生成式AI技術。很多人都充滿了信心,相信不
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    和關聯性 AI驅動科學:研究和模擬人類思維和認識過程。 本章節(jié)作者為我們講解了第五范式,介紹了科學發(fā)現的一般方法和流程等。一、科學發(fā)現的5個范式 第一范式:產生于公元1000年左右的阿拉伯世界和歐洲
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力

    本章節(jié)作者分析了下AI的未來在哪里,就目前而言有來那個兩種思想:①繼續(xù)增加大模型②將大模型改為小模型,并將之優(yōu)化使之與大模型性能不不相上下。
    發(fā)表于 09-14 14:04

    皓麗全球首款四攝AI會議平板:AI全視之眼 + AI模型雙加持

    2025年,智能會議設備市場迎來里程碑式突破——連續(xù)多年蟬聯電商銷量冠軍的皓麗(Horion)正式推出全球首款四攝AI會議平板,以“AI全視之眼+AI
    的頭像 發(fā)表于 09-10 12:36 ?937次閱讀
    皓麗全球首款四攝<b class='flag-5'>AI</b>會議平板:<b class='flag-5'>AI</b>全視之眼 + <b class='flag-5'>AI</b>智<b class='flag-5'>會</b>大<b class='flag-5'>模型</b>雙加持

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    生物化學計算機,它通過離子、分子間的相互作用來進行復雜的并行計算。因而未來可期的前景是AI硬件將走向AI濕件。 根據研究,估算出大腦的功率是20W,在進行智力活動時,其功率增大到25
    發(fā)表于 09-06 19:12

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內容總覽

    ,其中第一章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰(zhàn)。第二章和第三章分別介紹實現深度學習AI芯片的創(chuàng)新方法和架構。以及一些新型的算法和思路。第四章是全面介紹半導體芯產業(yè)的前沿技術,包括新型晶體管
    發(fā)表于 09-05 15:10

    AI的未來,屬于那些既能寫代碼,又能焊電路的“雙棲人才”

    “部署能力”:如何10億參數的模型跑在單片機上?如何在攝像頭模組內集成AI識別功能?如何車規(guī)級芯片既算得快又能量產?這些問題,算法科學家解決不了,得靠軟硬一體的工程師團隊。我們在現
    發(fā)表于 07-30 16:15

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    DeepSeek,大模型應用密集出現、頻繁升級,這作者意識到有必要撰寫一本新的AI芯片圖書,以緊跟時代步伐、介紹新興領域和最新動向。 這就是《AI芯片:前沿技術與創(chuàng)新未來》的姊妹篇—
    發(fā)表于 07-28 13:54

    Deepseek海思SD3403邊緣計算AI產品系統

    的訓練樣本和訓練 模型,具體商業(yè)價值和保密性,采用海思SD3403邊緣計算AI服務器+多路安防監(jiān)控IPC,差異化AI視頻系統, 成本控制極具市場競爭力。 海思SD3403邊緣計算
    發(fā)表于 04-28 11:05

    首創(chuàng)開源架構,天璣AI開發(fā)套件端側AI模型接入得心應手

    Studio提供了最優(yōu)解。Neuron Studio可針對模型到應用,提供一站式、全鏈路、自動化的開發(fā)協助,不僅AI應用開發(fā)的全流程可視化,更帶來整個多種工具的一站式開發(fā)能力,還支持神經網絡自動化調優(yōu)和跨
    發(fā)表于 04-13 19:52

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18