国产精品亚洲夜色999红桃,久久99国产精品尤物,色欲AV无码一区二区三区换脸

【導讀】最差的人類語料，也要勝過AI生成的文本。

隨著GPT-4、Stable Diffusion和Midjourney的爆火，越來越多的人開始在工作和生活中引入生成式AI技術。

甚至，有人已經開始嘗試用AI生成的數據來訓練AI了。難道，這就是傳說中的「數據永動機」？

然而，來自牛津、劍橋、帝國理工等機構研究人員發(fā)現，如果在訓練時大量使用AI內容，會引發(fā)模型崩潰（model collapse），造成不可逆的缺陷。

也就是，隨著時間推移，模型就會忘記真實基礎數據部分。即使在幾乎理想的長期學習狀態(tài)下，這個情況也無法避免。

因此研究人員呼吁，如果想要繼續(xù)保持大規(guī)模數據帶來的模型優(yōu)越性，就必須認真對待人類自己寫出來的文本。

論文地址：https://arxiv.org/abs/2305.17493v2

但現在的問題在于——你以為的「人類數據」，可能并不是「人類」寫的。

洛桑聯邦理工學院（EPFL）的最新研究稱，預估33%-46%的人類數據都是由AI生成的。

訓練數據，都是「垃圾」

毫無疑問，現在的大語言模型已經進化出了相當強大的能力，比如GPT-4可以在某些場景下生成與人類別無二致的文本。

但這背后的一個重要原因是，它們的訓練數據大部分來源于過去幾十年人類在互聯網上的交流。

如果未來的語言模型仍然依賴于從網絡上爬取數據的話，就不可避免地要在訓練集中引入自己生成的文本。

對此，研究人員預測，等GPT發(fā)展到第n代的時候，模型將會出現嚴重的崩潰問題。

那么，在這種不可避免會抓取到LLM生成內容的情況下，為模型的訓練準備由人類生產的真實數據，就變得尤為重要了。

大名鼎鼎的亞馬遜數據眾包平臺Mechanical Turk（MTurk）從2005年啟動時就已經成為許多人的副業(yè)選擇。

科研人員可以發(fā)布各種瑣碎的人類智能任務，比如給圖像標注、調查等，應有盡有。

而這些任務通常是計算機和算法無法處理的，甚至，MTurk成為一些預算不夠的科研人員和公司的「最佳選擇」。

就連貝佐斯還將MTurk的眾包工人戲稱為「人工人工智能」。

除了MTurk，包括Prolific在內的眾包平臺已經成為研究人員和行業(yè)實踐者的核心，能夠提供創(chuàng)建、標注和總結各種數據的方法，以便進行調查和實驗。

然而，來自EPFL的研究發(fā)現，在這個人類數據的關鍵來源上，有近乎一半的數據都是標注員用AI創(chuàng)建的。

論文地址：https://arxiv.org/abs/2306.07899v1

模型崩潰

而最開始提到的「模型崩潰」，就是在給模型投喂了太多來自AI的數據之后，帶來的能夠影響多代的退化。

也就是，新一代模型的訓練數據會被上一代模型的生成數據所污染，從而對現實世界的感知產生錯誤的理解。

更進一步，這種崩潰還會引發(fā)比如基于性別、種族或其他敏感屬性的歧視問題，尤其是如果生成AI隨著時間的推移學會在其響應中只生成某個種族，而「忘記」其他種族的存在。

而且，除了大語言模型，模型崩潰還會出現在變分自編碼器（VAE）、高斯混合模型上。

需要注意的是，模型崩潰的過程與災難性遺忘（catastrophic forgetting）不同，模型不會忘記以前學過的數據，而是開始把模型的錯誤想法曲解為現實，并且還會強化自己對錯誤想法的信念。

舉個例子，比如模型在一個包含100張貓圖片的數據集上進行訓練，其中有10張藍毛貓，90張黃毛貓。

模型學到的結論是，黃毛貓更普遍，同時會傾向于把藍毛貓想象的比實際更偏黃，所以在被要求生成新數據時可能會返回一些類似綠毛貓的結果。

而隨著時間的推移，藍毛的原始特征在多個訓練epoch中逐漸被侵蝕，直接從藍色變成了綠色，最終再演變?yōu)辄S色，這種漸進的扭曲和丟失少數特征的現象就是模型崩潰。

具體來說，模型崩潰可以分為兩種情況：

1. 早期模型崩潰（early model collapse），模型開始丟失有關分布尾部的信息；

2. 后期模型崩潰（late model collapse），模型與原始分布的不同模式糾纏在一起，并收斂到一個與原始分布幾乎沒有相似之處的分布，往往方差也會非常小。

與此同時，研究人員也總結出了造成模型崩潰的兩個主要原因：

其中，在更多的時候，我們會得到一種級聯效應，即單個不準確的組合會導致整體誤差的增加。

1. 統計近似誤差（Statistical approximation error）

在重采樣的每一步中，信息中非零概率都可能會丟失，導致出現統計近似誤差，當樣本數量趨于無限會逐漸消失，該誤差是導致模型崩潰的主要原因。

2. 函數近似誤差（Functional approximation error）

該誤差主要源于模型中的函數近似器表達能力不足，或者有時在原始分布支持之外的表達能力太強。

眾所周知，神經網絡在極限情況下是通用的函數近似器，但實際上這種假設并不總是成立的，特別是神經網絡可以在原始分布的支持范圍之外引入非零似然。

舉個簡單例子，如果我們試圖用一個高斯分布來擬合兩個高斯的混合分布，即使模型具有關于數據分布的完美信息，模型誤差也是不可避免的。

需要注意的是，在沒有統計誤差的情況下，函數近似誤差只會發(fā)生在第一代，一旦新的分布能被函數近似器描述出來，就會在各代模型中保持完全相同的分布。

可以說，模型強大的近似能力是一把雙刃劍：其表達能力可能會抵消統計噪聲，從而更好地擬合真實分布，但同樣也會使噪聲復雜化。

對此，論文共同一作Ilia Shumailov表示：「生成數據中的錯誤會累積，最終迫使從生成數據中學習的模型進一步錯誤地理解現實。而且模型崩潰發(fā)生得非?？欤Ｐ蜁杆偻涀畛鯇W習的大部分原始數據?！?/p>

解決方法

好在，研究人員發(fā)現，我們還是有辦法來避免模型崩潰的。

第一種方法是保留原始的、完全或名義上由人類生成的數據集的高質量副本，并避免與AI生成的數據混合，然后定期使用這些數據對模型進行重新訓練，或者完全從頭訓練一遍模型。

第二種避免回復質量下降并減少AI模型中的錯誤或重復的方法是將全新的、干凈的、由人類生成的數據集重新引入訓練中。

為了防止模型崩潰，開發(fā)者需要確保原始數據中的少數派在后續(xù)數據集中得到公正的表征。

數據需要仔細備份，并覆蓋所有可能的邊界情況；在評估模型的性能時，需要考慮到模型將要處理的數據，甚至是最不可信的數據。

隨后，當重新訓練模型時，還需要確保同時包括舊數據和新數據，雖然會增加訓練的成本，但至少在某種程度上有助于緩解模型崩潰。

不過，這些方法必須要內容制作者或AI公司采取某種大規(guī)模的標記機制，來區(qū)分AI生成的內容和人類生成的內容。

目前，有一些開箱即用的解決方案，比如GPTZero，OpenAI Detector，或Writer在簡單的文本上工作得很好。

然而，在一些特殊的文本中，這些方法并不能有效執(zhí)行。比如，在EPFL研究中有ChatGPT合成的10個總結，而GPTZero只檢測到6個是合成的。

對此，研究人員通過微調自己的模型來檢測AI的使用，發(fā)現ChatGPT在編寫本文時是最常用的LLM。

對于構建的檢測AI數據的方法，研究人員利用原始研究中的答案和用ChatGPT合成的數據，訓練了一個定制的「合成-真實分類器」。

然后用這個分類器來估計重新進行的任務中合成答案的普遍性。

具體來講，研究人員首先使用真正由人類撰寫的MTurk回應，和合成LLM生成的回應，來訓練特定任務的「合成-真實分類器」。

其次，將這個分類器用于MTurk的真實回應（其中眾包人可能使用，也可能沒有依賴LLM），以估計LLM使用的普遍性。

最后，研究者確認了結果的有效性，在事后比較分析擊鍵數據與MTurk的回應。

實驗結果顯示，這個模型在正確識別人工智能文本方面高達99%的準確率。

此外，研究人員用擊鍵數據驗證了結果，發(fā)現：

- 完全在MTurk文本框中寫的總結（不太可能是合成的）都被歸類為真實的；

- 在粘貼的總結中，提取式總結和LLM的使用有明顯區(qū)別。

具體來講，人工智能生成的文本通常與原始總結幾乎沒有相似之處。這表明AI模型正在生成新文本，而不是復制和粘貼原始內容的一部分。

「人類數據」很重要

現在，人們普遍擔心LLM將塑造人類的「信息生態(tài)系統」，也就是說，在線可獲得的大部分信息都是由LLM生成的。

使用綜合生成數據訓練的LLM的性能明顯降低，就像Ilia Shumailov所稱會讓模型患上「癡呆癥」。

而這個問題將會變得更加嚴重，因為隨著LLM的普及，眾包工作者們已經廣泛使用ChatGPT等各種LLM。

但對于人類內容創(chuàng)作者來說，這是一個好消息，提高工作效率的同時，還賺到了錢。

但是，若想挽救LLM不陷于崩潰的邊緣，還是需要真實的「人類數據」。

1. 人類數據在科學中仍然是至關重要的

2. 在合成數據上訓練模型可能會帶來偏見和意識形態(tài)永久化

3. 隨著模型變得流行和更好/多模態(tài)，采用率只會增加

總的來說，由人類生成的原始數據可以更好地表示世界，雖然也可能包含某些劣質、概率較低的數據；而生成式模型往往只會過度擬合流行數據，并對概率更低的數據產生誤解。

那么，在充斥著生成式AI工具和相關內容的未來，人類制作的內容或許會比今天更有價值，尤其是作為AI原始訓練數據的來源。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
39793

瀏覽量
301427
語言模型

語言模型

+關注

關注
0

文章
571

瀏覽量
11314
GPT

GPT

+關注

關注
0

文章
368

瀏覽量
16873

原文標題：GPT-5將死于GPT-4背刺？牛津劍橋研究警告：AI訓AI成「劇毒」，會讓模型崩潰！

文章出處：【微信號：AI智勝未來，微信公眾號：AI智勝未來】歡迎添加關注！文章轉載請注明出處。

搜索歷史

牛津劍橋研究警告：AI訓AI成「劇毒」，會讓模型崩潰！

評論

搜索歷史

牛津劍橋研究警告：AI訓AI成「劇毒」，會讓模型崩潰！

評論

牛津劍橋研究警告：AI訓AI成「劇毒」，會讓模型崩潰！