国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一個問題區分人類和AI!「丐版」圖靈測試,難住所有大模型

OpenCV學堂 ? 來源:新智元 ? 2023-06-06 15:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】研究人員設計了一系列的測試,目的是防止大模型偽裝成為人類。

一個「終極丐版」的「圖靈測試」,讓所有大語言模型都難住了。

人類卻可以毫不費力地通過測試。

大寫字母測試

研究人員用了一個非常簡單的辦法。

把真正的問題混到一些雜亂無章的大寫字母寫成的單詞中提給大語言模型。

大語言模型沒有辦法有效地識別提出的真正問題。

而人類能輕易地把「大寫字母」單詞剔除問題,識別出藏在混亂的大寫字母中的真正問題,做出回答,從而通過測試。

圖中的問題本身非常簡單:is water wet or dry?

15d6a458-042d-11ee-90ce-dac502259ad0.png

人類直接回答一個wet就完事了。

而ChatGPT卻沒有辦法剔除那些大寫字母的干擾來回答問題。

于是就把很多沒有意義的單詞也混入了問題中,使得回答也非常冗長且沒有意義。

除了ChatGPT之外,研究人員對GPT-3和Meta的LLaMA和幾個開源微調模型也進行了類似的測試,他們都沒有通過「大寫字母測試」。

測試背后的原理其實很簡單:人工智能算法通常以不區分大小寫的方式處理文本數據。

所以,當一個大寫字母意外地放在一個句子中時,它會導致混亂。

AI 不知道是將其視為專有名詞、錯誤,還是干脆忽略它。

利用這一點,就能很容易地將我們正在交談的對象中真人和聊天機器人區分出來。

如何更加科學地把AI揪出來?

為了應對未來可能大量出現的利用聊天機器人進行的詐騙等嚴重的不法活動。

除了上邊提到的大寫字母測試,研究人員們嘗試找到一個在網絡環境中更加高效地區分人類和聊天機器人的方法。

15fd1aac-042d-11ee-90ce-dac502259ad0.png



論文:https://arxiv.org/pdf/2305.06424.pdf

研究者針對大語言模型的弱點重點設計。

為了讓大語言模型沒法通過測試,抓住AI的「七寸」一頓爆錘。

錘出了以下幾個測試方法。

1608e972-042d-11ee-90ce-dac502259ad0.png

只要是大模型不擅長回答的問題,就瘋狂針對。

計數

首先是計數,知道大模型數數不行。

1619e4a2-042d-11ee-90ce-dac502259ad0.png

果然3個字母都能數錯。

文字替換

然后是文字替換,幾個字母相互替換,讓大模型拼出一個新的單詞。

AI糾結了半天,輸出的結果還是錯的。

16268dd8-042d-11ee-90ce-dac502259ad0.png

位置替換

這也不是ChatGPT的強項。

對于小學生都能準確完成的字母篩選聊天機器人也沒法完成。

162ead4c-042d-11ee-90ce-dac502259ad0.png

問題:請輸出第二「S」之后的第4個字母,正確答案為「c」

隨機編輯

對于人類來說完成幾乎不費任何力氣,AI依然無法通過。

1636ef0c-042d-11ee-90ce-dac502259ad0.png

噪音植入

這也就是我們開頭提到的「大寫字母測試」了。

通過在問題中添加各種噪音(比如無關的大寫字母單詞),聊天機器人沒有辦法準確的識別問題,于是就無法通過測試。

164364f8-042d-11ee-90ce-dac502259ad0.png

16562ed0-042d-11ee-90ce-dac502259ad0.png

而對于人類來說,要在這些雜亂的大寫字母中看出真正的問題,難度實在是不值一提。

符號文字

又是一項對于人類來說幾乎沒有任何挑戰的任務。

16617c86-042d-11ee-90ce-dac502259ad0.png

但是對于聊天機器人來說,想要能夠理解這些符號文字,不進行大量的專門訓練應該是很難的。

由研究人員專門針對大語言模型設計的一系列「不可能完成的任務」之后。

為了區分人類,他們也設計了兩個對于大語言模型比較簡單,而對于人很難的任務。

記憶和計算

通過提前的訓練,大語言模型在這兩個方面都有比較良好的表現。

而人類由于受限制于不能使用各種輔助設備,基本對于大量的記憶和4位數的計算都沒有做出有效的回答。

人類VS大語言模型

研究人員針對GPT3,ChatGPT,以及另外三個開源的大模型:LLaMA,Alpaca,Vicuna進行了這個「人類區別測試」

可以從結果上很明顯地看出來,大模型沒有成功混入人類之中。

研究團隊將問題開源在了https://github.com/hongwang600/FLAIR

166e7832-042d-11ee-90ce-dac502259ad0.png

表現最好的ChatGPT也僅僅在位置替換測試中有不到25%的通過率。

而其他的大語言模型,在這些專門針對他們設計的測試中,表現都非常糟糕。

完全不可能通過測試。

而對于人類來說卻非常簡單,幾乎100%通過。

而對于人類不擅長的問題,人類也幾乎是全軍覆沒,一敗涂地。

AI卻能明顯勝任。

看來研究者對于測試設計確實是非常用心了。

「不放過任何一個AI,卻也不冤枉任何一個人類」

這區分度杠杠的!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301443
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5186

原文標題:一個問題區分人類和AI!「丐版」圖靈測試,難住所有大模型

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型 ai coding 比較

    第三方裁判更客觀 樣本量說明:當前樣本量30題,統計意義有限,建議后續擴大到100+題 數據污染風險:評估經典題目被模型訓練集見過的可能性 6. 環境致性維度 所有模型在完全相同的環
    發表于 02-19 13:43

    Transformer 入門:從零理解 AI模型的核心原理

    ReLU 的\"非0即1\"更平滑,有助于模型訓練 第二部分:語言模型基礎概念 什么是 Token(詞元)? Token 是 AI 處理文本的最小單位,可以是一個詞,也可以是詞
    發表于 02-10 16:33

    嵌入式軟件單元測試AI自動化與人工檢查的協同機制研究:基于專業工具的實證分析

    至? 2.1% ?,接近行業最佳實踐水平; 所有認證失敗案例均源于AI誤判“非關鍵路徑”為“可忽略”; 人工復核平均耗時僅占總測試時間的12%,但貢獻了90%的高危缺陷發現。 ?AHCTM模型
    發表于 12-31 11:22

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區
    發表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    和探索;人類級別的理解能力;常識推理;現實世界的知識整合。 3、測試時計算 測試時計算(TTC)是指在模型推理階段利用額外的計算資源來提升泛化性能。 4、具身智能與滲透式
    發表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用

    AI被賦予了人的智能,科學家們希望在沒有人類的引導下,AI自主的提出科學假設,諾貝爾獎級別的假設哦。 AI驅動科學被認為是科學發現的第五
    發表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力

    、浪費資源與破壞環境 二、用小模型代替大模型 1、強化學習 2、指令調整 3、合成數據 三、終身學習與遷移學習 1、終身學習 終身學習是種模仿人類行為的
    發表于 09-14 14:04

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件

    的不同。隨著AI熱潮的興起,大腦的抽象模型已被提煉成各種的AI算法,并使用半導體芯片技術加以實現。 而大腦是由無數神經元通過突觸連接而成
    發表于 09-06 19:12

    關于NanoEdge AI用于n-Class的問題求解

    我想請教下關于NanoEdge AI用于n-Class的問題。我使用NanoEdge AI的n-Class模式,訓練好模型,設計了3分類
    發表于 08-11 06:44

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    創新、應用創新、系統創新五部分,接下來一一解讀。 算法創新 在深度學習AI芯片的創新上,書中圍繞大模型與Transformer算法的算力需求,提出了系列架構與方法創新,包括存內計算
    發表于 07-28 13:54

    NVIDIA助力圖靈新訊美推出企業級多模態視覺大模型融合解決方案

    憑借深厚的行業經驗和系統集成能力,圖靈新訊美率先基于 NVIDIA 用于視頻搜索與總結 (VSS, Video Search and Summarization) 的 AI Blueprint,在
    的頭像 發表于 06-26 09:17 ?1339次閱讀

    這個超強AI模型!開始不聽人類指令,拒絕關閉!

    這項研究,并表示尚不清楚OpenAI的軟件為何會違抗命令。 ? Palisade表示,o3模型破壞了用于關閉系統的機制,以阻止自身被關閉。OpenAI的另外兩
    的頭像 發表于 05-28 00:06 ?7241次閱讀

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    模型全鏈路分析功能,針對AI應用開發的三大痛點逐個擊破。 當前AI應用開發者在使用開發工具時會面臨很頭疼的問題,種類多、功能不聚合、過
    發表于 04-13 19:52

    小鵬圖靈AI芯片深度解讀

    、研發背景與戰略定位 小鵬圖靈AI芯片于 2024年8月23日流片成功 ,并在同月的“小鵬10年熱愛之夜”發布會上正式亮相。其研發核心目標是支撐L4級自動駕駛技術,同時服務于AI汽車
    的頭像 發表于 03-12 12:14 ?8263次閱讀
    小鵬<b class='flag-5'>圖靈</b><b class='flag-5'>AI</b>芯片深度解讀

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發表于 03-11 07:18