這就是 GPT 的「抽象」,和人類的抽象不太一樣。
雖然 ChatGPT 似乎讓人類正在接近重新創(chuàng)造智慧,但迄今為止,我們從來就沒有完全理解智能是什么,不論自然的還是人工的。
認(rèn)識(shí)智慧的原理顯然很有必要,如何理解大語言模型的智力?OpenAI 給出的解決方案是:問問 GPT-4 是怎么說的。
5 月 9 日,OpenAI 發(fā)布了最新研究,其使用 GPT-4 自動(dòng)進(jìn)行大語言模型中神經(jīng)元行為的解釋,獲得了很多有趣的結(jié)果。

可解釋性研究的一種簡單方法是首先了解 AI 模型各個(gè)組件(神經(jīng)元和注意力頭)在做什么。傳統(tǒng)的方法是需要人類手動(dòng)檢查神經(jīng)元,以確定它們代表數(shù)據(jù)的哪些特征。這個(gè)過程很難擴(kuò)展,將它應(yīng)用于具有數(shù)百或數(shù)千億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)的成本過于高昂。
所以 OpenAI 提出了一種自動(dòng)化方法 —— 使用 GPT-4 來生成神經(jīng)元行為的自然語言解釋并對其進(jìn)行評分,并將其應(yīng)用于另一種語言模型中的神經(jīng)元 —— 此處他們選擇了 GPT-2 為實(shí)驗(yàn)樣本,并公開了這些 GPT-2 神經(jīng)元解釋和分?jǐn)?shù)的數(shù)據(jù)集。

論文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
GPT-2 神經(jīng)元圖:https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html
代碼與數(shù)據(jù)集:https://github.com/openai/automated-interpretability
這項(xiàng)技術(shù)讓人們能夠利用 GPT-4 來定義和自動(dòng)測量 AI 模型的可解釋性這個(gè)定量概念:它用來衡量語言模型使用自然語言壓縮和重建神經(jīng)元激活的能力。由于定量的特性,我們現(xiàn)在可以衡量理解神經(jīng)網(wǎng)絡(luò)計(jì)算目標(biāo)的進(jìn)展了。
OpenAI 表示,利用他們設(shè)立的基準(zhǔn),用 AI 解釋 AI 的分?jǐn)?shù)能達(dá)到接近于人類的水平。

OpenAI 聯(lián)合創(chuàng)始人 Greg Brockman 也表示,我們邁出了使用 AI 進(jìn)行自動(dòng)化對齊研究的重要一步。
具體方法
使用 AI 解釋 AI 的方法包括在每個(gè)神經(jīng)元上運(yùn)行三個(gè)步驟:
步驟一:用 GPT-4 生成解釋

給定一個(gè) GPT-2 神經(jīng)元,通過向 GPT-4 展示相關(guān)文本序列和激活來生成對其行為的解釋。
模型生成的解釋:對電影、角色和娛樂的引用。
步驟二:使用 GPT-4 進(jìn)行模擬
再次使用 GPT-4,模擬被解釋的神經(jīng)元會(huì)做什么。

步驟三:對比
根據(jù)模擬激活與真實(shí)激活的匹配程度對解釋進(jìn)行評分 —— 在這個(gè)例子上,GPT-4 的得分為 0.34。


主要發(fā)現(xiàn)
使用自己的評分方法,OpenAI 開始衡量他們的技術(shù)對網(wǎng)絡(luò)不同部分的效果,并嘗試針對目前解釋不清楚的部分改進(jìn)技術(shù)。例如,他們的技術(shù)對較大的模型效果不佳,可能是因?yàn)楹竺娴膶痈y解釋。

OpenAI 表示,雖然他們的絕大多數(shù)解釋得分不高,但他們相信自己現(xiàn)在可以使用 ML 技術(shù)來進(jìn)一步提高他們產(chǎn)生解釋的能力。例如,他們發(fā)現(xiàn)以下方式有助于提高分?jǐn)?shù):
迭代解釋。他們可以通過讓 GPT-4 想出可能的反例,然后根據(jù)其激活情況修改解釋來提高分?jǐn)?shù)。
使用更大的模型來進(jìn)行解釋。隨著解釋模型(explainer model)能力的提升,平均得分也會(huì)上升。然而,即使是 GPT-4 給出的解釋也比人類差,這表明還有改進(jìn)的余地。
改變被解釋模型(explained model)的架構(gòu)。用不同的激活函數(shù)訓(xùn)練模型提高了解釋分?jǐn)?shù)。
OpenAI 表示,他們正在將 GPT-4 編寫的對 GPT-2 中的所有 307,200 個(gè)神經(jīng)元的解釋的數(shù)據(jù)集和可視化工具開源。同時(shí),他們還提供了使用 OpenAI API 上公開可用的模型進(jìn)行解釋和評分的代碼。他們希望研究界能夠開發(fā)出新的技術(shù)來生成更高分的解釋,同時(shí)開發(fā)出更好的工具來通過解釋探索 GPT-2。
他們發(fā)現(xiàn),有超過 1000 個(gè)神經(jīng)元的解釋得分至少為 0.8 分,這意味著根據(jù) GPT-4,它們占據(jù)了神經(jīng)元的大部分頂級激活行為。這些得到很好解釋的神經(jīng)元中的大多數(shù)都不是很有趣。然而,他們也發(fā)現(xiàn)了許多有趣但 GPT-4 并不理解的神經(jīng)元。OpenAI 希望隨著解釋的改進(jìn),他們可能會(huì)迅速發(fā)現(xiàn)對模型計(jì)算的有趣的定性理解。
以下是一些不同層神經(jīng)元被激活的例子,更高的層更抽象:




看起來,GPT 理解的概念和人類不太一樣?
OpenAI 未來工作
目前,該方法還存在一些局限性,OpenAI 希望在未來的工作中可以解決這些問題:
該方法專注于簡短的自然語言解釋,但神經(jīng)元可能具有非常復(fù)雜的行為,因而用簡潔地語言無法描述;
OpenAI 希望最終自動(dòng)找到并解釋整個(gè)神經(jīng)回路實(shí)現(xiàn)復(fù)雜的行為,神經(jīng)元和注意力頭一起工作。目前的方法只是將神經(jīng)元的行為解釋為原始文本輸入的函數(shù),而沒有說明其下游影響。例如,一個(gè)在周期(period)上激活的神經(jīng)元可以指示下一個(gè)單詞應(yīng)該以大寫字母開頭,或者增加句子計(jì)數(shù)器;
OpenAI 解釋了神經(jīng)元的這種行為,卻沒有試圖解釋產(chǎn)生這種行為的機(jī)制。這意味著即使是得高分的解釋在非分布(out-of-distribution)文本上也可能表現(xiàn)很差,因?yàn)樗鼈冎皇敲枋隽艘环N相關(guān)性;
整個(gè)過程算力消耗極大。
最終,OpenAI 希望使用模型來形成、測試和迭代完全一般的假設(shè),就像可解釋性研究人員所做的那樣。此外,OpenAI 還希望將其最大的模型解釋為一種在部署前后檢測對齊和安全問題的方法。然而,在這之前,還有很長的路要走。
審核編輯 :李倩
-
神經(jīng)元
+關(guān)注
關(guān)注
1文章
369瀏覽量
19174 -
語言模型
+關(guān)注
關(guān)注
0文章
571瀏覽量
11314 -
GPT
+關(guān)注
關(guān)注
0文章
368瀏覽量
16873 -
OpenAI
+關(guān)注
關(guān)注
9文章
1245瀏覽量
10074
原文標(biāo)題:OpenAI用GPT-4解釋了GPT-2三十萬個(gè)神經(jīng)元:智慧原來是這個(gè)樣子
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
OpenAI宣布,發(fā)布了7.74億參數(shù)GPT-2語言模型
GPT-4發(fā)布!多領(lǐng)域超越“人類水平”,專家:國內(nèi)落后2-3年
ChatGPT升級 OpenAI史上最強(qiáng)大模型GPT-4發(fā)布
GPT-4處于一個(gè)什么樣的編碼地位
人工通用智能的火花:GPT-4的早期實(shí)驗(yàn)
OpenAI宣布GPT-4 API全面開放使用!
GPT-3.5 vs GPT-4:ChatGPT Plus 值得訂閱費(fèi)嗎 國內(nèi)怎么付費(fèi)?
GPT-4沒有推理能力嗎?
OpenAI最新大模型曝光!劍指多模態(tài),GPT-4之后最大升級!
ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價(jià)格大降2/3
OpenAI發(fā)布的GPT-4 Turbo版本ChatGPT plus有什么功能?
ChatGPT plus有什么功能?OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能
OpenAI API Key獲取:開發(fā)人員申請GPT-4 API Key教程
OpenAI用GPT-4解釋了GPT-2三十萬個(gè)神經(jīng)元:智慧原來是這個(gè)樣子
評論