OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

新智元
0 評論 3955 瀏覽 5 收藏 15 分鐘
🔗 技术知识、行业知识、业务知识等,都是B端产品经理需要了解和掌握的领域相关的知识,有助于进行产品方案设计和评估

最近,OpenAI發(fā)布了令人震驚的新發(fā)現(xiàn),即GPT-4已經(jīng)可以解釋GPT-2的行為。這樣看來,難道AI的“可解釋性”真的被AI自己破解了?大語言模型的黑箱問題,真的可以被解答嗎?不妨來看看本文的解讀。

OpenAI發(fā)布了震驚的新發(fā)現(xiàn):GPT-4,已經(jīng)可以解釋GPT-2的行為!

大語言模型的黑箱問題,是一直困擾著人類研究者的難題。

模型內(nèi)部究竟是怎樣的原理?模型為什么會(huì)做出這樣那樣的反應(yīng)?LLM的哪些部分,究竟負(fù)責(zé)哪些行為?這些都讓他們百思不得其解。

萬萬沒想到,AI的「可解釋性」,竟然被AI自己破解了?

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

網(wǎng)友驚呼,現(xiàn)在AI能理解AI,用不了多久,AI就能創(chuàng)造出新的AI了。

就是說,搞快點(diǎn),趕緊快進(jìn)到天網(wǎng)吧。

一、GPT-4破解GPT-2黑箱之謎

剛剛,OpenAI在官網(wǎng)發(fā)布了的博文《語言模型可以解釋語言模型中的神經(jīng)元》(Language models can explain neurons in language models),震驚了全網(wǎng)。

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

論文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

只要調(diào)用GPT-4,就能計(jì)算出其他架構(gòu)更簡單的語言模型上神經(jīng)元的行為。

GPT-2,就這樣被明明白白地解釋了。

要想研究大模型的「可解釋性」,一個(gè)方法是了解單個(gè)神經(jīng)元的具體含義。這就需要人類手動(dòng)檢測神經(jīng)元,但是,神經(jīng)網(wǎng)絡(luò)中有數(shù)百億或數(shù)千億個(gè)神經(jīng)元。

OpenAI的思路是,對這個(gè)過程進(jìn)行自動(dòng)化改造,讓GPT-4對神經(jīng)元的行為進(jìn)行自然語言解釋,然后把這個(gè)過程應(yīng)用到GPT-2中。

這何以成為可能?首先,我們需要「解剖」一下LLM。

像大腦一樣,它們由「神經(jīng)元」組成,它們會(huì)觀察文本中的某些特定模式,這就會(huì)決定整個(gè)模型接下來要說什么。

比如,如果給出這么一個(gè)prompt,「哪些漫威超級英雄擁有最有用的超能力?」 「漫威超級英雄神經(jīng)元」可能就會(huì)增加模型命名漫威電影中特定超級英雄的概率。

OpenAI的工具就是利用這種設(shè)定,把模型分解為單獨(dú)的部分。

第一步:使用GPT-4生成解釋

首先,找一個(gè)GPT-2的神經(jīng)元,并向GPT-4展示相關(guān)的文本序列和激活。

然后,讓GPT-4根據(jù)這些行為,生成一個(gè)可能的解釋。

比如,在下面的例子中GPT-4就認(rèn)為,這個(gè)神經(jīng)元與電影、人物和娛樂有關(guān)。

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

第二步:使用GPT-4進(jìn)行模擬

接著,讓GPT-4根據(jù)自己生成的解釋,模擬以此激活的神經(jīng)元會(huì)做什么。

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

第三步:對比打分

最后,將模擬神經(jīng)元(GPT-4)的行為與實(shí)際神經(jīng)元(GPT-2)的行為進(jìn)行比較,看看GPT-4究竟猜得有多準(zhǔn)。

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

還有局限

通過評分,OpenAI的研究者衡量了這項(xiàng)技術(shù)在神經(jīng)網(wǎng)絡(luò)的不同部分都是怎樣的效果。對于較大的模型,這項(xiàng)技術(shù)的解釋效果就不佳,可能是因?yàn)楹竺娴膶痈y解釋。

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

目前,絕大多數(shù)解釋評分都很低,但研究者也發(fā)現(xiàn),可以通過迭代解釋、使用更大的模型、更改所解釋模型的體系結(jié)構(gòu)等方法,來提高分?jǐn)?shù)。

現(xiàn)在,OpenAI正在開源「用GPT-4來解釋GPT-2中全部307,200個(gè)神經(jīng)元」結(jié)果的數(shù)據(jù)集和可視化工具,也通過OpenAI API公開了市面上現(xiàn)有模型的解釋和評分的代碼,并且呼吁學(xué)界開發(fā)出更好的技術(shù),產(chǎn)生得分更高的解釋。

此外,團(tuán)隊(duì)還發(fā)現(xiàn),越大的模型,解釋的一致率也越高。其中,GPT-4最接近人類,但依然有不小的差距。

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

以下是不同層神經(jīng)元被激活的例子,可以看到,層數(shù)越高,就越抽象。

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

二、把AI的對齊問題,交給AI

這項(xiàng)研究,對于OpenAI的「對齊」大業(yè),意義重大。

在2022年夏天,OpenAI就曾發(fā)布博文「Our approach to alignment research」,在那篇文章中,OpenAI就曾做出預(yù)測:對齊將由三大支柱支撐。

  1. 利用人工反饋訓(xùn)練 AI
  2. 訓(xùn)練AI系統(tǒng)協(xié)助人類評估
  3. 訓(xùn)練AI系統(tǒng)進(jìn)行對齊研究

在前不久,萬名大佬聯(lián)名簽署公開信,要求在六個(gè)月內(nèi)暫停訓(xùn)練比GPT-4更強(qiáng)大的AI。

Sam Altman在一天之后,做出的回應(yīng)是:構(gòu)建更好的通用人工智能,就需要有對齊超級智能的技術(shù)能力。

究竟怎樣讓AI「與設(shè)計(jì)者的意圖對齊」,讓AGI惠及全人類?

今天的這項(xiàng)研究,無疑讓OpenAI離目標(biāo)更邁進(jìn)了一步。

Sam Altman轉(zhuǎn)發(fā):GPT-4對GPT-2做了一些可解釋性工作

OpenAI的對齊團(tuán)隊(duì)負(fù)責(zé)人也表示,這是一個(gè)新的方向,可以讓我們同時(shí)獲得:

  1. 詳細(xì)理解模型到單個(gè)神經(jīng)元的層
  2. 運(yùn)行整個(gè)模型,這樣我們就不會(huì)錯(cuò)過任何重要的東西

令人興奮的是,這給了我們一種衡量神經(jīng)元解釋好壞的方法:我們模擬人類如何預(yù)測未來的模式,并將此與實(shí)際的模式進(jìn)行比較。

目前這種衡量方式并不準(zhǔn)確,但隨著LLM的改進(jìn),它會(huì)變得更好。

雖然現(xiàn)在還處于初期階段,但已經(jīng)展現(xiàn)了一些有趣的趨勢:

  1. 后期的層比早期的更難解釋
  2. 簡單的預(yù)訓(xùn)練干預(yù)可以提高神經(jīng)元的可解釋性
  3. 簡單的技巧,如迭代細(xì)化,可以改進(jìn)解釋

OpenAI可解釋性團(tuán)隊(duì)負(fù)責(zé)人William Saunders也表示,團(tuán)隊(duì)希望開發(fā)出一種方法,來預(yù)測AI系統(tǒng)會(huì)出現(xiàn)什么問題?!肝覀兿M苷嬲屵@些模型的行為和生產(chǎn)的回答可以被信任。」

三、有趣的神經(jīng)元

在這個(gè)項(xiàng)目中,研究者還發(fā)現(xiàn)了許多有趣的神經(jīng)元。

GPT-4為一些神經(jīng)元做出了解釋,比如「比喻」神經(jīng)元、與確定性和信心有關(guān)的短語的神經(jīng)元,以及做對事情的神經(jīng)元。

這些有趣的神經(jīng)元是怎么發(fā)現(xiàn)的?策略就是,找到那些token空間解釋很差的神經(jīng)元。

就這樣,背景神經(jīng)元被發(fā)現(xiàn)了,也就是在某些語境中密集激活的神經(jīng)元,和許多在文檔開頭的特定單詞上激活的神經(jīng)元。

另外,通過尋找在上下文被截?cái)鄷r(shí)以不同方式激活的上下文敏感神經(jīng)元,研究者發(fā)現(xiàn)了一個(gè)模式破壞神經(jīng)元,它會(huì)對正在進(jìn)行的列表中打破既定模式的token進(jìn)行激活(如下圖所示)。

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

研究者還發(fā)現(xiàn)了一個(gè)后typo神經(jīng)元,它經(jīng)常在奇怪或截?cái)嗟脑~之后激活。

還有某些神經(jīng)元,似乎會(huì)在與特定的下一個(gè)token匹配時(shí)被激活。

比如,當(dāng)下一個(gè)標(biāo)記可能是「from」時(shí),一個(gè)神經(jīng)元會(huì)被激活。

這是怎么回事?起初研究者猜測,這些神經(jīng)元可能是根據(jù)其他信號對下一個(gè)token進(jìn)行預(yù)測。然而,其中一些神經(jīng)元并不符合這種說法。

目前,研究者還沒有進(jìn)行足夠的調(diào)查,但有可能許多神經(jīng)元編碼了以特定輸入為條件的輸出分布的特定微妙變化,而不是執(zhí)行其激活所提示的明顯功能。

總的來說,這些神經(jīng)元給人的主觀感覺是,更有能力的模型的神經(jīng)元往往更有趣。

毫不意外地,網(wǎng)友們又炸了。

咱就是說,OpenAI,你搞慢點(diǎn)行不?

在評論區(qū),有人祭出這樣一張梗圖。

這就是傳說中的「存在主義風(fēng)險(xiǎn)神經(jīng)元」吧,只要把它關(guān)掉,你就安全了(Doge)。

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

ChatGPT從互聯(lián)網(wǎng)中學(xué)習(xí),現(xiàn)在它正在創(chuàng)造更多的互聯(lián)網(wǎng)。很快,它就會(huì)自我反哺,真正的天網(wǎng)就要來臨。

聽說GPT-5已經(jīng)達(dá)到奇點(diǎn),并且它正在與地外生命談判和平條約。

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

有網(wǎng)友惡搞了一個(gè)關(guān)于「Yudkowsky」的解釋,他一直是「AI將殺死所有人」陣營的主要聲音之一。

之前「暫停AI訓(xùn)練」公開信在網(wǎng)上炒得沸沸揚(yáng)揚(yáng)時(shí),他就曾表示:「暫停AI開發(fā)是不夠的,我們需要把AI全部關(guān)閉!如果繼續(xù)下去,我們每個(gè)人都會(huì)死。」

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

他知道我們在計(jì)劃什么

我們必須不惜一切代價(jià)讓他喪失信譽(yù)

一旦他走了,就沒有人能夠反對我們了

「Eliezer Yudkowsky看到這一幕,一定又笑又哭——讓我們使用自己不能信任的技術(shù)來告訴我們,它是如何工作的,并且它是對齊的?!?/p>

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

現(xiàn)在,人類反饋強(qiáng)化學(xué)習(xí)(RLHF)是主場,當(dāng)AI懂了AI,將會(huì)在微調(diào)模型上開辟一個(gè)新紀(jì)元:

人工智能反饋的神經(jīng)元過濾器(NFAIF)

OpenAI炸裂新作:GPT-4破解GPT-2大腦!30萬神經(jīng)元全被看透

參考資料:

https://openai.com/research/language-models-can-explain-neurons-in-language-models

https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/

作者:新智元;編輯:編輯部

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺(tái),致力于推動(dòng)中國從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
17033人已学习15篇文章
游戏化指的是游戏的理念与设计方法运用在其他领域上,本专题的文章分享了游戏化技术的应用方向。
专题
16343人已学习12篇文章
本专题的文章分享了对账体系的设计思路。
专题
17871人已学习17篇文章
随着互联网的不断发展,不少产品开始了适老化改造,帮助老年人更好地融入智能生活。本专题的文章分享了适老化的设计思路。
专题
53400人已学习19篇文章
让我们来看一下Axure的高端操作:用Axure实现游戏功能
专题
13602人已学习12篇文章
用户调研作为产品人员最常用的工作方式,相信各位一定不会陌生。但如何提高用户调研的有效性却是一直困扰大家的问题。本专题的文章分享了用户调研的方法论。
专题
20514人已学习15篇文章
商品管理系统属于电商产品中最基础、最核心的系统,是支撑整个电商产品的核心。本专题的文章提供了商品管理设计指南。