成人免费国产二区三区视频不卡,国精品无码A区一区二区,免费正能量短视频软件

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊(cè) | 登錄

世界模型又近了？MIT驚人研究：LLM已模擬現(xiàn)實(shí)世界，絕非隨機(jī)鸚鵡！

新智元

2024-08-19

0 評(píng)論 2961 瀏覽 15 收藏

🔗 B端产品经理需要进行售前演示、方案定制、合同签订等，而C端产品经理需要进行活动策划、内容运营、用户激励等

MIT CSAIL的研究人員發(fā)現(xiàn)，LLM的「內(nèi)心深處」已經(jīng)發(fā)展出了對(duì)現(xiàn)實(shí)的模擬，模型對(duì)語言和世界的理解，絕不僅僅是簡單的「鸚鵡學(xué)舌」。也就說，在未來，LLM會(huì)比今天更深層地理解語言。

LLM離世界模型，究竟有多遠(yuǎn)？

去年，MIT的一篇文章發(fā)現(xiàn)了驚人的結(jié)論：在LLM內(nèi)部，存在一個(gè)世界模型。

LLM不僅學(xué)習(xí)了表面的統(tǒng)計(jì)數(shù)據(jù)，還學(xué)習(xí)了包括空間和時(shí)間等基本緯度的世界模型。

Llama-2-70B竟然能夠描繪出研究人員真實(shí)世界的文字地圖

不僅如此，MIT最近又發(fā)現(xiàn)：在LLM的深處，發(fā)展出了一種對(duì)現(xiàn)實(shí)的模擬，它們對(duì)語言的理解，已經(jīng)遠(yuǎn)遠(yuǎn)超出了簡單的模仿！

論文地址：https://arxiv.org/abs/2305.11169

具體來說，MIT計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室（CSAIL）的兩名學(xué)者發(fā)現(xiàn)——

盡管只用「預(yù)測下一個(gè)token」這種看似只包含純粹統(tǒng)計(jì)概率的目標(biāo)，來訓(xùn)練LLM學(xué)習(xí)編程語言，模型依舊可以學(xué)習(xí)到程序中的形式化語義。

一款产品无到有，产品经理需要做些什么？

在一个产品从无到有的过程中，要做好产品经理这个角色实在是不容易，除了大家都知道的写需求、写需求、写需求，要做的事多着呢。产品经理不是你眼中的只会找你麻烦，提要求..

查看详情 >

這表明，語言模型可能會(huì)發(fā)展自己對(duì)現(xiàn)實(shí)的理解，以此作為提高其生成能力的一種方式。

因此，LLM在未來的某一天，可能會(huì)比今天更深層次地理解語言。

目前這篇文章已被ICML 2024接收，實(shí)驗(yàn)所用代碼也已經(jīng)公布在GitHub上。

倉庫地址：https://github.com/charlesjin/emergent-semantics

01 沒有眼睛，LLM就「看」不到嗎？

如果讓GPT-4去聞一下被雨水浸濕的露營地的味道，它會(huì)禮貌地拒絕你。

不過，它仍然會(huì)給你一個(gè)詩意的描述：有新鮮的泥土香氣，和清爽的雨味，還有松樹或濕樹葉的痕跡。

GPT-4沒見過下雨，也沒有鼻子，但它能模仿大量訓(xùn)練數(shù)據(jù)中存在的文本。

缺少一雙眼睛，是不是就意味著語言模型永遠(yuǎn)無法理解「獅子比家貓更大」？

LLM能理解現(xiàn)實(shí)世界和各種抽象概念嗎？還是僅僅在「鸚鵡學(xué)舌」，純粹依靠統(tǒng)計(jì)概率預(yù)測下一個(gè)token?

LLM的工作原理，依舊是未解之謎。AI圈的大佬們，時(shí)不時(shí)就要因?yàn)檫@個(gè)問題展開一場論戰(zhàn)。

LeCun堅(jiān)定認(rèn)為，LLM的智能絕對(duì)被高估了！他最著名的論斷，就是那句「大語言模型不如家里養(yǎng)的貓」。

「貓可以記憶，可以理解物理世界，可以計(jì)劃復(fù)雜的行動(dòng)，可以進(jìn)行一定程度的推理，這實(shí)際上已經(jīng)比最大的模型要好了，意味著我們?cè)诟拍顚用嬗兄匾娜笔?，無法讓機(jī)器像動(dòng)物和人類一樣聰明?！?/p>

沒有感官，不耽誤ChatGPT為你描述各種氣味和圖片；沒有生活經(jīng)驗(yàn)，很多用戶依舊「遇事不決，ChatGPT解決」；看起來完全沒有共情能力，Character.ai上的「心理學(xué)家」還是能俘獲美國一千萬青少年的心。

很多人將此解釋為純粹的統(tǒng)計(jì)現(xiàn)象，LLM只是在「鸚鵡學(xué)舌」，對(duì)大量訓(xùn)練語料中存在的文本進(jìn)行模仿，并不是像人類一樣擁有同等水平的智能或感知。

但現(xiàn)在，MIT的研究證明，并非如此！

LLM內(nèi)部，絕對(duì)存在著對(duì)現(xiàn)實(shí)世界的理解。

02 LLM破解卡雷爾謎題，意味著什么

為了探究這個(gè)謎團(tuán)，MIT CSAIL的研究者們，開發(fā)了一套小型卡雷爾謎題（Karel Puzzle）。

簡單介紹下，什么是卡雷爾謎題

其中包括讓模型用指令在模擬環(huán)境中控制機(jī)器人的行動(dòng)。

卡雷爾語法規(guī)范

然后他們?cè)谟?xùn)練LLM學(xué)習(xí)一種特定的解決方案，但沒有演示其中的工作原理。

最后，作者提出了一種名為「探針」（probing）的機(jī)器學(xué)習(xí)技術(shù)，用于在模型生成新解決方案時(shí)，深入了解其中的「思維過程」。

研究者通過對(duì)隨機(jī)參考程序進(jìn)行采樣來構(gòu)建訓(xùn)練示例，然后對(duì)5個(gè)隨機(jī)輸入進(jìn)行采樣并執(zhí)行程序，以獲得相應(yīng)的5個(gè)輸出。LM由交錯(cuò)輸入和輸出組成的示例語料庫上進(jìn)行下一個(gè)token預(yù)測訓(xùn)練，然后是參考程序。在測試時(shí)，研究者向LM提供看不見的輸入輸出規(guī)范，并使用貪婪解碼來預(yù)測程序

在超過100萬個(gè)隨機(jī)謎題上進(jìn)行訓(xùn)練后，研究人員發(fā)現(xiàn)，模型自發(fā)地形成了對(duì)底層模擬環(huán)境的概念！盡管訓(xùn)練期間，它們并沒有接觸過這方面的信息。

這個(gè)結(jié)果，不僅挑戰(zhàn)了我們對(duì)LLM的固有印象，也質(zhì)疑了我們對(duì)思維過程本質(zhì)的認(rèn)知——

在學(xué)習(xí)語義的過程中，究竟哪些類型的信息才是必需的？

實(shí)驗(yàn)剛開始時(shí)，模型生成的隨機(jī)指令幾乎無法運(yùn)行；但完成訓(xùn)練時(shí)，指令的正確率達(dá)到了92.4%。

論文一作Jin表示，「這是一個(gè)非常激動(dòng)人心的時(shí)刻，因?yàn)槲覀冋J(rèn)為，如果語言模型能以這種準(zhǔn)確度完成任務(wù)，我們也會(huì)期望，它能理解語言的含義?！?/p>

「這給了我們一個(gè)起點(diǎn)，來探索LLM是否確實(shí)能理解文本，現(xiàn)在我們看到，模型的能力，遠(yuǎn)不止于盲目地將單詞拼接在一起?！?/p>

03 打開LLM的大腦

在這項(xiàng)實(shí)驗(yàn)中，Jin親眼目睹了這一進(jìn)展。

LLM為什么會(huì)認(rèn)為，這些指令指的是這個(gè)意思？

他發(fā)現(xiàn)，LLM已經(jīng)開發(fā)了自己的內(nèi)部模擬，來模擬機(jī)器人如何響應(yīng)每條指令而移動(dòng)。

而隨著模型解決難題的能力越來越高，這些概念也就變得越來越準(zhǔn)確，這就表明：LM開始理解指令了。

不久之后，LLM就能始終如一地將各部分正確地拼接在一起，形成工作指令。

通過不同的探針分類器測量的語義內(nèi)容（綠色）

1. 思維探針

而為上述發(fā)現(xiàn)做出主要貢獻(xiàn)的，就是一種「思維探針」。

這是一種介入LLM思維過程的有效工具，論文將它稱為「probing」。

具體而言，LM的狀態(tài)中包含輸入和生成程序的純語法層面的記錄，但probe似乎可以學(xué)習(xí)理解其中的抽象解釋。

實(shí)際的實(shí)驗(yàn)中，作者首先構(gòu)建LLM的狀態(tài)跟蹤數(shù)據(jù)集，再用標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)方法訓(xùn)練一個(gè)小型模型作為探針，比如線性分類器或2層MLP。

訓(xùn)練后半段當(dāng)前和接下來兩個(gè)抽象狀態(tài)的語義內(nèi)容（1層MLP）

然而，其中一個(gè)重要的問題在于，必須將probe和模型實(shí)際的思考過程或生成的指令進(jìn)行分離。

雖然探針的唯一目的，只是「進(jìn)入LLM的大腦」，但如果它也為模型做了一些思考，該怎么辦呢？

研究者需要確保的是，LLM能夠獨(dú)立于探針理解指令，而不是由探針根據(jù)LLM對(duì)語法的掌握來推斷機(jī)器人的動(dòng)作。

想象一下，有一堆編碼LLM思維過程的數(shù)據(jù)，其中probe的角色就像一名取證分析師。

我們把這堆數(shù)據(jù)交給了分析師，告訴ta：「這是機(jī)器人的動(dòng)作，試著在這堆數(shù)據(jù)中，找出機(jī)器人是怎么動(dòng)的?！狗治鰩煴硎?，自己知道這堆數(shù)據(jù)中的機(jī)器人是怎么回事。

但是，假如這堆數(shù)據(jù)只是對(duì)原始指令進(jìn)行了編碼，而分析人員已經(jīng)想出了一些巧妙的方法來提取指令，并按照指令進(jìn)行相應(yīng)的操作呢？

在這種情況下，LLM就根本沒有真正了解到這些指令的含義。

為此，研究者特意做了一個(gè)巧妙的設(shè)計(jì)：它們?yōu)槟Ｐ痛蛟炝艘粋€(gè)「奇異世界」。

在這個(gè)世界中，probe的指令含義被反轉(zhuǎn)了，比如「向上」其實(shí)意味著「向下」。

例如，原始語義中的exec（turnRight,·）是將使機(jī)器人順時(shí)針旋轉(zhuǎn)90度，而exec adversarial（turnRight,·）是將機(jī)器人推進(jìn)一個(gè)空間

這就保證了，probe并不是在「投機(jī)取巧」，直接學(xué)習(xí)理解LLM對(duì)指令的編碼方式。

一作Jin這樣介紹道——

如果探針是將指令翻譯成機(jī)器人的位置，那么它應(yīng)該同樣能夠根據(jù)離奇的含義翻譯指令。

但如果探頭實(shí)際上是在語言模型的思維過程中，尋找原始機(jī)器人動(dòng)作的編碼，那么它應(yīng)該很難從原始思維過程中提取出怪誕的機(jī)器人動(dòng)作。

結(jié)果發(fā)現(xiàn)，探針出現(xiàn)了翻譯錯(cuò)誤，無法解釋具有不同指令含義的語言模型。

這就意味著，原始語義被嵌入了語言模型中，表明LLM能夠獨(dú)立于原始探測分類器，理解所需的指令。

上半部分描述了在干預(yù)前，兩種情況如何導(dǎo)致測量的高語義內(nèi)容。下半部分顯示了為什么將兩個(gè)假設(shè)分開: 如果LM表示僅包含語法（左下），那么應(yīng)該可以訓(xùn)練探針alt來學(xué)習(xí)根據(jù)替代狀態(tài)prog（粗體紅色結(jié)果）解釋記錄；然而，如果LM表示編碼原始抽象狀態(tài)（右下），則探測alt需要從原始狀態(tài)prog中提取替代狀態(tài)’prog，從而產(chǎn)生較低的語義內(nèi)容（粗體灰色結(jié)果）

2. LLM理解語言，就像孩童一樣

有趣的是，Jin發(fā)現(xiàn)，LLM對(duì)語言的理解是分階段發(fā)展的，就像孩子學(xué)習(xí)語言時(shí)分多個(gè)步驟一樣。

開始，它會(huì)像嬰兒一樣牙牙學(xué)語，說出的話是重復(fù)的，而且大多數(shù)都難以理解。

然后，LLM會(huì)開始獲取語法或語言規(guī)則，這樣，它就能夠生成看起來像是真正解決方案的指令了，但此時(shí)它們?nèi)匀徊黄鹱饔谩?/p>

不過，LLM的指令會(huì)逐漸進(jìn)步。

一旦模型獲得了意義，它就會(huì)像孩子造句一樣，開始產(chǎn)生正確執(zhí)行所要求規(guī)范的指令。

結(jié)果如圖2所示，可以看出LLM對(duì)語言的理解大致分為3個(gè)階段，就如同孩童學(xué)習(xí)語言一樣。

牙牙學(xué)語（babbling，灰色部分）：占據(jù)整個(gè)訓(xùn)練過程約50%，生成高度重復(fù)的程序，準(zhǔn)確率穩(wěn)定在10%左右
語法習(xí)得（syntax acquisition，橙色部分）：訓(xùn)練過程的50%～75%，生成結(jié)果的多樣性急劇增加，句法屬性發(fā)生顯著變化，模型開始對(duì)程序的token進(jìn)行建模，但生成的準(zhǔn)確率的提升并不明顯
語義習(xí)得（semantics acquisition，黃色部分）：訓(xùn)練過程的75%到結(jié)束，多樣性幾乎不變，但生成準(zhǔn)確率大幅增長，表明出現(xiàn)了語義理解

實(shí)驗(yàn)使用了三種不同的probe架構(gòu)作為對(duì)比，分別是線性分類器、單層MLP和2層MLP。

提前2步預(yù)測時(shí)，2層MLP預(yù)測準(zhǔn)確率的絕對(duì)值高于用當(dāng)前狀態(tài)預(yù)測的基線模型。或許可以得出這樣一種推測：LLM在生成指令前，其思維過程，以及生成指令的「意圖」已經(jīng)存儲(chǔ)在模型內(nèi)部了。

04 LLM = 世界模型？

這項(xiàng)研究解釋了LLM如何思考訓(xùn)練數(shù)據(jù)中每條指令的含義，如何在內(nèi)部狀態(tài)中模擬機(jī)器人對(duì)指令的響應(yīng)。

這些都直指當(dāng)前AI研究的一個(gè)核心問題——LLM令人驚訝的能力，僅僅是由于大規(guī)模的統(tǒng)計(jì)相關(guān)性，還是對(duì)它們現(xiàn)實(shí)產(chǎn)生了有意義的理解？

研究表明，LLM開發(fā)了一個(gè)模擬現(xiàn)實(shí)的內(nèi)部模型，盡管它從未接受過開發(fā)該模型的訓(xùn)練。

而且，語言模型還可以進(jìn)一步加深對(duì)語言的理解。

然而，僅靠一篇論文顯然不能完全回答這個(gè)問題。

作者Jin也承認(rèn)，這項(xiàng)研究存在一些局限性：他們僅使用了非常簡單的編程語言Karel，以及非常簡單的probe模型架構(gòu)。

未來的工作將關(guān)注更通用的實(shí)驗(yàn)設(shè)置，也會(huì)充分利用對(duì)于LLM「思維過程」的見解來改進(jìn)訓(xùn)練方式。

本文另一位作者Rinard表示，「一個(gè)有趣的懸而未決的問題是，在解決機(jī)器人導(dǎo)航問題時(shí)，LLM是在用內(nèi)部現(xiàn)實(shí)模型來推理現(xiàn)實(shí)嗎？」

雖然論文展現(xiàn)的結(jié)果可以支持這一結(jié)論，但實(shí)驗(yàn)并不是為回答這個(gè)問題而設(shè)計(jì)的。

布朗大學(xué)計(jì)算機(jī)科學(xué)和語言學(xué)系助理教授Ellie Pavlick高度贊揚(yáng)了這項(xiàng)研究。

她表示，對(duì)LLM工作原理的理解，可以讓我們對(duì)這項(xiàng)技術(shù)的內(nèi)在可能性和局限性有更合理的期望。這項(xiàng)研究正是在受控環(huán)境中探索這個(gè)問題。

計(jì)算機(jī)代碼像自然語言一樣，既有語法又有語義；但與自然語言不同的是，代碼的語義更直觀，并可以根據(jù)實(shí)驗(yàn)需要直接控制。

「實(shí)驗(yàn)設(shè)計(jì)很優(yōu)雅，他們的發(fā)現(xiàn)也很樂觀，這表明也許LLM可以更深入地了解語言的『含義』?！?/p>

05 作者介紹

本文一作Charles Jin是MIT EECS系和CSAIL實(shí)驗(yàn)室的在讀博士，導(dǎo)師Martin Rinard是本文的另一位作者，他的研究主要關(guān)注穩(wěn)健的機(jī)器學(xué)習(xí)和程序合成。

Jin本科和碩士畢業(yè)于耶魯大學(xué)，獲得了計(jì)算機(jī)科學(xué)和數(shù)學(xué)雙學(xué)位，曾經(jīng)在Weiss資產(chǎn)管理公司擔(dān)任分析師，博士期間曾在Google Brain擔(dān)任研究實(shí)習(xí)生。

參考資料：

https://the-decoder.com/training-language-models-on-synthetic-programs-hints-at-emergent-world-understanding/

https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】，微信公眾號(hào)：【新智元】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

新智元

"智能+"中國主平臺(tái)，致力于推動(dòng)中國從"互聯(lián)網(wǎng)+"邁向"智能+"

115篇作品 284701總閱讀量

大模型前傳：一場拍賣會(huì)與巨頭間的人才戰(zhàn)

12-141058 瀏覽

企業(yè)做私域好難：來自 300+個(gè)企業(yè)微信主體和 510,000 條私域社群消息的數(shù)據(jù)洞察

03-286403 瀏覽

B端产品设计思路：如何平衡大量客户需求

刚刚

霸占TA的屏幕——「貼貼」用戶分析報(bào)告

10-058314 瀏覽

對(duì)比分析報(bào)告：ChatGPT和文心一言

12-259693 瀏覽

聊聊：證券支付（銀行轉(zhuǎn)證券、證券轉(zhuǎn)銀行）和清結(jié)算的流程

08-116944 瀏覽

評(píng)論

目前還沒評(píng)論，等你發(fā)揮！

案例分析：同样是B端产品经理，为什么你接定制化需求这么难？

案例解析 | 交互設(shè)計(jì)中的幫助原則

06-126449 瀏覽
放心，AIGC暫時(shí)替代不了你

05-043887 瀏覽
10大原則！教你做好數(shù)字產(chǎn)品的自然界面設(shè)計(jì)（NUI）！

03-013576 瀏覽

专题

14220人已学习11篇文章

收银台设计指南

本专题的文章分享了收银台功能设计的流程以及过程中需要注意的问题等等。

专题

12393人已学习13篇文章

详解商业保理

商业保理，即保付代理。本专题的文章分享了关于商业保理的讲解。

专题

13881人已学习13篇文章

如何撰写用户体验报告？

用户体验是用户在使用产品过程中建立起来的一种纯主观感受。本专题的文章分享了如何撰写用户体验报告。

专题

12301人已学习12篇文章

联名营销指南

瑞幸咖啡和茅台的这次联名合作，无疑让联名营销这类营销方式又掀起了热度。本专题的文章分享了联名营销指南。

专题

13210人已学习12篇文章

金融产品经理需要知道的事

本专题的文章分享了金融产品经理需要知道的金融基础知识和产品观。

专题

17345人已学习18篇文章

车载HMI设计指南

本专题的文章分享了车载HMI设计指南，包括HMI的交互、设计、功能等方面的知识分享。