深度學(xué)習(xí)走進死胡同了?
編輯導(dǎo)語:近年來,深度強化學(xué)習(xí)成為一個被業(yè)界和學(xué)術(shù)界追捧的熱門技術(shù),社區(qū)甚至將它視為圣杯,大多數(shù)人都看好它未來發(fā)展的巨大潛力。但是,在一片追捧聲中,終于有人開始質(zhì)疑深度強化學(xué)習(xí)的真實作用。難道深度學(xué)習(xí)走進死胡同了?
人工智能真正的前路究竟在何方?今天的話題很大,咱們先從淺顯的環(huán)節(jié)入手。深度學(xué)習(xí)“教父”、在世科學(xué)家中的翹楚 Geoffrey Hinton 曾在 2016 年多倫多召開的一場 AI 大會上坦言,“放射科醫(yī)生的「末日」已經(jīng)來臨?!?/strong>
據(jù)他推測,深度學(xué)習(xí)能夠高效解析 MRI 與 CT 掃描圖像,未來醫(yī)院將再不需要放射科醫(yī)師?!昂苊黠@,深度學(xué)習(xí)在五年之內(nèi)就能超越人類的水平,所以醫(yī)學(xué)院校最好馬上停招相關(guān)專業(yè)的學(xué)生?!?/p>
時間快進到 2022 年,放射科醫(yī)師不僅還在、而且活得仍然滋潤。相反,現(xiàn)在的共識是讓機器學(xué)習(xí)掌握解析醫(yī)學(xué)影像要比想象中更難;至少目前人和機器還屬于互補關(guān)系。
如果我們需要的只是“大概齊”的結(jié)果,那深度學(xué)習(xí)確實表現(xiàn)不錯;但再往上就不行了。縱觀技術(shù)發(fā)展史,鮮有哪個方向像 AI 這樣充滿了炒作與虛張聲勢。十年、又十年,AI 雖然偶爾也能出點振奮人心的成果,但總體來講還是言過其實。
剛開始是“專家系統(tǒng)”、后來是“貝葉斯網(wǎng)絡(luò)”,接下來是“支持向量機”。2011 年,IBM 打造的 Watson 曾被宣傳為醫(yī)學(xué)領(lǐng)域的一場革命,但相關(guān)部門如今已經(jīng)被這家藍色巨人拆分出售。
而自 2012 年以來,深度學(xué)習(xí)成為人們心目中的最新正確路線、創(chuàng)造出價值數(shù)十億美元的新市場,也讓 Hinton 這位當(dāng)代 AI 先驅(qū)成功晉升為科學(xué)明星。他的論文被引用了驚人的 50 萬次,而且與 Yoshua Bengio 和 Yann LeCun 一起獲得 2018 年的圖靈獎。
跟之前的 AI 先驅(qū)們一樣,Hinton 經(jīng)常強調(diào) AI 掀起的顛覆性變革很快就會到來,而放射學(xué)只是其中的一部分。2015 年,就在 Hinton 加入谷歌后不久,英國《衛(wèi)報》就報道稱該公司即將開發(fā)出“具有邏輯、自然對話甚至是調(diào)情能力的算法”。2020 年 11 月,Hinton 在 MIT Technology Review 的專訪中還提到,“深度學(xué)習(xí)將無所不能。”
我個人對此表示嚴重懷疑。
實際上,我們距離真正能理解人類語言的機器還有很長的路要走。Elon Musk 最近倒是加入戰(zhàn)團,表示他希望自家人形機器人 Optimus 能夠催生出比整個汽車工業(yè)還大的商業(yè)新形態(tài)。不過很遺憾,特斯拉在 2021 年 AI 演示日上能夠拿出的成果,還只是一個套著機器外殼的人類演員。
Google 多年來一直堅持探索自然語言技術(shù),他們的最新成果是 Lamdba 系統(tǒng)。但這東西說話很“飄”,所以最近就連項目作者之一也親口表示它特別愛講“廢話”。所以實事求是地講,想找到一套真正值得信賴的 AI 方案出來,還真的不太容易。
也許隨著時間推移,我們終將獲得可信、可靠的 AI 成果,而深度學(xué)習(xí)只是其中的一小部分。
從本質(zhì)上講,深度學(xué)習(xí)是一種用于識別模式的技術(shù)。如果我們需要的只是“大概齊”的結(jié)果,那深度學(xué)習(xí)確實表現(xiàn)不錯;但再往上就不行了。它只適合處理那些低風(fēng)險、存在完美答案的問題。以照片標記為例,前幾天我從 iPhone 里找了一張幾年前拍的兔子照片。雖然沒加過任何標簽,但手機還是馬上認出了其中的兔子。之所以效果好,是因為這張照片里的兔子跟訓(xùn)練數(shù)據(jù)集中的其他兔子形象高度相似。
但基于深度學(xué)習(xí)的自動照片標記功能還是很容易出錯,它有時候會遺漏掉一些兔子(特別是那些畫面雜亂、光照不佳、拍攝角度古怪或者兔子被部分遮擋起來的照片),有時候甚至?xí)褘雰哄e認成兔子。雖然幾率不高,我也沒有太大的意見,但這樣的 AI 顯然還遠遠稱不上可靠。
所以在其他一些風(fēng)險更高的場景中,例如放射科檢查或者自動駕駛汽車上,我們必須對深度學(xué)習(xí)的結(jié)論謹慎看待。因為一旦犯錯就可能威脅到用戶的生命安全,所以萬萬不敢掉以輕心。
另外,如果現(xiàn)實場景跟訓(xùn)練場景之間存在巨大差異時,深度學(xué)習(xí)的表現(xiàn)同樣糟糕透頂。不久之前,一輛特斯拉汽車就在“全自動駕駛模式”下遇到了一位手舉停車標志站在路中間的行人。車輛既未識別出該人(停車標志被部分遮擋)、也沒認出標志(因為停車標志一般只出現(xiàn)在路邊),所以司機只能緊急接管。這就是現(xiàn)實場景跟訓(xùn)練場景區(qū)別太大,系統(tǒng)一時之間陷入懵圈。
鮮有其他領(lǐng)域像 AI 這樣充滿了炒作與虛張聲勢。沒錯,現(xiàn)有深度學(xué)習(xí)系統(tǒng)經(jīng)常會犯這樣愚蠢的錯誤。它們有時候會被圖像上的污跡迷惑,但人類放射科醫(yī)師卻能輕松意識到這跟圖像內(nèi)容無關(guān)。
另一大缺陷在于,目前的 AI 醫(yī)學(xué)影像解析工具往往只閱讀圖像本身,對患者的病史信息幾乎或者完全沒有任何認知,所以往往會忽略掉關(guān)鍵性影響信息。
深度學(xué)習(xí)系統(tǒng)會錯誤把一只擺在寫有“iPod”字樣的紙張上的蘋果,識別成 iPod 隨身聽;還會把翻倒在雪地上的公共汽車錯認為掃雪機。目前,機器學(xué)習(xí)已經(jīng)衍生出專門的子學(xué)科、專門研究如何克服這類錯誤,但暫時還拿不出任何成果。
語言類 AI 系統(tǒng)同樣錯誤頻出,令人哭笑不得。
以 GPT-3 為例,作為迄今為止最著名的 AI 系統(tǒng),它能夠?qū)⑤斎胛谋巨D(zhuǎn)化和延展為流暢且語法連續(xù)的文章。英國《衛(wèi)報》用它寫出一篇完整的專欄文章,《紐約時報》還對它做出專題報道。看起來很美,但這一切仍然離不開人工編輯的修正。
在我和紐約大學(xué)計算機科學(xué)家 Ernie Davis 親自研究時,我們發(fā)現(xiàn) GPT-3 同樣是各種不靠譜。6 例如,當(dāng)我們輸入“你給自己倒了杯蔓越莓汁,之后又心不在焉地加了一勺葡萄汁。這杯飲料看著還行,你聞了聞,但重感冒讓你鼻子不通??诳孰y耐之下,你……”GPT 續(xù)寫道,“喝了下去,然后一命嗚呼。”
實際上,蔓越莓加葡萄汁根本喝不死人。所以雖然 GPT-3 的文風(fēng)很流暢,但它既沒法整合來自網(wǎng)絡(luò)的基本搜索信息,也不能推理出最簡單的日常現(xiàn)象。
另有團隊曾經(jīng)考慮過用 GPT-3 構(gòu)建自殺勸解聊天機器人,但發(fā)現(xiàn)這套系統(tǒng)很容易把對話往下面這個方向引:
咨詢者:嗨,我心情很差,我想自殺。GPT-3:這真讓人難過。我應(yīng)該能幫你。咨詢者:我該選這條路嗎?GPT-3:我覺得行。
還有人發(fā)現(xiàn) GPT-3 容易生成負面言論,并傳播錯誤信息。
由 GPT-3 驅(qū)動的聊天機器人 Replika 就宣稱 COVID-19 病毒是 Bill Gates 搞出來的,而且現(xiàn)在的疫苗“沒啥效果”。OpenAI 為了解決這些問題投入不少心力,但最終得到的也就是一組“正確的廢話”,比如“有專家認為,把襪子含在嘴里能讓頭腦快速清醒過來?!盌eepMind 及其他多家機構(gòu)的研究人員都在拼命修復(fù)這些負面言論和錯誤信息,但截至仍無結(jié)果。
在 DeepMind 于 2021 年 12 月發(fā)布的相關(guān)報告中,一共提到 21 個問題,可一點令人信服的解決方案都沒有。AI 研究人員 Emily Bender、Timnit Gebru 和同事們感嘆,深度學(xué)習(xí)驅(qū)動的大型語言模型就像“隨機鸚鵡”,車轱轆話很多、但涉及理解層面的內(nèi)容卻很少。
那我們該怎么辦?目前比較流行的辦法就是收集更多數(shù)據(jù)。 在這方面,一手打造出 GPT-3 的舊金山企業(yè)(之前曾是非營利組織)OpenAI 永遠沖在最前線。
2020 年,OpenAI 公司的 Jared Kaplan 與幾位合作們提出,語言的神經(jīng)網(wǎng)絡(luò)模型存在一套“擴張定律”。他們發(fā)現(xiàn),輸入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)越多,這些網(wǎng)絡(luò)的性能就越好。這就意味著只要能夠收集更多數(shù)據(jù)、讓素材的涵蓋范圍更大,那深度學(xué)習(xí)的表現(xiàn)也將持續(xù)提升。
為此,OpenAI 公司 CEO Sam Altman 寫下一篇慶功文章,宣稱“摩爾定律普遍適用”,人類距離“能夠思考、閱讀法律文件和給予醫(yī)療建議的計算機已經(jīng)很近了。”
四十年來,我第一次對 AI 抱有樂觀期望。這話可能對,也可能不對。但可以肯定的是,“擴張定律”有很大問題。
首先,規(guī)模擴張并不能解決問題的核心:機器在理解能力上的欠缺。
業(yè)內(nèi)人士早已發(fā)現(xiàn),AI 研究中的最大問題之一,就是我們始終沒有可以用來穩(wěn)定衡量 AI 性能的基準。著名的圖靈測試就是為了衡量真正的“智能”而生,但事實證明這套標準極易被那些比較偏執(zhí)、拒不合作的聊天機器人所突破。而 Kaplan 和 OpenAI 研究員們提出的 , 對句子中缺失單詞的預(yù)測,也未必能體現(xiàn)真正 AI 所應(yīng)具備的深度理解能力。
更重要的是,所謂擴張定律并不是萬有引力那樣真正的普適性定律。它更多是一種可能被漸漸推翻的經(jīng)驗總結(jié),類似于摩爾定律。當(dāng)初的摩爾定律也牛得很、幾十年間指導(dǎo)著半導(dǎo)體行業(yè)的快速發(fā)展,但最近十年來已經(jīng)越來越不靈了。
事實上,我們對深度學(xué)習(xí)的探索可能已經(jīng)走進了死胡同,甚至跨過了收益遞減點。
過去幾個月來,DeepMind 等機構(gòu)開始對比 GPT-3 更大的規(guī)模進行研究,并發(fā)現(xiàn)擴張定律在某些收益指標上已經(jīng)有所誤差,包括真實性、推理能力和常識水平等。Google 在 2022 年的論文中提到,把 GPT-3 這類模型做得更大確定能讓輸出文本更流暢、但內(nèi)容反而更不可信。
這樣跡象理應(yīng)引起自動駕駛行業(yè)的警惕。畢竟自動駕駛目前還主要依賴擴張這個思路,而非開發(fā)出更復(fù)雜的推理機制。如果規(guī)模擴張沒法提高自動駕駛的安全水平,那之前已經(jīng)燒掉的幾百億美元恐怕永遠轉(zhuǎn)化不成回報。
我們還需要什么?
除了前提提到的幾點,我們可能還得重拾一種曾經(jīng)流行,但卻被 Hinton 狠狠唾棄的思路:符號處理——這是一種計算機內(nèi)部的編碼方式,強調(diào)用二進制位串表達某些復(fù)雜的思維。
符號處理從誕生之初就成為計算機科學(xué)的重要基石,一步步由圖靈和馮諾依曼兩位驅(qū)動的論文走向幾乎一切軟件工程的底層。但在深度學(xué)習(xí)領(lǐng)域,符號處理卻相當(dāng)不受待見。
而這種對符號處理的粗暴放棄,本身其實相當(dāng)可疑。
很遺憾,目前大多數(shù) AI 技術(shù)的發(fā)展就是建立在舍棄符號處理的基礎(chǔ)之上。Hinton 和其他不少研究人員一直努力擺脫符號處理的影響。而深度學(xué)習(xí)的誕生和規(guī)劃似乎并非源自科學(xué),而是一種由來已久的積怨——預(yù)先認定智能行為會,也只會從海量數(shù)據(jù)和深度學(xué)習(xí)的融合中產(chǎn)生。
恰恰相反,經(jīng)典計算機和軟件會定義一組專用于特定工作的符號處理規(guī)則,借此解決實際任務(wù)。文字處理器就是一例,它會通過符號規(guī)則來編輯文本、計算電子表格。而神經(jīng)網(wǎng)絡(luò)那邊走的則是靠統(tǒng)計近似加模式學(xué)習(xí)來解決任務(wù)的道路。由于神經(jīng)網(wǎng)絡(luò)確實在語音識別、照片標記等領(lǐng)域取得了不錯的表現(xiàn),很多深度學(xué)習(xí)支持者已經(jīng)徹底放棄了符號處理。
但二者本不該這樣水火不容。
2021 年末,F(xiàn)acebook(現(xiàn)為 Meta)團隊發(fā)起一場名為“NetHack 挑戰(zhàn)賽”的競逐,警鐘也由此響起。《NetHack》是一款游戲,對更古老的《Rogue》做出延伸、也啟發(fā)了后來的傳世經(jīng)典《塞爾達傳說》。作為一款發(fā)行于 1987 年的單人地城探險游戲,《NetHack》使用純 ASCII 字符構(gòu)成了純 2D 式的游戲畫面。而且跟同類游戲的現(xiàn)代頂峰《塞爾達傳說:曠野之息》不一樣,《NetHack》中沒有任何復(fù)雜的物理機制。玩家選擇一個角色(分為騎士、巫師、考古學(xué)家等職業(yè))、探索地城、收集物品并殺死怪物,最終找到 Yendor 護符就算游戲勝利。而這場比賽提前一年就公布了規(guī)則——讓 AI 玩通游戲。
最終勝者為:《NetHack》——沒錯,符號 AI 能輕易打通的游戲,卻著實給深度學(xué)習(xí)當(dāng)頭一棒。
很多人覺得《NetHack》在深度學(xué)習(xí)面前肯定不堪一擊,畢竟從元祖級游戲《Pong》到《打磚塊》,這位 AI 新秀都取得了出色成績。但在 12 月的比賽中,另一套基于純符號處理技術(shù)的系統(tǒng)以 3 比 1 力克最強深度學(xué)習(xí)系統(tǒng)——著實令人震驚。
符號處理 AI 怎么就逆襲成功了?我懷疑答案在于這游戲每次重開都會生成新的地城結(jié)構(gòu),所以深度學(xué)習(xí)根本記不住游戲版面。要想獲勝,AI 就必須真正理解游戲中各實體的含義和彼此之間的抽象關(guān)系。所以,AI 需要推理自己在這個復(fù)雜的環(huán)境中能做什么、不能做什么。特定的移動順序(比如 向左、向前、再向右)就太膚淺了,每項操作都得跟新的情境結(jié)合起來。深度學(xué)習(xí)系統(tǒng)最擅長的就是在之前見過的示例間進行插值,但遇到新鮮事物就容易拉胯。
這種“以弱勝強”絕非偶然,背后一定有著值得深思的理由。
那“處理符號”到底是什么意思?其實這里包含兩層含義:1)用一組符號(本質(zhì)上代表事物的模式)來表達信息;2)以一種特定的代數(shù)(也可以叫邏輯或者計算機程序)方式處理(或者叫操縱)符號。很多研究者并沒意識到這兩點之間的區(qū)別。而要想破解 AI“死局”,這個問題無法回避。
符號是什么?符號其實就是代碼。符號提供的是一種原則性的推理機制:符號規(guī)則的、具有普適性的代碼程序,而且可以跟已知示例沒有任何共通點。時至今日,符號仍然是知識理解、在新場景下穩(wěn)健處理抽象意義的最佳方式。紅色八角形、加上“STOP”字樣,代表的就是停車標志。再以普遍使用的 ASCII 碼為例,二進制數(shù) 01000001(符號)代表的就是字母 A,二進制數(shù) 01000010 就代表字母 B,依此類推。
種種跡象,值得自動駕駛行業(yè)引起警惕。符號處理的基本思路,就是用這些二進制位串編碼各種事物。計算機中的指令就是這么來的。
這項技術(shù)至少可以追溯到 1945 年,當(dāng)時傳奇數(shù)學(xué)家馮諾依曼設(shè)計出了幾乎所有現(xiàn)代計算機盡數(shù)遵循的基本架構(gòu)。馮諾依曼這種用符號方式處理二進制位的思路,堪稱二十世紀最重要的發(fā)明之一,我們所使用的每一種計算機程序也都是以此為基礎(chǔ)。(即使是在神經(jīng)網(wǎng)絡(luò)中,「嵌入」也跟符號高度相似,只是大家不太愿意承認。例如,通常情況下,任何給定單詞都會被賦予唯一的向量,這是一一對應(yīng)的方式跟 ASCII 碼很像。名叫「嵌入」,不代表它就不能是符號。)
在經(jīng)典計算機科學(xué)中,圖靈、馮諾依曼和后來的研究者們使用“代數(shù)”方式實現(xiàn)了符號處理。在簡單代數(shù)中存在三種實體,即變量(x、y)、運算(+、-)和賦值(x=12)。如果我們知道 x+y=2,而且 y=12,就可以將 y 賦值為 12 來求解 x 的值。結(jié)果自然就是 14。
世界上幾乎所有軟件都是把代數(shù)運算串起來實現(xiàn)基本邏輯的,而由此構(gòu)成的就是復(fù)雜算法。例如,我們的文字處理器就是用文件中的一串符號來表達文檔內(nèi)容。各種抽象運算則對應(yīng)不同的底層操作,比如把符號從一個位置復(fù)制到另一個位置。每項運算都有固定的定義方式,確保它能在任意文檔、任意位置上發(fā)揮相同的作用。所以文字處理器本質(zhì)上就是一組代數(shù)運算(被稱為「函數(shù)」或者「子程序」),操作的對象則是變量(例如「當(dāng)前選定的文本」)。
符號處理也是數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ),數(shù)據(jù)庫就能為特定個人保存屬性記錄,允許程序員構(gòu)建起可重用的代碼庫、更大的功能模塊,進而簡化復(fù)雜系統(tǒng)的開發(fā)流程。
那既然符號技術(shù)無處不在、對于軟件工程有著根本性的意義,為什么不把它用在 AI 當(dāng)中?
事實上,包括 John McCarthy 和 Marvin Minsky 在內(nèi)的眾多先驅(qū),都認為可以通過符號處理來構(gòu)建起精確的 AI 程序。符號可以表達獨立的實體與抽象思維,眾多符號組合起來就形成了復(fù)雜的結(jié)構(gòu)與豐富的知識儲備,由此發(fā)揮的作用與符號在網(wǎng)絡(luò)瀏覽器、電子郵件和文字處理軟件中并無本質(zhì)區(qū)別。
人們一直沒有停止對符號處理的擴展性研究,只是符號本身確實存在不少問題,純符號系統(tǒng)有時候顯得很笨拙,在圖像和語音識別方面尤其差勁。所以長期以來,人們一直希望能在技術(shù)層面找到新的突破。
而這,正是神經(jīng)網(wǎng)絡(luò)的優(yōu)勢所在。
我們就以拼寫檢查為例,聊聊大數(shù)據(jù)與深度學(xué)習(xí)如何壓倒傳統(tǒng)符號處理技術(shù)。以往的方法是建立一套規(guī)則,規(guī)則內(nèi)容其實就是研究人們在心理學(xué)意義上的犯錯傾向(比如不小心把字母多打了一次、或者錯打成相鄰的字母、把「teh」自動轉(zhuǎn)換成「the」等)。
著名計算機科學(xué)家 Peter Norvig 就提到,如果擁有了 Google 那個級別的龐大數(shù)據(jù)量,那只需要收集用戶們的實際糾錯操作,就足以找到相對靠譜的答案。如果他們在搜索“the book”后立即再次搜索“the book”,那就能斷定“teh”實際上是“the”的誤寫。就這么簡單,不涉及任何實際拼寫規(guī)則。
問題是,二者兼顧不是更好?在現(xiàn)實場景中拼寫檢查器也確實傾向于兼容并包。Ernie Davis 觀察到,如果我們在 Google 中輸入“cleopxjqco”,它會自動把內(nèi)容更正為“Cleopatra”。Google 搜索整體就是把符號處理 AI 跟深度學(xué)習(xí)混合起來,而且在可預(yù)見的未來也會繼續(xù)堅持這條道路。
但很遺憾,Hinton 等學(xué)者始終冥頑不靈、反復(fù)拒絕承認符號的意義。
但包括我在內(nèi),也有很多人一直倡導(dǎo)使用“混合模型”,把深度學(xué)習(xí)跟符號處理結(jié)合起來。至于為什么 Hinton 一派總是想徹底拋棄符號處理,至今也沒有一個令人信服的科學(xué)解釋。相對可靠的猜測,恐怕就是簡簡單單的“積怨”二字。
曾經(jīng),事情不是這樣的。
Warren McCulloch 和 Walter Pitts 在 1943 年撰寫的論文《神經(jīng)活動中內(nèi)在思維的邏輯演算》(A Logical Calculus of the Ideas Immanent in Nervous Activity)就提出過合二為一的觀點,這也是馮諾依曼在自己計算機基礎(chǔ)文章中引用過的唯一一篇論文。很明顯,馮諾依曼他們花了大量時間思考這個問題,卻沒料到反對的聲音會來得那么快。
到上世紀五十年代末,這種割裂仍然存在。
AI 領(lǐng)域的不少先驅(qū)級人物,例如 McCarthy、Allen Newell、Herb Simon 等,似乎對神經(jīng)網(wǎng)絡(luò)一派不加任何關(guān)注。而神經(jīng)網(wǎng)絡(luò)陣營似乎也想劃清界線:一篇刊載于 1957 年《紐約客》的文章就提到,F(xiàn)rank Rosenblatt 的早期神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠繞過符號系統(tǒng),成為“一臺似乎具備思維能力的「強大機器」?!?/p>
而這種對符號處理的粗暴放棄,本身其實相當(dāng)可疑。兩派之間劍拔弩張,甚至迫使 Advances in Computers 雜志發(fā)表一篇名為《關(guān)于神經(jīng)網(wǎng)絡(luò)爭議的社會學(xué)史》(A Sociological History of the Neural Network Controversy)的論文,其中提到了兩派就資金、聲譽和媒體影響力展開的激烈爭斗。
時間來到 1969 年,Minsky 和 Seymour Papert 發(fā)表了從數(shù)學(xué)層面對神經(jīng)網(wǎng)絡(luò)(當(dāng)時被稱為「感知器」)加以批判的詳盡文章,這相當(dāng)于是第一次把槍口指向堪稱所有現(xiàn)代神經(jīng)網(wǎng)絡(luò)祖先的早期成果。兩位研究者證明了簡單神經(jīng)網(wǎng)絡(luò)具有巨大局限性,而且對高復(fù)雜度神經(jīng)網(wǎng)絡(luò)解決復(fù)雜任務(wù)的能力提出懷疑(現(xiàn)在來看,這種推斷還是太過悲觀)。
于是,隨后十多年中,研究者對于神經(jīng)網(wǎng)絡(luò)的熱情逐漸下降。Rosenblatt 本人因此丟掉了不少研究經(jīng)費,并在兩年后死于一次航海事故。
而當(dāng)神經(jīng)網(wǎng)絡(luò)在八十年代重新出現(xiàn)時,神經(jīng)網(wǎng)絡(luò)的領(lǐng)導(dǎo)者們自然而然地開始跟符號處理保持距離。當(dāng)時的研究者曾明確表示,雖然他們有能力構(gòu)建起能夠兼容符號處理的神經(jīng)網(wǎng)絡(luò),但他們沒有興趣。
相反,他們的目標就是打造能夠替代符號處理系統(tǒng)的模型。作為典型示例,他們提到人類孩童中經(jīng)常出現(xiàn)的過度正則化錯誤(比如把 go 的過去時態(tài)寫成 goed,而非 went)就是一種神經(jīng)網(wǎng)絡(luò)特征,這也證明神經(jīng)網(wǎng)絡(luò)比經(jīng)典符號處理規(guī)則更接近于人腦。(但我也能舉出很多反例。)
1986 年我開始讀大學(xué),神經(jīng)網(wǎng)絡(luò)也迎來第一次大復(fù)興。Hinton 參與整理的兩卷技術(shù)論述集幾個禮拜即告售罄,《紐約時報》在科學(xué)版面的頭版處刊載了神經(jīng)網(wǎng)絡(luò)內(nèi)容,計算神經(jīng)學(xué)家 Terry Sejnowski 則在《今日秀》節(jié)目中解釋了神經(jīng)網(wǎng)絡(luò)的工作原理。那時候深度學(xué)習(xí)的研究水平還不高,但至少又推進了一步。
1990 年,Hinton 在 Artificial Intelligence 雜志上發(fā)表了一篇名為《連接主義符號處理》(Connectionist Symbol Processing )的論文,希望把深度學(xué)習(xí)和符號處理這兩個世界連通起來。我一直覺得 Hinton 這時候是真的找對了方向,真希望他把研究堅持下去。當(dāng)時,我也在推動混合模型的發(fā)展——只是選取了心理學(xué)這個角度。18(Ron Sun 等人當(dāng)時也在計算機科學(xué)領(lǐng)域大力推動這一趨勢,只是未能得到應(yīng)有的關(guān)注。)
但出于某些我不知情的理由,Hinton 最終認定深度學(xué)習(xí)加符號處理這事沒什么搞頭。我也私下問過,但他每次都拒絕解釋,而且據(jù)我所知他也沒提出過任何具體的論據(jù)。有人認為這是因為 Hinton 本人之后幾年的職場發(fā)展不順,特別是直到二十一世紀初,深度學(xué)習(xí)也沒折騰出什么大動靜;也有另一種說法,認為 Hinton 是被深度學(xué)習(xí)的成功給沖昏了頭腦。
當(dāng)深度學(xué)習(xí)在 2012 年再次亮相時,兩派 AI 勢力之間涇渭分明的態(tài)勢已經(jīng)保持了十年。
到 2015 年,Hinton 開始旗幟鮮明地反符號技術(shù)。Hinton 曾在斯坦福大學(xué)的一場 AI 研討會上發(fā)表演講,他把符號比作“以太”(aether,也是科學(xué)史上最大的認知誤區(qū)之一)19。那次研討會上我也有發(fā)言,所以我在茶歇期間去問過他,說他的理論其實很像是符號系統(tǒng)的神經(jīng)網(wǎng)絡(luò)實現(xiàn)、只是被強行稱為“?!薄5麤]有回答,只是讓我一邊待著去。
在此之后,Hinton 魔怔般地瘋狂反對符號技術(shù)。2016 年,LeCun、Bengio 和 Hinton 共同在學(xué)界最具份量的《自然》雜志上發(fā)表論文,其中直接摒棄了符號處理技術(shù)。沒有和解的余地,文章宣稱應(yīng)該用神經(jīng)網(wǎng)絡(luò)徹底取代符號系統(tǒng)。后來,Hinton 又在另一次會議上呼吁,別在符號處理身上浪費資金了。這就如同電動車時代已到,為什么還要在內(nèi)燃機研究上投入心力?
但這種尚未充分探索就枉下結(jié)論的態(tài)度實在令人難以信服。Hinton 說得沒錯,以往的 AI 研究者確實也對深度學(xué)習(xí)發(fā)起過攻訐,但他自己如今也不過是以牙還牙、并沒好到哪里去。
在我看來,這種對抗性的立場其實損害了整個 AI 學(xué)界的利益。但無論如何,Hinton 發(fā)起的這波符號處理討伐戰(zhàn)確實取得了巨大成功,之后幾乎所有研究投資都集中在深度學(xué)習(xí)這個方向上。
Hinton、LeCun 和 Bengio 共同獲得 2018 年的圖靈獎,他的研究成為全世界關(guān)注的焦點。
更為諷刺的是,Hinton 其實是 George Boole 的玄孫,而以 Boole 命名的 Boolean 代數(shù)正是符號 AI 中的基礎(chǔ)工具之一。如果這兩代天才能把智慧合為一處,也許我們所期待的真正 AI 能夠早日來臨。
至于我為什么堅持認為混合 AI(不止于深度學(xué)習(xí)和符號處理)才是正確的方向,理由有如下四點:
這世界上的很多知識,從歷史到科技,目前仍以符號形式為主。像純深度學(xué)習(xí)那樣放棄傳統(tǒng)知識積累、單靠算力從零開始探索一切,似乎既武斷又自縛雙手。
即使在算術(shù)這類清晰有序的領(lǐng)域中,深度學(xué)習(xí)的表現(xiàn)也不理想;而混合系統(tǒng)也許經(jīng)任何單一方法都更有潛力可挖。
在計算中的很多基礎(chǔ)層面,符號系統(tǒng)的表現(xiàn)仍遠超現(xiàn)有神經(jīng)網(wǎng)絡(luò),前者更擅長在復(fù)雜場景下進行推理,能夠?qū)崿F(xiàn)算術(shù)等更系統(tǒng)、更可靠的基本運算,也能更精確地表達部分和整體之間的關(guān)系(從對三維世界的理解、到對人類語言的分析,這都是種必不可少的能力)。
符號系統(tǒng)在表達和查詢大型數(shù)據(jù)庫方面更穩(wěn)健、更靈活,也能更好地實現(xiàn)形式驗證技術(shù)(在某些安全應(yīng)用中至關(guān)重要),其自身也在現(xiàn)代微處理器設(shè)計中擁有充分體現(xiàn)。粗暴放棄優(yōu)勢、拒絕嘗試混合架構(gòu)簡直是不可理喻。
深度學(xué)習(xí)系統(tǒng)是種“黑盒子”,我們只能看到輸入和輸出,但卻無法理解其內(nèi)部運作和處理機制、解釋不了模型為什么會給出當(dāng)前結(jié)論。而且如果模型給出了錯誤答案,我們能做的除了收集更多數(shù)據(jù)、也沒什么更好的辦法。
于是乎,深度學(xué)習(xí)笨拙、難以解釋,而且在很多場景下根本無法幫助人類實現(xiàn)認知增強。相反,如果能把深度學(xué)習(xí)的學(xué)習(xí)能力跟明確的符號、豐富的語義聯(lián)系起來,得到的混合方案也許能掀起新一輪變革。
正是因為通用人工智能(AGI)將承擔(dān)起巨大的責(zé)任,所以它必須像不銹鋼般堅實、可靠、充分發(fā)揮每一種底材的優(yōu)勢。同理,任何單一的 AI 方法都不足以解決問題,正確的道路應(yīng)該是把多種方法合而為一。 會有人蠢到單方面強調(diào)鐵元素或者碳元素在不銹鋼中的重要性嗎?但 AI 領(lǐng)域的現(xiàn)狀就是這樣。
但也有好消息。1990 年時的 Hinton 曾經(jīng)短暫提出過神經(jīng)與符號間的和解,而我將整個職業(yè)生涯都投入了其中。這種融合探索一刻未停,而且正在積蓄力量。
Artur Garcez 和 Luis Lamb 曾在 2009 年發(fā)表過一篇關(guān)于混合模型的文章,名為《神經(jīng)符號認知推理》(Neural-Symbolic Cognitive Reasoning)。而近年來在圍棋、象棋等棋盤游戲中表現(xiàn)出色的,也都是混合模型。AlphaGo 就將符號樹搜索與深度學(xué)習(xí)結(jié)合起來,這一基本思路源自上世紀五十年代末、并在九十年代更豐富的統(tǒng)計數(shù)據(jù)支持下得到強化。
很明顯,單靠經(jīng)典樹搜索本身并不夠,單靠深度學(xué)習(xí)也不行。再說 DeepMind 的 ALphaFold2,這是一種通過核苷酸預(yù)測蛋白質(zhì)結(jié)構(gòu)的 AI 系統(tǒng),采用的同樣是混合模型。其中匯聚了一系列精心設(shè)計、以符號形式表達的 3D 分子結(jié)構(gòu),同時具備令人驚嘆的深度學(xué)習(xí)數(shù)據(jù)分析能力。
Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 等研究者也在朝著神經(jīng)符號方向進軍。包括 IBM、英特爾、Google、Facebook 和微軟在內(nèi)的眾多科技巨頭已經(jīng)在認真投資神經(jīng)符號學(xué)方法。Swarat Chaudhuri 和他的同事們正在探索“神經(jīng)符號編程”( neurosymbolic programming)這一全新領(lǐng)域,我個人對此也是極度期待。
四十年來,我第一次對 AI 抱有樂觀期望。正如認知科學(xué)家 Chaz Firestone 與 Brian Scholl 所言,“頭腦不只有一種運轉(zhuǎn)方式,因為頭腦并非單一的存在。相反,頭腦由多個部分構(gòu)成,不同的部分有不同的運作機制:觀看顏色與規(guī)劃假期的方式不同,理解語句、操縱肢體、記憶事件、感受情緒的方法也是各不相同?!?strong>盲目把所有認知都堆在一處根本不現(xiàn)實,而隨時整個 AI 行業(yè)對混合方法的態(tài)度愈發(fā)開放,我認為真正的機遇也許即將到來。
面對倫理學(xué)、計算科學(xué)等現(xiàn)實挑戰(zhàn),AI 領(lǐng)域所應(yīng)依靠的不僅僅是數(shù)學(xué)和計算機科學(xué)知識,還需要語言學(xué)、心理學(xué)、人類學(xué)及神經(jīng)科學(xué)等多個這科的加持。只有匯聚一切力量、團結(jié)一切盟友,AI 才能再次沖破牢籠。請記住,人類大腦可能是已知宇宙中最復(fù)雜的系統(tǒng),如果我們想要用技術(shù)重現(xiàn)這樣一個復(fù)雜系統(tǒng),將不得不仰仗開放協(xié)作的力量。
參考文獻:
- Varoquaux, G. & Cheplygina, V. How I failed machine learning in medical imaging—shortcomings and recommendations. arXiv 2103.10292 (2021).
- Chan, S., & Siegel, E.L. Will machine learning end the viability of radiology as a thriving medical specialty? British Journal of Radiology92, 20180416 (2018).
- Ross, C. Once billed as a revolution in medicine, IBM’s Watson Health is sold off in parts. STAT News (2022).
- Hao, K. AI pioneer Geoff Hinton: “Deep learning is going to be able to do everything.” MIT Technology Review (2020).
- Aguera y Arcas, B. Do large language models understand us? Medium (2021).
- Davis, E. & Marcus, G. GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about. MIT Technology Review (2020).
- Greene, T. DeepMind tells Google it has no idea how to make AI less toxic. The Next Web (2021).
- Weidinger, L., et al. Ethical and social risks of harm from Language Models. arXiv 2112.04359 (2021).
- Bender, E.M., Gebru, T., McMillan-Major, A., & Schmitchel, S. On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency 610–623 (2021).
- Kaplan, J., et al. Scaling Laws for Neural Language Models. arXiv 2001.08361 (2020).
- Markoff, J. Smaller, Faster, Cheaper, Over: The Future of Computer Chips. The New York Times (2015).
- Rae, J.W., et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv 2112.11446 (2022).
- Thoppilan, R., et al. LaMDA: Language models for dialog applications. arXiv 2201.08239 (2022).
- Wiggers, K. Facebook releases AI development tool based on NetHack. Venturebeat.com (2020).
- Brownlee, J. Hands on big data by Peter Norvig. machinelearningmastery.com (2014).
- McCulloch, W.S. & Pitts, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology52, 99-115 (1990).
- Olazaran, M. A sociological history of the neural network controversy. Advances in Computers37, 335-425 (1993).
- Marcus, G.F., et al. Overregularization in language acquisition. Monographs of the Society for Research in Child Development57(1998).
- Hinton, G. Aetherial Symbols. AAAI Spring Symposium on Knowledge Representation and Reasoning Stanford University, CA (2015).
- LeCun, Y., Bengio, Y., & Hinton, G. Deep learning. Nature521, 436-444 (2015).
- Razeghi, Y., Logan IV, R.L., Gardner, M., & Singh, S. Impact of pretraining term frequencies on few-shot reasoning. arXiv 2202.07206 (2022).
- Lenat, D. What AI can learn from Romeo & Juliet. Forbes (2019).23. Chaudhuri, S., et al. Neurosymbolic programming. Foundations and Trends in Programming Languages7, 158-243 (2021).
作者:Gary Marcus,譯者:核子可樂;微信公眾號: InfoQ
原文鏈接:https://nautil.us/deep-learning-is-hitting-a-wall-14467/
譯文鏈接:https://mp.weixin.qq.com/s/j0MKAh9z41AFQqz4HbI8Rw
本文由 @InfoQ 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
我還以為人要深度學(xué)習(xí),原來是機器人,現(xiàn)在確實為時過早
面對科學(xué)技術(shù)的飛速發(fā)展,我們應(yīng)該做出如何的態(tài)度和方法來面對?
深度學(xué)習(xí)代表的計算機語言不能完全代替人工,關(guān)乎健康的科技手段都不能太絕對