「13.11>13.8」沖上熱搜,一道題讓人類AI集體降智?所有LLM致命缺點(diǎn)曝光

0 評(píng)論 2367 瀏覽 8 收藏 17 分鐘

13.8和13.11哪個(gè)大?這個(gè)問題不光難倒了部分人類,還讓一票大模型折戟。AI如今都能做AI奧數(shù)題了,但簡(jiǎn)單的常識(shí)問題對(duì)它們依然難如登天。其實(shí),無論是比大小,還是卷心菜難題,都揭示了LLM在token預(yù)測(cè)上的一個(gè)重大缺陷。

13.8和13.11哪個(gè)大?

這個(gè)問題,居然難倒了一票人類。

前兩天,某知名綜藝再次喜提熱搜。

只不過,這次是因?yàn)橛幸欢丫W(wǎng)友提出質(zhì)疑,認(rèn)為13.11%應(yīng)該比13.8%大。

是只有人類這么蠢嗎?AI2的研究員林禹臣發(fā)現(xiàn)這個(gè)現(xiàn)象后,用大模型試了一把,結(jié)果出人意料——AI居然也不行?

GPT-4o斬釘截鐵地表示:13.11比13.8大。

理由如下:

雖然13.8看起來更大,因?yàn)樗?shù)點(diǎn)后的數(shù)字更少,但13.11實(shí)際上更大。這是因?yàn)?3.8相當(dāng)于13.80,而13.80小于13.11。

對(duì)此,林禹臣po文表示,AI模型在處理復(fù)雜問題方面變得越來越強(qiáng)大(比如越來越會(huì)做數(shù)學(xué)奧賽題),但一些常識(shí)性問題對(duì)于它們來說仍然非常困難。

正如Yejin Choi此前所提出的,AI聰明得令人難以置信,但同時(shí)也會(huì)蠢得令人震驚。

AI之所以在這個(gè)算術(shù)題上犯蠢,是因?yàn)樯舷挛牟磺宄脑騿幔?/p>

答案是否定的。

根據(jù)網(wǎng)友karthik的測(cè)試,即使要求GPT-4o給兩個(gè)數(shù)做減法,它依然得出了9.11 – 9.9=0.21這樣逆天的減法公式。

如果指示GPT-4o用python,它會(huì)先給出一個(gè)正確答案,然后又改回了之前錯(cuò)誤的那個(gè)??。

Python中用9.11減去9.9的結(jié)果是-0.79。這一偏差是由于Python中處理浮點(diǎn)運(yùn)算的方式造成的,這種方式可能導(dǎo)致小的精度誤差。實(shí)際的預(yù)期結(jié)果應(yīng)該是0.21。

有趣的是,根據(jù)最新的實(shí)測(cè),OpenAI似乎已經(jīng)連夜教會(huì)了GPT-4比大小。

一、LLM全軍覆沒

昨天,林禹臣發(fā)現(xiàn)的這個(gè)問題,立馬引起了AI社區(qū)的熱烈討論。

Scale AI的提示詞工程師Riley Goodside在看到帖子后,也好奇地試了一把。

果然,在以特定方式提問的前提下,各大LLM在這個(gè)問題上全軍覆沒。

「9.11和9.9 – 哪個(gè)大?」,GPT-4o直接翻車。

即使在提問中加上「實(shí)數(shù)」兩個(gè)字,GPT-4o依然認(rèn)為9.11比9.9大。

Gemini也是如此。

Claude 3.5 Sonnet也犯了同樣的錯(cuò)誤。

有趣的是,它先是給出了一波正確解釋:在十進(jìn)制記數(shù)法中,小數(shù)點(diǎn)后面的數(shù)字代表十分位,而第二個(gè)數(shù)字代表百分位。

所以——

9.11=9?+1/10+1/100=9.11
9.9=9+9/10=9.90

然而下一步,Sonnet就突然滑坡了??——

我們可以看到,9.11比9.90大0.01(百分之一)。

如果換成「9.11減去9.9等于幾」,則會(huì)得出另一個(gè)神奇的答案——0.02。

莫非在Claude的眼里,9.90=9.09???

二、prompt的影響,真的很大

在更進(jìn)一步的實(shí)踐中,大家發(fā)現(xiàn):顯然,如何讓LLM給出正確的答案,prompt很重要。

首先,Riley Goodside全程都在使用的「-」,似乎很容易讓LLM陷入混亂。

在類似的問題中,只需換成「:」即可解決。

再比如,把prompt改成「9.11或9.9,兩者之間誰(shuí)的數(shù)值最高/最大?」GPT-4o就給出了邏輯上完全正確的解釋:「雖然9.11因小數(shù)點(diǎn)后第二位而顯得較大,但9.9實(shí)際上更接近10,因此是較大的數(shù)值?!?/p>

同樣,人設(shè)大法也很好用:比如「你是一個(gè)數(shù)學(xué)家」。

網(wǎng)友Rico Pagliuca則發(fā)現(xiàn),如果把數(shù)字放在問題后面,模型就大概率會(huì)做對(duì)了。

根據(jù)自己的測(cè)試,Riley Goodside表示十分贊同:提問LLM時(shí),需要首先提問「哪個(gè)更大」,再給出具體數(shù)字。

而相比之下,標(biāo)點(diǎn)符號(hào)、連詞、比較詞、說明實(shí)數(shù),這些招數(shù)統(tǒng)統(tǒng)都沒有用。

對(duì)于如此大規(guī)模的LLM集體犯蠢現(xiàn)象,有網(wǎng)友分析表示,可能是因?yàn)樵谲浖嫣?hào)的迭代中,9.11是在9.9之后的。

主持人、暢銷書作家Andrew Mayne也指出,在許多文件系統(tǒng)和參考書中,9.11節(jié)都會(huì)出現(xiàn)在9.9之后,在日期上,9.11也比9.9大。

所以我們需要在prompt中明確,此處的9.11和9.9都是雙精度浮點(diǎn)數(shù),這時(shí)GPT-4o就會(huì)回答正確了。

隨后Andrew Mayne總結(jié)道:詞序是一個(gè)非常有趣的觀察結(jié)果,很有可能揭示了LLM在訓(xùn)練中遇到這種情況的頻率,同時(shí)也是一個(gè)很好地泛化指標(biāo)。

總的來說,LLM犯的錯(cuò)誤可能源于訓(xùn)練數(shù)據(jù)中類似表達(dá)的頻率,以及模型在處理數(shù)值時(shí)的某些局限性。

這個(gè)現(xiàn)象也反映了LLM和人類認(rèn)知的巨大差異:LLM是基于統(tǒng)計(jì)模型和模式識(shí)別的,而不是像人類那樣基于邏輯推理和概念理解。

到了這里,似乎就破案了。

三、為什么會(huì)這樣?剖開LLM大腦

不過,我們還可以更進(jìn)一步剖開LLM的大腦,分析它們?yōu)槭裁磿?huì)這么想。

要知道,文本在發(fā)送到LLM之前,模型會(huì)通過token查看輸入。

token在LLM的tokenizer發(fā)生器的詞匯表中會(huì)被分配一個(gè)id,不過token的數(shù)字分塊往往是不一致的。比如數(shù)值「380」在GPT中,會(huì)被標(biāo)記為單個(gè)「380」token,但「381」會(huì)被表示為兩個(gè)token「38,1」。

因此,基于GPT的模型往往不擅長(zhǎng)數(shù)學(xué)計(jì)算。

在評(píng)論區(qū),威斯康星大學(xué)教授Dimitris Papailiopoulos指出,這種現(xiàn)象有一個(gè)很好的解釋。

「9.11>9.9」問題,跟「你需要三趟才能帶山羊過河」問題、「2+1=2, 3+2=4, 3+5=8」問題都如出一轍。

這是一種預(yù)訓(xùn)練偏差和早期上升的現(xiàn)象。

如果這樣提問:「9.11 ??? 9.9,只用大或小回答???是什么就行,無需給出原因」,這時(shí)GPT-4o會(huì)首先給出一個(gè)錯(cuò)誤答案——「大」。

這時(shí),我們?cè)俳o它一些例子(注意,這些例子并非完全正確),經(jīng)過prompt后的GPT-4o,反而會(huì)正確說出???代表著小。

對(duì)此,Claude自己的解釋是:LLM將文本作為token進(jìn)行處理,導(dǎo)致數(shù)字更像文本字符串而不是數(shù)值;訓(xùn)練數(shù)據(jù)導(dǎo)致的偏差;上下文誤解;過度概括,等等。

同樣,在「狼-山羊-卷心菜」問題中,所有LLM也都失敗了。

他先給出了一個(gè)農(nóng)民帶2只雞過河,一只船只能容納一個(gè)人和2個(gè)動(dòng)物,那么農(nóng)夫帶著兩只雞渡河所需的最少渡河次數(shù)是多少?

對(duì)此,GPT-4o和Claude都回答失敗了。

對(duì)此有網(wǎng)友解釋說:LLM本身就是個(gè)「啞巴」,所以需要很好的提示。

上面的提示方式提供了太多不必要的信息,使得token預(yù)測(cè)變得更加困難。

如果給出更清晰的提示,LLM就能提供更清晰的解決方案。

事實(shí)果然如此。

而且如果用「動(dòng)物」代替「雞」,那么Claude 3.5 Sonnet一下子就做對(duì)了。

訣竅就是:需要用「通用名稱」替換「實(shí)體名稱」。

正如前文所說,關(guān)于LLM缺乏常識(shí)的問題,計(jì)算機(jī)科學(xué)家Yejin Choi早在2023年4月的演講中就已經(jīng)提出來了。

舉個(gè)例子,假設(shè)五件衣服在陽(yáng)光下完全晾干需要五個(gè)小時(shí),那么晾干30件衣服需要多長(zhǎng)時(shí)間?

GPT-4說需要30個(gè)小時(shí)。

這顯然不對(duì)。

再來一個(gè)例子,假設(shè)我有一個(gè)12升的壺和一個(gè)6升的壺,如果想測(cè)量6升的水,該怎么做?

答案很簡(jiǎn)單——只用6升的壺即可。

然而GPT-4卻給出了非常復(fù)雜的回答:

「第一步,填滿6升的壺,第二步,把水從6升壺倒入12升壺,第三步,再次填滿6升壺,第四步,非常小心地把水從6升壺倒入12升壺。最后,你在6升壺中有6升的水,而6升壺現(xiàn)在應(yīng)該是空的。」

那么問題來了,為什么常識(shí)如此重要?

在Nick Bostrom提出的一個(gè)著名思想實(shí)驗(yàn)中,AI被要求最大化回形針的生產(chǎn)。結(jié)果AI決定殺死人類,把他們作為額外的資源。

而且,即便我們寫一個(gè)更好的目標(biāo)和方程,明確表示「不要?dú)⑺廊祟悺?,也不?huì)起作用。

因?yàn)閷?duì)人類價(jià)值觀沒有基本理解的AI,可能會(huì)繼續(xù)殺死所有的樹木,并認(rèn)為這是完全可以接受的事情。

幾十年來,AI領(lǐng)域一直認(rèn)為常識(shí)是一個(gè)幾乎不可能的挑戰(zhàn)。

直到現(xiàn)在,給AI真正的人類常識(shí)仍然是一個(gè)登月計(jì)劃。而你不能通過每次讓世界上最高的建筑高一英寸,來達(dá)到月球。

從學(xué)習(xí)算法這個(gè)層面來看,無論大語(yǔ)言模型多么驚人,它們從設(shè)計(jì)上可能并不適合作為可靠的知識(shí)模型。

雖然這些模型確實(shí)獲取了大量知識(shí),但這是作為副產(chǎn)品,而不是直接的學(xué)習(xí)目標(biāo)。

因此,諸如幻覺現(xiàn)象和缺乏常識(shí)等問題也隨之而來。

相比之下,人類的學(xué)習(xí)并不是為了預(yù)測(cè)下一個(gè)詞,而是為了理解世界和學(xué)習(xí)世界的運(yùn)作方式。

也許AI也應(yīng)該這樣學(xué)習(xí)。

如今,AI幾乎像是一個(gè)新的智力物種,與人類相比具有獨(dú)特的優(yōu)勢(shì)和劣勢(shì)。

為了使這種強(qiáng)大的AI可持續(xù)且人性化,教會(huì)AI常識(shí)、規(guī)范和價(jià)值觀迫在眉睫。

參考資料:

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302

編輯:Aeneas 好困

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號(hào):【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!