亚洲大成色WWW永久网站,成人a毛片手机免费播放

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

「13.11＞13.8」沖上熱搜，一道題讓人類AI集體降智？所有LLM致命缺點曝光

2024-07-17

0 評論 2520 瀏覽 8 收藏

🔗 产品经理的核心价值是能够准确发现和满足用户需求，把用户需求转化为产品功能，并协调资源推动落地，创造商业价值

13.8和13.11哪個大？這個問題不光難倒了部分人類，還讓一票大模型折戟。AI如今都能做AI奧數(shù)題了，但簡單的常識問題對它們依然難如登天。其實，無論是比大小，還是卷心菜難題，都揭示了LLM在token預測上的一個重大缺陷。

13.8和13.11哪個大？

這個問題，居然難倒了一票人類。

前兩天，某知名綜藝再次喜提熱搜。

只不過，這次是因為有一堆網(wǎng)友提出質疑，認為13.11%應該比13.8%大。

是只有人類這么蠢嗎？AI2的研究員林禹臣發(fā)現(xiàn)這個現(xiàn)象后，用大模型試了一把，結果出人意料——AI居然也不行？

B 端产品经理如何快速成长？

产品与业务架构主要是将整个业务工作流进行分层，梳理，然后抽象出一个个需求，将业务需求与产品合情合理的映射起来，最终使业务数据在产品中流动，执行，记录，使用。

GPT-4o斬釘截鐵地表示：13.11比13.8大。

理由如下：

雖然13.8看起來更大，因為它小數(shù)點后的數(shù)字更少，但13.11實際上更大。這是因為13.8相當于13.80，而13.80小于13.11。

對此，林禹臣po文表示，AI模型在處理復雜問題方面變得越來越強大（比如越來越會做數(shù)學奧賽題），但一些常識性問題對于它們來說仍然非常困難。

正如Yejin Choi此前所提出的，AI聰明得令人難以置信，但同時也會蠢得令人震驚。

AI之所以在這個算術題上犯蠢，是因為上下文不清楚的原因嗎？

答案是否定的。

根據(jù)網(wǎng)友karthik的測試，即使要求GPT-4o給兩個數(shù)做減法，它依然得出了9.11 – 9.9=0.21這樣逆天的減法公式。

如果指示GPT-4o用python，它會先給出一個正確答案，然后又改回了之前錯誤的那個??。

Python中用9.11減去9.9的結果是-0.79。這一偏差是由于Python中處理浮點運算的方式造成的，這種方式可能導致小的精度誤差。實際的預期結果應該是0.21。

有趣的是，根據(jù)最新的實測，OpenAI似乎已經(jīng)連夜教會了GPT-4比大小。

一、LLM全軍覆沒

昨天，林禹臣發(fā)現(xiàn)的這個問題，立馬引起了AI社區(qū)的熱烈討論。

Scale AI的提示詞工程師Riley Goodside在看到帖子后，也好奇地試了一把。

果然，在以特定方式提問的前提下，各大LLM在這個問題上全軍覆沒。

「9.11和9.9 – 哪個大？」，GPT-4o直接翻車。

即使在提問中加上「實數(shù)」兩個字，GPT-4o依然認為9.11比9.9大。

Gemini也是如此。

Claude 3.5 Sonnet也犯了同樣的錯誤。

有趣的是，它先是給出了一波正確解釋：在十進制記數(shù)法中，小數(shù)點后面的數(shù)字代表十分位，而第二個數(shù)字代表百分位。

所以——

9.11=9?+1/10+1/100=9.11
9.9=9+9/10=9.90

然而下一步，Sonnet就突然滑坡了??——

我們可以看到，9.11比9.90大0.01（百分之一）。

如果換成「9.11減去9.9等于幾」，則會得出另一個神奇的答案——0.02。

莫非在Claude的眼里，9.90=9.09？??

二、prompt的影響，真的很大

在更進一步的實踐中，大家發(fā)現(xiàn)：顯然，如何讓LLM給出正確的答案，prompt很重要。

首先，Riley Goodside全程都在使用的「-」，似乎很容易讓LLM陷入混亂。

在類似的問題中，只需換成「:」即可解決。

再比如，把prompt改成「9.11或9.9，兩者之間誰的數(shù)值最高/最大？」GPT-4o就給出了邏輯上完全正確的解釋：「雖然9.11因小數(shù)點后第二位而顯得較大，但9.9實際上更接近10，因此是較大的數(shù)值?！?/p>

同樣，人設大法也很好用：比如「你是一個數(shù)學家」。

網(wǎng)友Rico Pagliuca則發(fā)現(xiàn)，如果把數(shù)字放在問題后面，模型就大概率會做對了。

根據(jù)自己的測試，Riley Goodside表示十分贊同：提問LLM時，需要首先提問「哪個更大」，再給出具體數(shù)字。

而相比之下，標點符號、連詞、比較詞、說明實數(shù)，這些招數(shù)統(tǒng)統(tǒng)都沒有用。

對于如此大規(guī)模的LLM集體犯蠢現(xiàn)象，有網(wǎng)友分析表示，可能是因為在軟件版號的迭代中，9.11是在9.9之后的。

主持人、暢銷書作家Andrew Mayne也指出，在許多文件系統(tǒng)和參考書中，9.11節(jié)都會出現(xiàn)在9.9之后，在日期上，9.11也比9.9大。

所以我們需要在prompt中明確，此處的9.11和9.9都是雙精度浮點數(shù)，這時GPT-4o就會回答正確了。

隨后Andrew Mayne總結道：詞序是一個非常有趣的觀察結果，很有可能揭示了LLM在訓練中遇到這種情況的頻率，同時也是一個很好地泛化指標。

總的來說，LLM犯的錯誤可能源于訓練數(shù)據(jù)中類似表達的頻率，以及模型在處理數(shù)值時的某些局限性。

這個現(xiàn)象也反映了LLM和人類認知的巨大差異：LLM是基于統(tǒng)計模型和模式識別的，而不是像人類那樣基于邏輯推理和概念理解。

到了這里，似乎就破案了。

三、為什么會這樣？剖開LLM大腦

不過，我們還可以更進一步剖開LLM的大腦，分析它們?yōu)槭裁磿@么想。

要知道，文本在發(fā)送到LLM之前，模型會通過token查看輸入。

token在LLM的tokenizer發(fā)生器的詞匯表中會被分配一個id，不過token的數(shù)字分塊往往是不一致的。比如數(shù)值「380」在GPT中，會被標記為單個「380」token，但「381」會被表示為兩個token「38，1」。

因此，基于GPT的模型往往不擅長數(shù)學計算。

在評論區(qū)，威斯康星大學教授Dimitris Papailiopoulos指出，這種現(xiàn)象有一個很好的解釋。

「9.11>9.9」問題，跟「你需要三趟才能帶山羊過河」問題、「2+1=2, 3+2=4, 3+5=8」問題都如出一轍。

這是一種預訓練偏差和早期上升的現(xiàn)象。

如果這樣提問：「9.11 ??? 9.9，只用大或小回答???是什么就行，無需給出原因」，這時GPT-4o會首先給出一個錯誤答案——「大」。

這時，我們再給它一些例子（注意，這些例子并非完全正確），經(jīng)過prompt后的GPT-4o，反而會正確說出???代表著小。

對此，Claude自己的解釋是：LLM將文本作為token進行處理，導致數(shù)字更像文本字符串而不是數(shù)值；訓練數(shù)據(jù)導致的偏差；上下文誤解；過度概括，等等。

同樣，在「狼-山羊-卷心菜」問題中，所有LLM也都失敗了。

他先給出了一個農(nóng)民帶2只雞過河，一只船只能容納一個人和2個動物，那么農(nóng)夫帶著兩只雞渡河所需的最少渡河次數(shù)是多少？

對此，GPT-4o和Claude都回答失敗了。

對此有網(wǎng)友解釋說：LLM本身就是個「啞巴」，所以需要很好的提示。

上面的提示方式提供了太多不必要的信息，使得token預測變得更加困難。

如果給出更清晰的提示，LLM就能提供更清晰的解決方案。

事實果然如此。

而且如果用「動物」代替「雞」，那么Claude 3.5 Sonnet一下子就做對了。

訣竅就是：需要用「通用名稱」替換「實體名稱」。

正如前文所說，關于LLM缺乏常識的問題，計算機科學家Yejin Choi早在2023年4月的演講中就已經(jīng)提出來了。

舉個例子，假設五件衣服在陽光下完全晾干需要五個小時，那么晾干30件衣服需要多長時間？

GPT-4說需要30個小時。

這顯然不對。

再來一個例子，假設我有一個12升的壺和一個6升的壺，如果想測量6升的水，該怎么做？

答案很簡單——只用6升的壺即可。

然而GPT-4卻給出了非常復雜的回答：

「第一步，填滿6升的壺，第二步，把水從6升壺倒入12升壺，第三步，再次填滿6升壺，第四步，非常小心地把水從6升壺倒入12升壺。最后，你在6升壺中有6升的水，而6升壺現(xiàn)在應該是空的。」

那么問題來了，為什么常識如此重要？

在Nick Bostrom提出的一個著名思想實驗中，AI被要求最大化回形針的生產(chǎn)。結果AI決定殺死人類，把他們作為額外的資源。

而且，即便我們寫一個更好的目標和方程，明確表示「不要殺死人類」，也不會起作用。

因為對人類價值觀沒有基本理解的AI，可能會繼續(xù)殺死所有的樹木，并認為這是完全可以接受的事情。

幾十年來，AI領域一直認為常識是一個幾乎不可能的挑戰(zhàn)。

直到現(xiàn)在，給AI真正的人類常識仍然是一個登月計劃。而你不能通過每次讓世界上最高的建筑高一英寸，來達到月球。

從學習算法這個層面來看，無論大語言模型多么驚人，它們從設計上可能并不適合作為可靠的知識模型。

雖然這些模型確實獲取了大量知識，但這是作為副產(chǎn)品，而不是直接的學習目標。

因此，諸如幻覺現(xiàn)象和缺乏常識等問題也隨之而來。

相比之下，人類的學習并不是為了預測下一個詞，而是為了理解世界和學習世界的運作方式。

也許AI也應該這樣學習。

如今，AI幾乎像是一個新的智力物種，與人類相比具有獨特的優(yōu)勢和劣勢。

為了使這種強大的AI可持續(xù)且人性化，教會AI常識、規(guī)范和價值觀迫在眉睫。

參考資料：

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302

編輯：Aeneas 好困

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】，微信公眾號：【新智元】，原創(chuàng)/授權發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內容，請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

"智能+"中國主平臺，致力于推動中國從"互聯(lián)網(wǎng)+"邁向"智能+"

113篇作品 281382總閱讀量

想爆火純靠投流？小程序短劇并不是“暴富神話”

10-311820 瀏覽

想爆火純靠投流？小程序短劇并不是“暴富神話”

關于面試，我想說的都在這里了

08-182901 瀏覽

關于面試，我想說的都在這里了

产品经理难题：别人都在管理，我还在画原型，为何？

刚刚

拆解：愛奇藝短劇業(yè)務競品分析

08-258653 瀏覽

拆解：愛奇藝短劇業(yè)務競品分析

AI能賺到錢了么？

10-252751 瀏覽

AI能賺到錢了么？

產(chǎn)品規(guī)劃：一款由ChatGPT提供支持的AR眼鏡

10-131498 瀏覽

產(chǎn)品規(guī)劃：一款由ChatGPT提供支持的AR眼鏡

評論

目前還沒評論，等你發(fā)揮！

B端产品经理面试，都需要注意那些细节（业务篇）

如何正確看待本地生活直播？

08-205268 瀏覽
雙十一的快遞暗戰(zhàn)：單量漲了30%，單票利潤下降70%

11-161783 瀏覽
餓了么到店業(yè)務將與高德合并，本地生活上演“三國殺”

02-232250 瀏覽

14389人已学习13篇文章

交互设计那些事

交互设计是用户与产品以及他们使用的服务之间建立的有意义的关系。

12728人已学习14篇文章

如何用数据去驱动决策？

在这个大数据时代，数据对于企业的重要性越来越明显，因此不少企业将数据作为推动一款产品的重要前提。本专题的文章分享了如何用数据去驱动决策。

16146人已学习12篇文章

如何做用户调研？

对于产品经理来说，做用户调研是一项很重要的过程。本专题的文章分享了如何做好用户调研。

11895人已学习12篇文章

企业管理系统设计指南

随着市场竞争的加剧，越来越多的企业为了提高内部管控的效率，开始自建或引入内部管理系统来提升公司的效率。本专题的文章分享了企业管理系统设计指南。

13765人已学习12篇文章

人力资源管理系统的设计指南

人力资源管理系统，帮助企业管理和维护其人力资源。本专题的文章分享了人力资源管理系统的设计指南。

12769人已学习12篇文章

产品心理学

发觉用户本能的最好方式就是从用户的心理出发，利用人的本能做产品设计，用最“自然”的方式影响用户的行为。本专题的文章分享了产品心理学。

<fieldset id="soyci"><dd id="soyci"></dd></fieldset>

<cite id="soyci"><center id="soyci"></center></cite>

<li id="soyci"></li>

<abbr id="soyci"><dl id="soyci"></dl></abbr>