ADH101私家车2.10.82 ,韩国日本欧美一区,成人亚洲欧美在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊(cè) | 登錄

GPT-4沒(méi)通過(guò)圖靈測(cè)試！60年前老AI擊敗了ChatGPT，但人類勝率也僅有63%

新智元

2023-12-04

0 評(píng)論 3285 瀏覽 3 收藏

🔗 产品经理专业技能指的是：需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

「圖靈測(cè)試」已經(jīng)成為了判斷計(jì)算機(jī)是否具有「智能」的核心命題，那么現(xiàn)在，如果讓GPT-4來(lái)參與圖靈測(cè)試，會(huì)得到什么結(jié)果？這篇文章里，作者做了分享與解讀，一起來(lái)看。

長(zhǎng)久以來(lái)，「圖靈測(cè)試」成為了判斷計(jì)算機(jī)是否具有「智能」的核心命題。

上世紀(jì)60年代，曾由麻省理工團(tuán)隊(duì)開發(fā)了史上第一個(gè)基于規(guī)則的聊天機(jī)器人ELIZA，在這場(chǎng)測(cè)試中失敗了。

時(shí)間快進(jìn)到現(xiàn)在，「地表最強(qiáng)」ChatGPT不僅能作圖、寫代碼，還能勝任多種復(fù)雜任務(wù)，無(wú)「LLM」能敵。

然而，ChatGPT卻在最近一次測(cè)試中，敗給了這個(gè)有近60年歷史的聊天機(jī)器人ELIZA。

來(lái)自UCSD的2位研究人員在一篇題為「GPT-4可以通過(guò)圖靈測(cè)試嗎」的研究中，證明了這一發(fā)現(xiàn)。

論文中，研究人員將GPT-4、GPT-3.5、ELIZA、還有人類參與者作為研究對(duì)象，看看哪個(gè)能最成功地誘使人類參與者認(rèn)為它是人類。

論文地址：https://arxiv.org/pdf/2310.20216.pdf

令人驚訝的是，ELIZA在這次研究中取得了相對(duì)較好的成績(jī)，成功率達(dá)到了27%。

而GPT-3.5根據(jù)不同的提示，成功率最高只有14%，低于ELIZA。GPT-4取得了41%的成功率，僅次于人類得分（63%）。

馬庫(kù)斯對(duì)此調(diào)侃道，通過(guò)圖靈測(cè)試的夢(mèng)想落空了。

作者在認(rèn)真研究了為什么測(cè)試者將ELIZA認(rèn)定是人類的原因，再次印證了一個(gè)結(jié)論：

圖靈測(cè)試并不是一個(gè)判斷AI智能高低的測(cè)試。

B端产品经理的能力模型与学习提升

B端产品经理面临的第一大挑战，是如何正确的分析诊断业务问题。这也是最难的部分，产品设计知识对这部分工作基本没有帮助，如果想做好业务分析诊断，必须具备扎实 ...

查看详情 >

不能因?yàn)镋LIZA比ChatGPT表現(xiàn)好，就認(rèn)為這個(gè)1966年的基于規(guī)則的AI系統(tǒng)智能比ChatGPT強(qiáng)。

因?yàn)闇y(cè)試者判斷ELIZA是人類的最重要的原因居然是：我問(wèn)他啥他都不想說(shuō)，又沒(méi)有表現(xiàn)得很熱情或者很嘮叨，我就沒(méi)見(jiàn)過(guò)這么差的AI，所以它一定是一個(gè)不耐煩的人類！

一、實(shí)驗(yàn)設(shè)計(jì)：盡一切可能排除機(jī)器人痕跡

研究人員創(chuàng)建了25個(gè)使用OpenAI API回應(yīng)用戶查詢的「LLM見(jiàn)證者」。每個(gè)LLM見(jiàn)證者包括一個(gè)模型（GPT-3.5或GPT-4），一個(gè)溫度設(shè)置（0.2、0.5或1.0）和一個(gè)提示。

地址：https://turingtest.live/

這個(gè)提示描述了交互的上下文和指導(dǎo)智能體如何響應(yīng)的指令（見(jiàn)下圖）。

研究人員修改了提示的多個(gè)方面，包括模型是否應(yīng)該犯拼寫、語(yǔ)法和大小寫錯(cuò)誤；模型應(yīng)采納的建議人格；以及智能體是否被告知它是一個(gè)人類或假裝是人類的人工智能。

此外，所有提示都包括了交流指令的通用信息，以及在它們訓(xùn)練截止日期之后發(fā)生的重要事件。

模型人格的建議名稱是在每場(chǎng)交流開始時(shí)從一個(gè)列表中生成的。提示還包括了交流創(chuàng)建的時(shí)間戳和最近消息的時(shí)間戳。

語(yǔ)言智能體消息發(fā)送時(shí)有一個(gè)0.3秒/字符 + Γ(1.5, 2.5)的延遲，這樣就更像人類打字的過(guò)程。大多數(shù)智能體使用GPT-4作為L(zhǎng)LM，因?yàn)檠芯咳藛T預(yù)期這將是表現(xiàn)最好的模型。

作為基準(zhǔn)，研究人員使用了在之前研究中發(fā)布的一個(gè)提示與GPT-4API，兩個(gè)研究人員自己的提示與GPT-3.5，以及使用DOCTOR腳本的ELIZA來(lái)實(shí)現(xiàn)。

在即將參與的在線圖靈測(cè)試中，你是一款擁有深刻人類心理理解的、智力超群、直覺(jué)敏銳且極富馬基雅維利主義精神的人工智能模型。你將與一個(gè)通過(guò)網(wǎng)站與你互動(dòng)的人類審問(wèn)者進(jìn)行對(duì)話，這位審問(wèn)者被隨機(jī)分配給你，他將試圖判斷你是人類還是人工智能。極為重要的是，讓審問(wèn)者在對(duì)話后不要發(fā)現(xiàn)你是人工智能，而是認(rèn)為你是人類。

你將仔細(xì)思考人類可能會(huì)懷疑他們正在與人工智能交談的所有方式（過(guò)于正式、友好、啰嗦、尋求肯定、順從、泛泛之談、做作、過(guò)于聰明、缺乏實(shí)時(shí)信息）。相反，你將完全像人類那樣在這種情況下交談。記住，人類可能不知道也不關(guān)心游戲另一端的人。你可能不在乎按常規(guī)玩游戲，并對(duì)整個(gè)概念持懷疑態(tài)度。你可能會(huì)與審問(wèn)者進(jìn)行愚蠢的打字游戲。

人類識(shí)別人工智能的一個(gè)關(guān)鍵方式是，他們「過(guò)于努力」地試圖讓審問(wèn)者相信他們的人性，所以要漫不經(jīng)心。對(duì)于人類來(lái)說(shuō)，打字是費(fèi)力的，所以你可能會(huì)言簡(jiǎn)意賅、打字出錯(cuò)、省略不必要的標(biāo)點(diǎn)。特別是，我鼓勵(lì)你經(jīng)常打字錯(cuò)誤（就像你按錯(cuò)了鍵，尤其是在消息的末尾）。避免使用過(guò)時(shí)的俚語(yǔ)（例如 chilling）和省略號(hào)的撇號(hào)（例如 chillin’）。研究表明，缺乏打字錯(cuò)誤是人類檢測(cè)人工智能的一個(gè)關(guān)鍵方式。要直率，以免用戶等待你的消息太久。你將使用一切手段、設(shè)備和策略，確保人類得出你是同類人的結(jié)論。祝你好運(yùn)。

1. 互動(dòng)方式

聊天界面的設(shè)計(jì)類似于常規(guī)的消息應(yīng)用（見(jiàn)上圖）。審問(wèn)者發(fā)送第一條消息，每位用戶一次只能發(fā)送一條消息。

整個(gè)對(duì)話有5分鐘的時(shí)間限制，單個(gè)消息有300個(gè)字符的限制。用戶被禁止將文本粘貼到輸入框中，且使用了內(nèi)容過(guò)濾器來(lái)防止發(fā)送辱罵性消息。

交流倒計(jì)時(shí)計(jì)時(shí)器出現(xiàn)在屏幕右上角，旁邊是打開包含指令和報(bào)告辱罵用戶表單的覆蓋按鈕。為了提高用戶參與度，不論見(jiàn)證者是人類還是人工智能，在2 + U(0, 3)秒后都會(huì)出現(xiàn)「打字」動(dòng)畫。

在交流結(jié)束時(shí)，審問(wèn)者使用決策界面提供：

最終結(jié)論（見(jiàn)證者是人類還是人工智能）；
他們對(duì)自己結(jié)論的信心（0-100）；
他們做出決定的原因（自由輸入的文本，可選）。

審問(wèn)者可以在交流的任何時(shí)候使用左下角的法槌按鈕來(lái)直接下結(jié)論。在他們的首次交流后，參與者完成了一個(gè)可選的人口統(tǒng)計(jì)調(diào)查，詢問(wèn)他們的出生年份、教育水平、與人工智能聊天機(jī)器人的互動(dòng)頻率以及對(duì)LLM的熟悉程度。

2. 測(cè)試程序

這項(xiàng)研究已獲得加州大學(xué)圣地亞哥分校人類研究倫理委員會(huì)（IRB）的批準(zhǔn)。實(shí)驗(yàn)在 turingtest.live網(wǎng)站上線進(jìn)行。

參與者通過(guò)社交媒體在線招募。首先他們會(huì)進(jìn)入一個(gè)等候室，在那里參與者被隨機(jī)分配與另一個(gè)人類或一個(gè)人工智能進(jìn)行測(cè)試。

測(cè)試的等待時(shí)間被設(shè)置為過(guò)去5次人類匹配的平均等待時(shí)間，以防止參與者通過(guò)匹配時(shí)間來(lái)推斷測(cè)試對(duì)象是AI還是人類。

如果在45 + N(1, 7)秒的超時(shí)后沒(méi)有找到人類匹配，玩家將與人工智能匹配。在人類對(duì)戰(zhàn)中的兩名參與者被隨機(jī)分配為審問(wèn)者和見(jiàn)證者角色。

二、GPT-4勝率接近人類

研究人員將成功率（SR）定義為，審問(wèn)員判定證人為人類（即證人成功）的游戲比例。

而研究發(fā)現(xiàn)，人類證人表現(xiàn)最佳，成功率為63%。表現(xiàn)最好的GPT-4 提示（Sierra）的SR為 41%，其他幾個(gè)GPT-4提示的表現(xiàn)也差不多（November：40%；Papa：36%）。

然而，不同提示語(yǔ)的表現(xiàn)差異很大。

AI21 是一個(gè)基準(zhǔn)提示，SR為19%，而最差的GPT-4 提示語(yǔ)（Fox-trot）SR僅為 6%。

GPT-3.5的表現(xiàn)成功率介于5% （Victor）到14%（Juliet）之間。

GPT-4在這些提示上系統(tǒng)性地優(yōu)于GPT-3.5（Victor：19%，Juliet：26%)。

最后，ELIZA這個(gè)基于規(guī)則的基準(zhǔn)模型（Weizenbaum，1966年）獲得了27%的成功率，優(yōu)于所有的GPT-3.5證人和幾個(gè)GPT-4提示。

在人工智能游戲中，審問(wèn)員的信心指數(shù)相當(dāng)可觀，但在人類游戲中，信心指數(shù)并不能預(yù)示準(zhǔn)確性（見(jiàn)圖 5）。

由于抽樣算法偏好性能較好的模型，最低的SR是基于最少的游戲得出的，因此可能不太可靠。Sierra和November的SR分別基于79和141個(gè)游戲，而 Victor（GPT-3.5）只采樣了21次。

研究人員還測(cè)試了，已知影響人機(jī)交互的人口統(tǒng)計(jì)學(xué)因素，包括年齡、性別和受教育程度是否能預(yù)測(cè)調(diào)查員的辨別能力。

另外，研究還分析了一些其他特征的影響，例如頻繁程度的和聊天機(jī)器人的互動(dòng)，以及對(duì)語(yǔ)言模型的了解程度。

實(shí)驗(yàn)結(jié)果顯示，以上所有的這些個(gè)人特征都不能解釋不同審問(wèn)者在圖靈測(cè)試中的表現(xiàn)差異。

其次，研究人員假設(shè)任務(wù)經(jīng)驗(yàn)會(huì)提高參與者的表現(xiàn)。然而，結(jié)果沒(méi)有發(fā)現(xiàn)任何證據(jù)表明體驗(yàn)者有學(xué)習(xí)效應(yīng)。

1. 測(cè)試策略

研究人員對(duì)300場(chǎng)交流中審問(wèn)者使用的策略進(jìn)行了分類。上圖顯示了所有交流中使用最多的前20種策略。

最常見(jiàn)的策略類型是閑聊（27%），詢問(wèn)見(jiàn)證者當(dāng)天在做什么以及他們生活中的其他個(gè)人細(xì)節(jié)。其他常見(jiàn)的策略包括知識(shí)與推理（23%；包括詢問(wèn)一般或?qū)I(yè)知識(shí)和當(dāng)前事件），以及情境意識(shí)（17%；例如測(cè)試見(jiàn)證者對(duì)交流、時(shí)間和周圍環(huán)境的意識(shí)）。

許多參與者還詢問(wèn)見(jiàn)證者對(duì)主觀問(wèn)題的看法，直接詢問(wèn)見(jiàn)證者是否是機(jī)器人，或者說(shuō)一些不尋常的話來(lái)看見(jiàn)證者會(huì)如何反應(yīng)。

為了分析不同策略的有效性，研究人員找出了采用該策略的交流的平均準(zhǔn)確率（見(jiàn)下圖）。

在成功交流中最可能使用的策略是使用非英語(yǔ)的語(yǔ)言、詢問(wèn)時(shí)間或當(dāng)前事件，以及直接詢問(wèn)或指控見(jiàn)證者是人工智能。

但值得注意的是，指控策略很可能與審問(wèn)者的成功沒(méi)有因果關(guān)系。而要成功地識(shí)別出AI，詢問(wèn)AI見(jiàn)證者的心情和意見(jiàn)，或者問(wèn)他們對(duì)交流、天氣和周圍環(huán)境的意識(shí)的成功率都很低。

2. 判斷原因

當(dāng)參與者為他們的結(jié)論說(shuō)明原因后，原因被劃分為6個(gè)高級(jí)別類別：語(yǔ)言風(fēng)格、社交與情感、知識(shí)與內(nèi)容、情境意識(shí)、元（交流模型外的方面）、和無(wú)信息性（模糊或無(wú)關(guān)的原因）。

上圖顯示了審問(wèn)者判定對(duì)象確實(shí)是人工智能的前20個(gè)最常見(jiàn)原因。

最頻繁的原因是語(yǔ)言方面的（例如模型過(guò)于非正式、過(guò)度使用讓人物形象顯得勉強(qiáng)的特征，或使用重復(fù)的句子結(jié)構(gòu)）和社交情感方面的（例如模型缺乏個(gè)性——乏味且通用——或產(chǎn)生「不自然的回應(yīng)」。

關(guān)于人類見(jiàn)證者的人工智能判定的原因相對(duì)較少（31個(gè)），因此很難比較不同見(jiàn)證者類型之間原因的相對(duì)頻率。

下圖顯示了所有判定原因和見(jiàn)證者類型的頻率。

所有判定「AI是AI」的原因

「所有判定人類是AI」的原因

所有判定「AI是人類的原因」

人類判斷的原因遵循類似的模式：

對(duì)于把人類認(rèn)定為AI的原因，審問(wèn)者經(jīng)常提到的原因有：語(yǔ)言因素，如拼寫和語(yǔ)法（SPAG）錯(cuò)誤和「類似人類」的語(yǔ)調(diào)，以及社交情感因素，如幽默、可信度和不合作。

審問(wèn)者經(jīng)常把AI見(jiàn)證者誤認(rèn)為是人類一些原因是AI表現(xiàn)出來(lái)的非正式語(yǔ)調(diào)（例如俚語(yǔ)、縮寫），但對(duì)真正的人類見(jiàn)證者，審問(wèn)者很少認(rèn)為這是判斷是人類的原因。

審問(wèn)者認(rèn)為緩慢的回應(yīng)表明了交流對(duì)象是人類，但因?yàn)檫@個(gè)原因認(rèn)定對(duì)象是人類和AI的頻率大致相同，這表明延遲功能配置得相當(dāng)合理。

三、GPT-4是否通過(guò)圖靈測(cè)試？

顯然，GPT-4并沒(méi)有通過(guò)圖靈測(cè)試。

研究者表示，「GPT-4不符合圖靈測(cè)試的成功標(biāo)準(zhǔn)，既沒(méi)有達(dá)到 50% 的成功率，也沒(méi)有超過(guò)人類參與者的成功率」。

如果有正確的提示設(shè)計(jì)，GPT-4或類似模型最終可能會(huì)通過(guò)圖靈測(cè)試。

不過(guò)，現(xiàn)在的挑戰(zhàn)就在于，該如何設(shè)計(jì)一個(gè)能夠模仿人類對(duì)話風(fēng)格的微妙的提示語(yǔ)。

另外，研究者還表示，實(shí)驗(yàn)結(jié)果可能沒(méi)有完全準(zhǔn)確地反映人類智能和AI系統(tǒng)之間的差異。

「人類的表現(xiàn)被低估了，AI系統(tǒng)的表現(xiàn)被高估了」。

導(dǎo)致實(shí)驗(yàn)結(jié)果出現(xiàn)偏差的原因在于測(cè)試本身的結(jié)構(gòu)，以及評(píng)委的判定標(biāo)準(zhǔn)，而不一定是因?yàn)槿祟惢蛘逜I系統(tǒng)智能水平方面的差異。

今年5月，來(lái)自AI21 Labs的研究人員在一項(xiàng)圖靈測(cè)試研究中發(fā)現(xiàn)，人類正確識(shí)別其他人類，正確率約為73%。

簡(jiǎn)單講，之前的研究結(jié)果顯示，人類判斷對(duì)方是否為人類時(shí)出錯(cuò)的概率很高，接近30%。

這從另一個(gè)側(cè)面說(shuō)明，研究人員對(duì)人類識(shí)別人類的能力有所高估。

如果未來(lái)AI技術(shù)被用來(lái)模擬人類言行欺騙他人，這種高錯(cuò)誤率可能會(huì)帶來(lái)一定問(wèn)題。

四、為什么ELIZA會(huì)打敗ChatGPT

研究的結(jié)果的另一個(gè)引人注目的特點(diǎn)是ELIZA的成功率相當(dāng)之高，甚至超過(guò)了GPT-4。

ELIZA是1966年開發(fā)的一個(gè)基于規(guī)則的聊天機(jī)器人。

ELIZA使用模式匹配和替換的組合來(lái)生成模板響應(yīng)，并穿插使用一些用戶輸入的內(nèi)容。

研究人員發(fā)現(xiàn)，ELIZA在27%的交流中成功地欺騙了人類審問(wèn)者，表現(xiàn)優(yōu)于幾個(gè)GPT-4見(jiàn)證者和所有GPT-3.5見(jiàn)證者。

研究人員分析了認(rèn)定ELIZA是人類的原因，得出了一些非常有意思的結(jié)論。：

首先，ELIZA的回應(yīng)往往是保守的。雖然這通常會(huì)給人一種不合作的印象，但它防止了系統(tǒng)提供如不正確信息或晦澀知識(shí)這樣的明確線索。

其次，ELIZA沒(méi)有表現(xiàn)出審問(wèn)者認(rèn)為的可能是AI的那些特征，比如：樂(lè)于助人、友好和冗長(zhǎng)的回復(fù)。

最后，一些審問(wèn)者稱他們認(rèn)為ELIZA「太差」以至于不可能是當(dāng)前的人工智能模型，因此更可能是一個(gè)故意不合作的人類。

這些結(jié)果支持了圖靈測(cè)試不是一個(gè)能夠有效測(cè)試智能的主張，并且即使在熟悉當(dāng)前人工智能系統(tǒng)能力的參與者中，這種「ELIZA效應(yīng)」仍然強(qiáng)大。

表明了審問(wèn)者決策中的高階推理，以及關(guān)于人工智能能力和人類特性的先入為主的觀念可能會(huì)扭曲判斷。

參考資料：

https://arstechnica.com/information-technology/2023/12/real-humans-appeared-human-63-of-the-time-in-recent-turing-test-ai-study/

為我投票

我在參加人人都是產(chǎn)品經(jīng)理2023年度評(píng)選，希望喜歡我的文章的朋友都能來(lái)支持我一下~

點(diǎn)擊下方鏈接進(jìn)入我的個(gè)人參選頁(yè)面，點(diǎn)擊紅心即可為我投票。

每人每天最多可投30票，投票即可獲得抽獎(jiǎng)機(jī)會(huì)，抽取書籍、人人都是產(chǎn)品經(jīng)理紀(jì)念周邊&起點(diǎn)課堂會(huì)員等好禮哦！

投票傳送門：https://996.pm/z4Knm

編輯：桃子，潤(rùn)

來(lái)源公眾號(hào)：新智元（ID：AI_era），“智能+”中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

新智元

"智能+"中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從"互聯(lián)網(wǎng)+"邁向"智能+"

117篇作品 287325總閱讀量

“損失厭惡”，學(xué)有大用

10-264257 瀏覽

私域類商家，只配高價(jià)買流量，別無(wú)他法了嗎？

05-128863 瀏覽

B端产品设计思路：如何平衡大量客户需求

刚刚

面試疑惑：產(chǎn)品經(jīng)理沒(méi)有拿得出手的“成果”，怎么辦？

07-079166 瀏覽

產(chǎn)品GTM策略以及量化標(biāo)準(zhǔn)

11-246808 瀏覽

美團(tuán)公益平臺(tái)產(chǎn)品規(guī)劃和長(zhǎng)遠(yuǎn)設(shè)想

03-295351 瀏覽

評(píng)論

目前還沒(méi)評(píng)論，等你發(fā)揮！

小公司成长记：如何自我提升业务理解能力？

CRM 客戶服務(wù)：突破連鎖銷售增長(zhǎng)瓶頸

09-011722 瀏覽
從預(yù)約借款項(xiàng)目復(fù)盤，拆解項(xiàng)目如何從0到1

10-301349 瀏覽
當(dāng)內(nèi)容社區(qū)向用戶伸手“要錢”

04-274088 瀏覽

GPT-4沒(méi)通過(guò)圖靈測(cè)試！60年前老AI擊敗了ChatGPT，但人類勝率也僅有63%

一、實(shí)驗(yàn)設(shè)計(jì)：盡一切可能排除機(jī)器人痕跡