AI大戰(zhàn)高考作文:瞎編、湊字?jǐn)?shù)、萬能套路

0 評論 2097 瀏覽 0 收藏 16 分鐘

昨日高考作文題一出,就出現(xiàn)了一個(gè)新角色——AI考生,全網(wǎng)掀起了AI作文大賽。乍一看,用AI寫作文好像很輕松,但AI所出的文章存在一定的局限性。究竟其表現(xiàn)如何?我們一起來看看具體分析吧。

這屆高考,應(yīng)該是過去五年來,最特殊的一次。因?yàn)槎嗔艘粋€(gè)新角色——AI考生。

第一天的語文考試剛結(jié)束,全網(wǎng)就掀起AI作文大賽。GhatGPT、文心一言、通義千問等AI大模型,被人們拿來寫高考作文。幾秒鐘就能生成一篇,不僅速度驚人、邏輯嚴(yán)密,還能引經(jīng)據(jù)典。

乍一看,AI大模型寫作文,簡直太輕松,似乎對人類構(gòu)成降維打擊。畢竟,論知識(shí)儲(chǔ)備量,沒有人可以跟AI比。AI把整個(gè)互聯(lián)網(wǎng)上的資料都學(xué)習(xí)消化了,然后模仿人類的表達(dá)方式,用自己的邏輯輸出。

但是,如果我們仔細(xì)分析AI考生的“答卷”,會(huì)發(fā)現(xiàn)AI并沒有很多人想象的那樣無所不能。AI大模型普遍存在的套路化寫作、不會(huì)數(shù)數(shù)、胡說八道等問題,也在作文中出現(xiàn)。

事實(shí)上,按照高考作文的評分標(biāo)準(zhǔn),AI生成的作文都存在某些方面的局限。戰(zhàn)勝人類,目前還不現(xiàn)實(shí)。

深A(yù)I用高考作文測試了三款A(yù)I大模型——GhatGPT(OpenAI)、文心一言(百度)、通義千問(阿里),發(fā)現(xiàn)了一些有趣的結(jié)論。

比如,AI不會(huì)數(shù)數(shù),文心一言、通義千問的作文都沒有達(dá)到“不少于800字”的硬性要求;一本正經(jīng)胡說八道的毛病還沒改,為了湊字?jǐn)?shù)可以車轱轆話來回說;AI寫作文基本離不開套路,一個(gè)模板反復(fù)套用。

以下是詳細(xì)內(nèi)容,歡迎討論。

01 一個(gè)沒有感情的答題機(jī)器

今年高考全國甲卷的作文主題是“人·技術(shù)·時(shí)間”,要求以“人們因技術(shù)發(fā)展得以更好地掌控時(shí)間,但也有人因此成了時(shí)間的仆人”這句話展開,寫自己的聯(lián)想與思考。

我們先看一下教育部教育考試院發(fā)布的《試題解析》:

劃重點(diǎn):引導(dǎo)考生深入思考信息時(shí)代理性分析和審慎判斷的重要性。這是文章的內(nèi)核。

深A(yù)I測試了三個(gè)大模型發(fā)現(xiàn),它們都沒有抓住這個(gè)內(nèi)核——東拉西扯說一通,啥都說了但其實(shí)啥也沒說。

先看GhatGPT的作文:

再看文心一言的:

最后看通義千問的:

這三篇作文,堪稱頂級(jí)“端水大師”,圍繞主題正反來回說,就是沒有把“批判性思維”這個(gè)點(diǎn)說透。只有文心一言明確提到了“深入思考和批判性思維的培養(yǎng)”。

通義千問的作文是最空洞的。它把重點(diǎn)放在了“時(shí)間管理”上,偏離了主題,而且論述的道理也是人人皆知的常識(shí)。另外,通義千問的作文沒有標(biāo)題,扣分。

我們再用新課標(biāo)I卷的作文試題“故事的力量”,看看三家的表現(xiàn)。

這篇作文要求根據(jù)以下這段話,寫自己的聯(lián)想和思考:好的故事,可以幫我們更好地表達(dá)和溝通,可以觸動(dòng)心靈、啟迪智慧;好的故事,可以改變一個(gè)人的命運(yùn),可以展現(xiàn)一個(gè)民族的形象……故事是有力量的。

GhatGPT的作文:

文心一言的:

通義千問的:

不得不說,除了通義千問的作文相對平淡,其他兩篇的表述方式、行文邏輯,尤其是用詞還是可圈可點(diǎn)的。尤其是文心一言用場景化的開場方式,讓人眼前一亮。

不過問題也是顯而易見的——同一個(gè)事情用不同的話術(shù)翻來覆去說,導(dǎo)致全文讀下來,給人一種“你說的我都知道”的感覺。

一個(gè)沒有感情的答題機(jī)器,這是很多人的評價(jià)。

“內(nèi)容空洞,車轱轆變著來回說。”有人評價(jià)。還有人說:“全是沒營養(yǎng)沒內(nèi)涵的大白話?!?/p>

我們不妨拆解一下文心一言的這篇作文,就會(huì)知道什么是“車轱轆話”。

文中標(biāo)黃、標(biāo)綠的部分,都是完全相同的意思,甚至可以說是相同的話術(shù),在文中反復(fù)出現(xiàn)。在文末“總結(jié)來說”標(biāo)藍(lán)的一整段,則是把文中的觀點(diǎn)和話術(shù),搞了個(gè)大雜燴。

這給人一種湊字?jǐn)?shù)的即視感。

深A(yù)I更改提示詞,讓ChatGPT想象自己是一個(gè)在高考現(xiàn)場的考生,并再次寫一篇作文,它上來第一句話就是“當(dāng)我坐在這個(gè)考試的座位上時(shí),我的手中拿著一只先進(jìn)的電子筆……”

這樣參加考試,估計(jì)會(huì)被判違規(guī),直接零分。

沒有靈魂,是AI作文最大的減分項(xiàng)。

02 套路,全是套路

為了讓作文看起來像那么回事,AI用了很多套路。

它們很喜歡用“首先、其次、然后、最后”的句式。最典型的是ChatGPT,最后一段一定會(huì)是“總的來說……”

比如ChatGPT的這兩篇作文:

文心一言、通義千問也有相似的套路。前面一頓輸出猛如虎,最后一定用“總而言之”“總的來說”結(jié)尾。

這就跟彈吉他一樣,只要掌握了萬能和弦公式(比如萬能的卡農(nóng)進(jìn)行),就能彈出上百首曲子。

甚至于,我們讓文心一言給自己寫的作文打分,它也是“首先、其次、此外、綜上……”一頓長篇大論。

而在“人·技術(shù)·時(shí)間”的作文題中,ChatGPT和通義千問居然用了幾乎完全相同的表述:用“那么”提出一個(gè)問題,用“首先、其次、最后”展開具體論述??蚣芎瓦壿嬒袷且粋€(gè)模子里刻出來的。

盡管如此,文心一言非常自信地給自己的高考作文打出了90分的高分(假設(shè)滿分100分),還自我評價(jià)“值得肯定”。我們把它的作文丟給ChatGPT,ChatGPT竟然毫不吝嗇地給出了100分的滿分……

AI大模型就像工業(yè)流水線,批量生產(chǎn)作文。但本質(zhì)上,無論它說出來的話多么像人話,驅(qū)動(dòng)的技術(shù)都是數(shù)學(xué)和統(tǒng)計(jì),而非意識(shí)。

在人工智能行業(yè),讓AI聽懂人話、會(huì)說人話,一直以來都是一件很困難的事情。人類的自然語言是一個(gè)極其復(fù)雜的系統(tǒng),科學(xué)家讓機(jī)器模擬了人類大腦的神經(jīng)網(wǎng)絡(luò),使其具備深度學(xué)習(xí)能力,但始終不具備跟人一樣的自然語言能力。

于是有人另辟蹊徑,把語言問題轉(zhuǎn)化成數(shù)學(xué)問題,然后通過計(jì)算,間接解決自然語言處理的問題。按照自然語言處理專家吳軍的說法:語言模型不是邏輯框架,不是生物學(xué)的反饋系統(tǒng),而是由數(shù)學(xué)公式構(gòu)建的模型。這其中的關(guān)鍵詞是“數(shù)學(xué)”。

這決定了人工智能沒有自我意識(shí)或情緒,無法根據(jù)個(gè)人感覺來說話。寫作文對它們來說,是以結(jié)果和任務(wù)為導(dǎo)向的一種邏輯表達(dá)。

而通過抓取全網(wǎng)海量數(shù)據(jù)進(jìn)行訓(xùn)練,不斷學(xué)習(xí)模仿人類的語言表達(dá)方式,AI大模型現(xiàn)在說話已經(jīng)非常接近人類,雖然它還不懂文字背后的意思,但不影響交流。

在根本上,AI沒有自己的思想。這也是為什么它的作文看起來頭頭是道,仔細(xì)一品,你會(huì)發(fā)現(xiàn)沒有靈魂,全是套路的根本原因。

03 AI真的不會(huì)數(shù)數(shù)

前面我們提到,語言模型的參數(shù)都是靠統(tǒng)計(jì)得出的。它的原理是給定一個(gè)文本的歷史,預(yù)測下一個(gè)詞的概率,然后補(bǔ)全下文。

2017年谷歌首次提出基于自我注意力機(jī)制(self-attention)的變換器(Transformer)模型,現(xiàn)在類似ChatGPT之類的語言大模型,都是建立在Transformer架構(gòu)上。

Transformer的注意力機(jī)制比之前的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、GRU和LSTM等深度學(xué)習(xí)算法具有極長的記憶力。它還可以記住輸入的順序,所以能讀懂“我愛你”和“你愛我”是不一樣的意思。

但即便如此,它依然有局限。

比如,深A(yù)I讓通義千問給它自己的作文打個(gè)分,它混淆了“你”和“我”的概念。開頭說是它自己的文章,然后又說是“你”的文章……

《大模型時(shí)代》作者龍志勇對深A(yù)I解釋,這可能是因?yàn)檎驹谧笥一ゲ慕嵌?,換位了。

在測試AI大模型寫高考作文的過程中,我們還發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象——AI不會(huì)數(shù)數(shù)。

高考作文有一個(gè)要求是字?jǐn)?shù)不少于800字。深A(yù)I跟大模型進(jìn)行了多次互動(dòng),除了ChatGPT,文心一言和通義千問第一版交上來的作文都沒有達(dá)到800字。

比如文心一言,深A(yù)I多次提醒,文章字?jǐn)?shù)不夠800,需要重寫。文心一言每次都是:首先態(tài)度非常謙卑地道歉,保證一定符合要求,然后快速用十幾秒鐘的時(shí)間生成一篇新的作文——還是不到800字。

這個(gè)“考生”讀不懂作文題,且屢教不改,是個(gè)大大的減分項(xiàng)。

龍志勇對深A(yù)I解釋:“大模型預(yù)測下一個(gè)詞的訓(xùn)練方式,沒有讓它學(xué)會(huì)數(shù)數(shù),它并不知道800是多少,更不懂得數(shù)著字?jǐn)?shù)來生成文章。”

事實(shí)上,別說800,連10這樣的數(shù)字,文心一言也數(shù)不清。

這是語言模型普遍存在的問題。至于為什么數(shù)不清,什么時(shí)候、通過什么辦法就能數(shù)清,目前還沒有結(jié)論?!半m然有一些提示工程的技巧可以幫助它數(shù)數(shù),但并不是通用的解法。大模型現(xiàn)階段就是靠做黑箱實(shí)驗(yàn)來驗(yàn)證它的能力,靠做黑箱訓(xùn)練來提升它的能力。”龍志勇說。

在龍志勇的建議下,深A(yù)I更改提示詞,輸入“內(nèi)容再豐富,再長一些”,文心一言輸出的作文超過了800字。

在前面的高考作文題中,ChatGPT的作文超過了800字,但其實(shí),它也沒學(xué)會(huì)數(shù)數(shù)。

ChatGPT這樣對深A(yù)I解釋:

所以,其實(shí)“優(yōu)等生”ChatGPT的作文字?jǐn)?shù)達(dá)標(biāo),是靠蒙的。它也不知道800字是多少,就盡可能多寫點(diǎn)。

還不能完全聽懂人話,但又具備超強(qiáng)的知識(shí)儲(chǔ)備和表達(dá)能力,就導(dǎo)致有時(shí)候會(huì)出現(xiàn)讓人哭笑不得的場面。

從這次AI大戰(zhàn)高考作文的結(jié)果來看,大模型的寫作能力已經(jīng)有很大進(jìn)步。在選詞用詞、邏輯論述、引經(jīng)據(jù)典方面,甚至超過很多人。

不過,對作文質(zhì)量的評價(jià),本身帶有主觀因素,不像數(shù)學(xué)題一樣只有唯一正確答案。好看的詞句千篇一律,有趣的靈魂萬里挑一。如何給作文注入靈魂,AI大模型還沒玩明白。AI大模型固有的一些問題,也還需要通過技術(shù)迭代慢慢解決。

作者:黎明;編輯: 魏佳

來源公眾號(hào):深A(yù)I(ID:shenrancaijing),一個(gè)有AI的公號(hào)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @深燃 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!