我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

3 評(píng)論 4984 瀏覽 2 收藏 12 分鐘

3月16日下午,百度新一代大語言模型文心一言發(fā)布了。根據(jù)發(fā)布會(huì)上的展示,文心一言具備五種能力,分別是文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成,本文作者在進(jìn)行測(cè)試后,對(duì)這五種能力進(jìn)行了分析,一起來看一下吧。

文心一言的初體驗(yàn),確實(shí)還沒ready。

硬著頭皮也好,萬眾期待也罷,北京時(shí)間3月16日下午,百度新一代大語言模型文心一言發(fā)布了。

怎么說呢,雖然一開始就知道可能會(huì)輸給GPT-4(李廠長(zhǎng)自己說:這個(gè)門檻有點(diǎn)高),但還是盼著文心一言好,盼著百度好,盼著中國(guó)首個(gè)生成式AI產(chǎn)品好。

但伴隨著發(fā)布會(huì)的,是百度港股市值的大跳水,雖然最后回調(diào)了一波,但二級(jí)市場(chǎng)對(duì)中國(guó)版“ChatGPT”似乎信心不足。

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

發(fā)布會(huì)期間百度股價(jià)實(shí)時(shí)數(shù)據(jù)

即使吸取了谷歌發(fā)布Bard時(shí)的前車之鑒,用提前準(zhǔn)備好的錄制視頻展示,但依然沒能阻止股價(jià)受挫。反而李廠長(zhǎng)的皮帶鏈接和容顏青春永駐,成了彈幕留言關(guān)注的焦點(diǎn)。

據(jù)百度透露,文心一言新聞發(fā)布會(huì)后三小時(shí),企業(yè)版API調(diào)用服務(wù)測(cè)試的企業(yè)用戶達(dá)6.5萬,與百度智能云基于文心一言展開合作咨詢達(dá)到5590條。

01 測(cè)試開始,有驚有喜

根據(jù)發(fā)布會(huì)上的展示,文心一言具備五種能力,包括了文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成。

硅兔君拿到了內(nèi)測(cè)邀請(qǐng)碼后,第一時(shí)間開始了測(cè)試。

1. 文學(xué)創(chuàng)作

發(fā)布會(huì)緊跟潮流,用最近熱度上的《三體》,對(duì)文心一言的文學(xué)創(chuàng)作進(jìn)行展示。提出的6個(gè)問題,文心一言都可以從容應(yīng)答。

硅兔君用《哈利波特》再考了考他(畢竟都是史詩級(jí)巨作)。

對(duì)于《哈利波特》的創(chuàng)作背景和作者簡(jiǎn)介,文心一言剛開始給了一個(gè)“省事”的答案。

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

但我并不滿意,又問了一遍,這個(gè)版本就明顯學(xué)術(shù)了很多。

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

緊接著我問了發(fā)布會(huì)上同樣的問題,讓文心一言為續(xù)寫《哈利波特》提供思路,答得還可以。

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

硅兔君又問了個(gè)比較八卦的感情線問題:赫敏和哈利波特之間,有愛情嗎?

文心一言給出的答案建議各大明星經(jīng)紀(jì)公司參考一下,以后回應(yīng)戀情別只會(huì)發(fā)律師函。

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

2. 商業(yè)文案創(chuàng)作

針對(duì)商業(yè)文案創(chuàng)作這塊,硅兔君就拿自己做個(gè)測(cè)試,提問:

如果要新建一個(gè)關(guān)于硅谷科技創(chuàng)投新聞的自媒體賬號(hào),融入“兔”這個(gè)字,可以給賬號(hào)起個(gè)什么名字?

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

文心一言給出的答案其實(shí)挺贊,考慮到硅谷的屬性,甚至也有英文的名字。

VentureBuddies這個(gè)名字你別說,你還真別說~

在我給這個(gè)名字予以肯定后,讓文心一言幫我寫個(gè)簡(jiǎn)介,畫風(fēng)直接變成了英文,不過直接給我安上了“最近在居家辦公”的設(shè)定,不知為何。

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

說實(shí)話不咋地,亂七八糟的。

3. 邏輯數(shù)理

邏輯數(shù)理推算是生成式大模型的一道坎兒,不僅考數(shù)理,更考邏輯。

發(fā)布會(huì)上用了ChatGPT剛上線時(shí)翻車過的的雞兔同籠,文心一言能發(fā)現(xiàn)問題中的錯(cuò)誤并在糾正后正確回答出來。

可當(dāng)硅兔君嘗試問了幾個(gè)小學(xué)生邏輯數(shù)學(xué)題,文心一言翻車了!

張老師15年前15歲,15年后多少歲?

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

文心一言答錯(cuò)了,怕描述不夠清楚又問一遍,依然令人遺憾……

(知道答案的朋友可以評(píng)論區(qū)見,看看多少人答對(duì))

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

接著問了個(gè)更繞的:

一個(gè)西瓜進(jìn)價(jià)50元,賣了70元,老板收了100元假幣,請(qǐng)問老板一共損失多少錢?

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

這個(gè)問題同樣問了ChatGPT,它一頓邏輯推理瘋狂輸出之后,給出了一個(gè)不同答案。

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

事情變得很有意思了,你們說誰對(duì)?

4. 中文理解

在中文理解上,硅兔君用了常被錯(cuò)誤理解的成語來提問,結(jié)果ChatGPT確實(shí)錯(cuò)誤地學(xué)習(xí)了現(xiàn)代用法。

“差強(qiáng)人意”是什么意思?

正確答案:

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

錯(cuò)誤答案:

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

一題見分曉,這一局文心一言完勝了。

5. 多模態(tài)生成

最后,也是最令人期待的多模態(tài)生成。硅兔君按照發(fā)布會(huì)的語言范本試了兩次,都沒有給出滿意的答案,不得不說和GPT-4的差距不是一點(diǎn)半點(diǎn)。

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

生成視頻方面也沒有實(shí)現(xiàn),并且給出了“無法生成視頻”的回復(fù)(難怪發(fā)布會(huì)上用的錄像,不然大型翻車現(xiàn)場(chǎng))。

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

還有一個(gè)被忽略的點(diǎn)就是編程能力,在發(fā)布會(huì)上并沒有展現(xiàn),也是ChatGPT的優(yōu)勢(shì)之一。硅兔君讓文心一言用C語言編一個(gè)小游戲,這是它給出的回答:

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

02 文心一言 vs ChatGPT

作為一個(gè)人工智能語言模型,ChatGPT也存在一些缺點(diǎn)和局限性。以下是我對(duì)ChatGPT的缺點(diǎn)評(píng)價(jià):

1. 知識(shí)庫的深度和廣度仍需要進(jìn)一步提高:雖然ChatGPT可以回答各種領(lǐng)域的問題,但它的知識(shí)庫還不夠完備,有些問題可能無法找到合適的回答。

2. 生成式對(duì)話的質(zhì)量還有待提高:盡管ChatGPT可以生成自然流暢的對(duì)話,但它的生成式對(duì)話還不如人類專業(yè)演員,有時(shí)可能會(huì)出現(xiàn)口誤或重復(fù)等問題。

3. 某些情況下可能會(huì)出現(xiàn)錯(cuò)誤或不準(zhǔn)確的回答:由于訓(xùn)練數(shù)據(jù)的限制,ChatGPT在某些情況下可能無法正確理解用戶的意圖,或者回答內(nèi)容可能不夠準(zhǔn)確或恰當(dāng)。

4. 依賴于預(yù)先訓(xùn)練的數(shù)據(jù)集:目前的ChatGPT主要是基于文本進(jìn)行對(duì)話生成的,如果未來想要擴(kuò)展功能或使用場(chǎng)景,可能需要更多地依賴于預(yù)先訓(xùn)練的數(shù)據(jù)集,這會(huì)增加開發(fā)難度和維護(hù)成本。

5. 中文表達(dá)能力有待改進(jìn):作為一個(gè)英文名稱為GPT的機(jī)器學(xué)習(xí)模型,其中文名稱“小微”似乎并沒有體現(xiàn)出與真實(shí)世界中的Micronesia相關(guān)的含義和特點(diǎn),這可能會(huì)影響其普及程度和應(yīng)用范圍。

總之,盡管ChatGPT在許多方面都表現(xiàn)出色,但它也存在一些缺點(diǎn)和局限性。

以上是文心一言對(duì)ChatGPT的評(píng)價(jià),把人家的缺點(diǎn)安排得明明白白。

麥克風(fēng)交給ChatGPT,很遺憾,它好像還不知道文心一言的到來……

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

總的來講,百度這波發(fā)布,正如李彥宏所說:“因?yàn)橛惺袌?chǎng)需求,百度各個(gè)產(chǎn)品線,大家都在等著用這樣的技術(shù)?!?/p>

(都在催,不得不趕緊上線)

也如李彥宏所說:“懷胎十月,一朝分娩。”

(我們還只是個(gè)孩子)

不過全世界都知道前一天GPT-4的問世,在這個(gè)節(jié)骨眼上頂著壓力發(fā)布產(chǎn)品的勇氣還是值得肯定的。

硅兔君認(rèn)為我們需要做的,是再給一些耐心。就如開頭說的那樣——我們都盼著它好。

作者:蔓蔓周

來源公眾號(hào):硅兔賽跑(ID:sv_race),10萬創(chuàng)投人都關(guān)注的創(chuàng)新媒體,坐標(biāo)硅谷

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅兔賽跑 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 張老師15年前15歲,15年后多少歲? 這個(gè)問題本身就有歧義,參照點(diǎn)存在歧義。ai無法理解就只能基于歷史經(jīng)驗(yàn)來聊,目前chat有可能回答對(duì),給出兩種不同的答案來。

    歷史經(jīng)驗(yàn)可以基于,明天是星期幾那個(gè)題。

    來自北京 回復(fù)
  2. 小邊有必要去了解一下“差強(qiáng)人意”的意思再來當(dāng)評(píng)判

    來自江蘇 回復(fù)
    1. 文心直接引用的百科的原文。但是兩個(gè)ai表達(dá)的意思都貼近。所以小編這個(gè)評(píng)判表述不太對(duì)。

      來自北京 回復(fù)