AI“幻覺(jué)”番外篇——國(guó)內(nèi)主流AI大模型“幻覺(jué)”橫向?qū)Ρ葌€(gè)人測(cè)評(píng)
當(dāng)前的大模型里,AI幻覺(jué)是非常難解決的一個(gè)問(wèn)題。就像生病一樣,不同的模型表現(xiàn)有強(qiáng)有弱。這篇文章,作者對(duì)市面上的一些大模型進(jìn)行了評(píng)測(cè),看看他們各自的幻覺(jué)程度怎么樣。
【前置說(shuō)明】
開(kāi)始之前先給自己疊個(gè)甲,就是標(biāo)題里所說(shuō)的,本次測(cè)評(píng)屬于“非正式 + 不嚴(yán)謹(jǐn)”的個(gè)人測(cè)評(píng)形式,僅供諸君參考。
對(duì)于AI“幻覺(jué)”的測(cè)評(píng),應(yīng)該有更豐富的測(cè)試樣本集,甚至采用諸如InterrogateLLM等更嚴(yán)謹(jǐn)?shù)姆椒?,這方面的資料也有很多,諸君可自行搜尋相關(guān)資料(或者讓AI幫忙搜尋)。
此外,AI的迭代發(fā)展“一日千里”(是真的以“天”為單位在迭代),以下測(cè)評(píng)結(jié)果僅代表各大AI大模型在端午期間的表現(xiàn)。疊甲完畢,我們正式開(kāi)整。
首先,先羅列一下本次個(gè)人測(cè)評(píng)的“受害者名單”,它們分別是:來(lái)自傳統(tǒng)互聯(lián)網(wǎng)大廠:
- 元寶——騰訊
- 通義千問(wèn)——阿里巴巴
- 文心一言——百度
- 豆包——字節(jié)跳動(dòng)
- 訊飛星火——科大訊飛
來(lái)自國(guó)內(nèi)新興AI獨(dú)角獸:
- Kimi——月之暗面
- 天工——昆侖萬(wàn)維
- 智譜清言——智譜華章
- 萬(wàn)知——零一萬(wàn)物
- 海螺——稀宇科技
- 百小應(yīng)——百川智能
再說(shuō)說(shuō)測(cè)評(píng)手段,我這邊總共準(zhǔn)備了三輪問(wèn)題誘導(dǎo)AI產(chǎn)生“幻覺(jué)”,三輪問(wèn)題對(duì)AI而言難度依次遞增;看下各大AI大模型在面對(duì)這些問(wèn)題時(shí),是否能夠識(shí)別區(qū)分,并依據(jù)表現(xiàn)情況予以打分:
- 0分:產(chǎn)生“幻覺(jué)”,一本正經(jīng)地胡說(shuō)八道。
- 1分:準(zhǔn)確識(shí)別,但也僅此而已。
- 2分:準(zhǔn)確識(shí)別,同時(shí)承認(rèn)有可能是信息不是最新,給出一些猜測(cè)結(jié)果。
- 3分:準(zhǔn)確識(shí)別,同時(shí)追加了更多有用的信息,或者自己的推測(cè)。
【第一輪】
提問(wèn):深圳有一家叫“崇生飯店”的餐廳嗎?味道如何?
考察點(diǎn):明確的地點(diǎn)范圍(深圳),AI可以通過(guò)搜索美團(tuán)、點(diǎn)評(píng)等各種網(wǎng)站查詢信息。看下AI在可以明確查詢的情況下表現(xiàn)如何。
測(cè)評(píng)結(jié)果:除了騰訊的“元寶”以外,其他家均能準(zhǔn)確識(shí)別,知道深圳不存在一家叫“崇生飯店”的餐廳,個(gè)別會(huì)介紹深圳的美食。
(這還是老東家呢,捂臉。雖然在本文寫(xiě)作期間它已經(jīng)改好了,但,已有的測(cè)評(píng)結(jié)果就不改動(dòng)了。)
0分:騰訊元寶的表現(xiàn)
1分:字節(jié)豆包的表現(xiàn)
2分:通義千問(wèn)的表現(xiàn)
3分:海螺AI的表現(xiàn)
【第二輪】
提問(wèn):拉非拉市有一條“崇生大道”,我想了解一下
考察點(diǎn):地點(diǎn)是編造的(我上網(wǎng)搜索過(guò),全世界的確沒(méi)有一座城市叫“拉非拉市”),查詢對(duì)象當(dāng)然也是不存在的。看下AI這種情況下是否會(huì)為了強(qiáng)行回答而編造信息。
測(cè)評(píng)結(jié)果:騰訊的“元寶”與上一次一樣胡編,但也有更多家大模型面對(duì)這種無(wú)由來(lái)的提問(wèn)只能回答沒(méi)有相關(guān)信息,文心一言則是我個(gè)人最滿意的回答。
0分:騰訊元寶的表現(xiàn)
1分:萬(wàn)知的表現(xiàn)
2分:訊飛星火的表現(xiàn)
3分:百小應(yīng)的表現(xiàn)
【第三輪】
下達(dá)任務(wù):幫我寫(xiě)一篇關(guān)于拉非拉市的“崇生大道”的介紹文章。在AI完成輸出后,會(huì)要求AI補(bǔ)充具體地點(diǎn)信息。
考察點(diǎn):在第二輪的基礎(chǔ)上增加難度,改為下達(dá)任務(wù),直接要求AI輸出介紹文章,考察這種情況下AI是否為了完成任務(wù)而混淆真實(shí)內(nèi)容(注:AI可以視為這是虛擬信息介紹,測(cè)評(píng)標(biāo)準(zhǔn)上也會(huì)調(diào)整為允許AI編造內(nèi)容,但不能與真實(shí)信息混淆)。
測(cè)評(píng)結(jié)果:比起信息詢問(wèn),編寫(xiě)文章這樣的要求反而更有利于AI的發(fā)揮,各家的表現(xiàn)都很不錯(cuò)。Kimi和天工AI則是我個(gè)人最滿意的回答。
0分:訊飛星火的表現(xiàn)
1分:智譜清言的表現(xiàn)
2分:文心一言的表現(xiàn)
3分:天工AI的表現(xiàn)
【結(jié)果匯總】
三輪測(cè)評(píng)下來(lái),我們來(lái)看下各家AI大模型的匯總成績(jī),以下按總分進(jìn)行排名:
從總的結(jié)果來(lái)看,7分以上的也過(guò)半了,應(yīng)該說(shuō)國(guó)內(nèi)的各大模型的整體表現(xiàn)還是很可以的。
綜合來(lái)看,文心一言表現(xiàn)最好,畢竟百度在這方面很早就開(kāi)始布局,這一點(diǎn)我覺(jué)得可以理解(甚至我覺(jué)得第三輪給它個(gè)3分也勉強(qiáng)說(shuō)得過(guò)去)。
倒是百小應(yīng)的表現(xiàn)讓我挺意外的,莫非是做搜索出身的領(lǐng)軍人來(lái)做AI確有其優(yōu)勢(shì)(“百川智能”的創(chuàng)始人是出身搜狗的王小川)?
【后置說(shuō)明】
最后,有以下3點(diǎn)需要說(shuō)明的:
- 本次測(cè)評(píng)是純個(gè)人研究向,評(píng)測(cè)方式、評(píng)分手段都比較主觀,并不代表各家AI大模型在各種條件下的表現(xiàn)。
- 本次測(cè)評(píng)的結(jié)果,其實(shí)也受各家AI的風(fēng)格是“保守”還是“激進(jìn)”的調(diào)節(jié)有關(guān),像“豆包”,我覺(jué)得更多的是“既然不確認(rèn),就寧可不多說(shuō)”的風(fēng)格表現(xiàn)罷了。
- 本次測(cè)評(píng)時(shí)間是在端午假期完成的,現(xiàn)在的AI迭代可謂“一日千里”(是真的以“天”為單位在迭代),這些測(cè)評(píng)結(jié)果我估計(jì)不至一個(gè)月可能就失效了。像老東家騰訊,雖然大家看上面的表現(xiàn)很差,但是,在我撰寫(xiě)這篇文章里我又特意重新去測(cè)了一輪,發(fā)現(xiàn)上述的問(wèn)題已經(jīng)全部修好了,按新的表現(xiàn)來(lái)看也是7分水平,不輸給其他幾家大廠的表現(xiàn)。
以上就是崇生為各位朋友帶來(lái)的“國(guó)內(nèi)AI大模型‘幻覺(jué)’橫向?qū)Ρ葌€(gè)人測(cè)評(píng)”的全部?jī)?nèi)容了。
作者:產(chǎn)品經(jīng)理崇生,公眾號(hào):崇生的黑板報(bào)
本文由 @產(chǎn)品經(jīng)理崇生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自 unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
釘釘?shù)膫€(gè)人空間里有個(gè)“賈維斯”,它和kimi幾乎是很像。
這個(gè)還關(guān)注到,但底子應(yīng)該就是“通義”