「AI寫網(wǎng)文」哪家強?測評結(jié)果居然是……
作為生成式AI,如果應(yīng)用在寫作上,會發(fā)生什么樣的反應(yīng)?這篇文章,我們來測試一下當前比較強的幾款生成式AI產(chǎn)品,看看起能力表現(xiàn)如何?
前面的文章里面我分享了一些運用AI輔助網(wǎng)文創(chuàng)作的思路,回答都是采用GPT4和文心一言兩款大語言模型。其實現(xiàn)在市面上的大語言模型很多,對國內(nèi)的網(wǎng)文作者來說,方便獲取的產(chǎn)品除了文心一言,還有騰訊混元助手、阿里通義千問、訊飛星火等。
那么問題來了,面對這么多產(chǎn)品,哪一款在輔助網(wǎng)文創(chuàng)作方面的表現(xiàn)更好?今天我們就來測一測。我選擇了5款產(chǎn)品對比,分別是GPT4、文心一言3.5、騰訊混元、通義千問、訊飛星火,其中國內(nèi)產(chǎn)品的地址如下:
- 文心一言3.5:https://yiyan.baidu.com/
- 混元助手:https://hunyuan.tencent.com/bot/chat
- 通義千問:https://tongyi.aliyun.com/qianwen/
- 訊飛星火:https://xinghuo.xfyun.cn/
一、測評說明
既然要測評寫網(wǎng)文的效果,首先我們就需要明確,評價效果的維度和標準是什么?此次測評的思路如下:
- 寫網(wǎng)文大致可以分為創(chuàng)意、大綱、人物、行文四個方面,所以會從這四個方面來出題。同一類型的題目可能會變換不同題材多次提問,避免過于片面。
- 問題選取上,會更多圍繞情節(jié)和人物展開,沒有放太多背景和設(shè)定相關(guān)的內(nèi)容。
- 評價的維度包括新穎性、吸引力、與網(wǎng)文風格的契合情況等,不同問題的考察維度不同,有些評價標準難以用語言描述,評價的方法是采用相同的提問,然后對五款產(chǎn)品的回答排序,按順序給1~5分,答案排名越靠前,得分越高。
- 以上方法測評的結(jié)果有一定主觀性,僅供參考。
接下來我們就看看幾款產(chǎn)品的表現(xiàn)吧。
二、測評情況
以下是測評問題及各款產(chǎn)品得分情況,為了方便閱讀,本文中沒有貼完整的問答,只給到得分。
1. 創(chuàng)意類
創(chuàng)意類問題主要測試AI提供小說創(chuàng)意的能力,這里準備了6個問題,其中問題1~3用于測試AI基于特定類型(歷史、科幻、玄幻)生成創(chuàng)意的能力,問題4~6用于測試AI基于特定情節(jié)主題(重生、娛樂圈、規(guī)則怪談)生成創(chuàng)意的能力。
5款產(chǎn)品得分如下:
2. 大綱類
大綱類問題暫不考慮設(shè)定方面的生成,而是以情節(jié)主線設(shè)計為主,這里準備了6個問題,用于測試AI面向不同主題(復仇、探險、愛情、權(quán)謀、懸疑、升級)編排情節(jié)的能力。
5款產(chǎn)品得分如下:
3. 人物類
人物類問題主要測試AI進行人物設(shè)定、以人物為中心的故事創(chuàng)作能力,這里準備了5個問題,用于測試不同類型人物(主角、反派、戀人、伙伴、競爭者)生成能力。
5款產(chǎn)品得分如下:
4. 行文類
行文類問題主要測試AI進行小說正文創(chuàng)作的能力,這里準備了7個問題,其中問題18~21用于測試AI的描寫(環(huán)境、物品、人物、動作)內(nèi)容生成能力,問題22~24用于測試AI情節(jié)(沖突、驚悚、儀式)擴寫能力。
5款產(chǎn)品得分如下:
三、測評總結(jié)
再次聲明:針對AI寫作的測評缺少絕對客觀的量化標準,測評過程中不可避免會有一定的主觀性和隨機性,所以以上結(jié)果僅供參考,大家也可以結(jié)合詳細的回答來重新評估。
以上即是對5款產(chǎn)品測評的詳細情況,按照排名,5款產(chǎn)品的總分情況如下:
按照24個問題的得分分布,這5款產(chǎn)品的雷達圖分別如下:
由于每個分類下的問題數(shù)量不同,這里我也按照類別重新計算了一下,計算方法是取每個類別得分的平均值,以便于查看每款產(chǎn)品在不同維度的輔助創(chuàng)作能力如何。如此計算出來的得分分布如下:
從此次測評情況來看,可以得出如下結(jié)論:
- 排名得分主要基于5款產(chǎn)品的相對表現(xiàn),如果細查回答內(nèi)容可以發(fā)現(xiàn),現(xiàn)有生成式AI在輔助網(wǎng)文創(chuàng)作上還存在比較大的提升空間,表現(xiàn)并不非常如人意。
- GPT4各項得分多處于中游水平,導致不管按照問題還是按問題類別計算,總計得分都墊底。從這些回答內(nèi)容來看,GPT4對網(wǎng)文創(chuàng)作的理解、文化傾向都不是很契合。
- 訊飛星火在行文上,相較于其他產(chǎn)品來說表現(xiàn)較為突出。浮夸和虛無是AI寫作的兩大典型特征,個人認為目前訊飛星火在及格線之上。
除此以外,文心一言3.5、混元助手、通義千問的表現(xiàn)其實差不太多,沒有太多可圈可點的地方。
以上打分與排名主要基于我的判斷,有一定主觀性。不同作者在創(chuàng)作網(wǎng)文的時候,會有自己的創(chuàng)作偏好和習慣,評價思路或許會和我不同。大家不妨親自動手試一試,或是拿完整的測評內(nèi)容自行排序打分,說不定結(jié)果會有所差異。
如今,網(wǎng)文已經(jīng)歷了二十多年的發(fā)展,早已與傳統(tǒng)小說漸行漸遠,在構(gòu)思、行文上都有其獨特的方法。針對特定的題材,網(wǎng)文也已經(jīng)形成一些固有的框架。
生成式AI想要勝任輔助網(wǎng)文創(chuàng)作的工作,還需要更懂網(wǎng)文一些。
專欄作家
不知,微信公眾號:不知,人人都是產(chǎn)品經(jīng)理專欄作家。B端產(chǎn)品人,擅長產(chǎn)品規(guī)劃、產(chǎn)品設(shè)計等
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!