長文本能力哪家強?四款A(yù)I大模型的橫向測試

0 評論 3624 瀏覽 2 收藏 24 分鐘

隨著國產(chǎn)AI大模型在長文本處理能力上的突破,Kimi、百度、阿里等科技巨頭紛紛加入競爭,開啟了AI長文本應(yīng)用的新時代。本文將深入探討這些AI大模型在長文本處理上的表現(xiàn),以及它們?nèi)绾胃淖兾覀兊墓ぷ骱蜕罘绞?,為讀者揭示AI技術(shù)的最新進展和應(yīng)用前景。

國產(chǎn)AI大模型內(nèi)卷長文本時代,Kimi憑借先發(fā)優(yōu)勢率先“出圈”,隨著百度、阿里等業(yè)界巨頭的下場,AI長文本應(yīng)用賽道競爭開始變得白熱化。

01 內(nèi)卷長文本,AI大模型的生產(chǎn)力工具屬性

“長文本作為公司‘登月’的第一步,是新的計算機內(nèi)存,很本質(zhì),個性化并非通過微調(diào)實現(xiàn),上下文定義了個性化過程?!薄狹oonshot AI月之暗面(Kimi母公司)創(chuàng)始人楊植麟的發(fā)言拉開了AI大模型“長文本”時代的序幕。  

從數(shù)千到數(shù)十萬token,大模型正在以“肉眼可見”的速度越變越“長”。對標月之暗面Kimi 智能助手的200萬字參數(shù)量,百度文心一言開放200萬~500萬字長文本處理功能,較此前最高2.8萬字的文檔處理能力提升上百倍;阿里通義千問宣布升級,開放最高1000萬字的長文本處理能力;360智腦正在內(nèi)測500萬字,功能正式升級后將入駐360AI瀏覽器。

“卷”長文本儼然成為基礎(chǔ)通用大模型在新賽季的首個賽點,200萬字是什么概念呢?曹雪芹的《紅樓夢》全本大約有80萬字,而J.R.R.托爾金的《魔戒》三部曲(包括《魔戒現(xiàn)身》《雙塔奇兵》和《王者歸來》)的中文版總字數(shù)大約在150萬字左右,200萬字略多于《魔戒》三部曲的總字數(shù)。

如此長的內(nèi)容對于具備“長文本”能力的大模型而言,僅數(shù)秒就可以閱讀完成并根據(jù)用戶需求生成相應(yīng)的概括、總結(jié)。

Kimi點燃了AI大模型內(nèi)卷長文本的    

主流科技企業(yè)之所以對大模型長文本應(yīng)用如此感興趣,很大程度在于長文本賽道出色的變現(xiàn)能力。

長文本模型就具備更準確的文本理解和生成能力以及更強大的跨領(lǐng)域遷移能力,這對于打造垂直領(lǐng)域的行業(yè)專家是一個非常必要的能力支持,比如面向一些鴻篇巨制的醫(yī)療文獻、法律文件、財務(wù)報告等,長文本模型就具備更好的理解能力,對應(yīng)完成跨領(lǐng)域?qū)W習(xí)和應(yīng)用,從而打造出更專業(yè)的醫(yī)療助理、法律助理以及金融助理等應(yīng)用,這意味著AI大模型能夠擁有更強的生產(chǎn)力工具屬性。

02 真假長文本,數(shù)值≠能力

當眾多大模型企業(yè)在極短時間內(nèi)宣布旗下產(chǎn)品在“長文本”賽道取得突破后,一些質(zhì)疑的聲音也出現(xiàn)了。質(zhì)疑者認為后來者上線的并不是真正的長文本技術(shù),而是RAG技術(shù)。RAG是一種被稱為檢索增強生成的技術(shù),這種技術(shù)可以從文檔中搜索出相關(guān)內(nèi)容,并把這些內(nèi)容給到大模型做推理。  

月之暗面公司相關(guān)負責(zé)人也曾向媒體強調(diào),與其他公司的產(chǎn)品不同,Kimi的長文本是無損壓縮技術(shù)的長上下文,RAG是有損壓縮技術(shù)。他舉例說,比如讀一本100萬字的書,Kimi的長文本技術(shù)會逐字逐句挨個讀,讀完100萬字再歸納總結(jié)做分析。RAG技術(shù)可能只讀了這本書每一頁的第一行,就去歸納總結(jié)做分析。在最終呈現(xiàn)的效果上,無損壓縮技術(shù)輸出的內(nèi)容更真實、全面、有效。

當前,全球大型模型普遍采用Transformer解碼器作為核心架構(gòu)。為了實現(xiàn)長上下文處理,研究者們對解碼器架構(gòu)進行了多項改進,主要包括以下四個方面——

一是采用高效的注意力機制,降低計算成本,使得在訓(xùn)練過程中能夠處理更長的序列,進而提高推理時的序列長度;二是實現(xiàn)長期記憶,通過設(shè)計顯式記憶機制,克服上下文記憶的局限;三是改進位置編碼,對現(xiàn)有編碼方法進行優(yōu)化,以實現(xiàn)上下文的外推;四是對上下文進行處理,通過額外的預(yù)處理和后處理手段,確保每次調(diào)用大型語言模型時,輸入的文本始終符合最大長度要求。              

Transformer架構(gòu)原理圖

而長上下文作為核心技術(shù),各廠商選擇不公開。目前僅能通過其他公開渠道整理推測各家上下長文本技術(shù),以月之暗面為例,其創(chuàng)始人楊植麟主要的學(xué)術(shù)論文Transformer-XL和XL-Net,均探討了長上下文的實現(xiàn)方法,且前者屬于長期記憶力的優(yōu)化,后者屬于特殊目標函數(shù)的優(yōu)化。百度的 ERNIE-DOC 則同時采用了長期記憶力和特殊目標函數(shù)的優(yōu)化方法。

阿里Qwen-7B 則使用了優(yōu)化的位置編碼算法 extended RoPE。所以我們推測,國內(nèi)模型廠商之所以能夠在短期內(nèi)實踐出長上下文方法,或是在原有積累的基礎(chǔ)上進行了算法迭代,采取多方法的混合優(yōu)化,實現(xiàn)快速超車。    

事實上,經(jīng)過一年的快速迭代后,業(yè)內(nèi)早已清醒認識到文本長度是不是越長越好,效果才是AI大模型在長文本賽道立足的根本。

03?四款長文本AI大模型的角力

近一年時間的“內(nèi)卷”,當下AI大模型在長文本領(lǐng)域表現(xiàn)究竟如何?

我們選擇了代表初代長文本大模型的Kimi、代表支持長文本并側(cè)重Chat對話的文心一言(4.0 Turbo)、從智能搜索領(lǐng)域切入長文本應(yīng)用的秘塔AI以及專注長文本賽道的AI原生應(yīng)用“橙篇”四款應(yīng)用進行橫向比較,為大家展示當下AI大模型在長文本應(yīng)用上的狀況。

在測試方法上,從“閱讀”和“寫作”兩個方面的長文應(yīng)用進行橫向比較,進而全方位展示當下AI大模型的長文本能力。

04?閱讀理解:橙篇表現(xiàn)出眾

閱讀理解測試部分細分為線上和本地文件兩個環(huán)節(jié),現(xiàn)在部分以“分析最近10年清華大學(xué)和北京大學(xué)通過高考在重慶的錄取人數(shù),以圖表的形式展現(xiàn)”為指令,讓Kimi、文心一言、秘塔AI、橙篇閱讀網(wǎng)絡(luò)資料的同時生成圖表,這里不僅涉及AI大模型的閱讀理解能力,更會用圖表考校當下AI大模型部分多模態(tài)能力。    

從上往下,從左往右依次為橙篇、Kimi、文心一言、秘塔AI生成結(jié)果      

四款應(yīng)用對于互聯(lián)網(wǎng)數(shù)據(jù)的收集整理差距非常明顯,Kimi表示沒有直接數(shù)據(jù)提供的情況下,僅整理了清華大學(xué)2023和2016兩年在重慶的錄取人數(shù),北京大學(xué)更是只有2023年的錄取人數(shù),“橙篇”則不僅根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)按要求完成了兩所大學(xué)近10年在重慶招生人數(shù)對比,且2022年和2023年兩年還對物理和歷史錄取人數(shù)進行了區(qū)分。

秘塔AI則有些“直男”地僅對其能直接收集到數(shù)據(jù)的年份進行了整理,幾乎看不到其分析、推理的努力,這多少有些職場“給多少工資干多少事兒”的味道了。            

“橙篇”不僅可以生成數(shù)據(jù)清晰的表格,更為用戶提供了備注,通過仔細閱讀備注我們發(fā)現(xiàn),“橙篇”在數(shù)據(jù)整理和分析時,明確提到2020年的數(shù)據(jù)來源的三所學(xué)校以及影響數(shù)據(jù)的各種因素,這樣一份答案的生成,意味著“橙篇”不僅對互聯(lián)網(wǎng)數(shù)據(jù)進行了整理,更按用戶要求進行分析、歸類,同時,“橙篇”還對數(shù)據(jù)進行了簡單的分析。

相較而言,同樣隸屬百度大生態(tài)的文心一言在數(shù)據(jù)的處理上反而表現(xiàn)出“理科生”的謹慎,其對數(shù)據(jù)的預(yù)估非常謹慎,不僅明確標注“估算,基于整體錄取情況”,更會引用“具體重慶錄取人數(shù)未詳,但北京總?cè)藬?shù)較多”這種地區(qū)對比來強化數(shù)據(jù)準確性,雖在表格數(shù)據(jù)生成上難以實現(xiàn)直接取用,但分析邏輯清晰,完全稱得上“沒有功勞也有苦勞”了。

而在本地文本閱讀方面,我們則選用一篇包含圖文及表格信息,名為“C919放量元年,大飛機乘風(fēng)起航”的研報讓四款應(yīng)用閱讀,并以“幫我總結(jié)這些文件”為指令,讓AI大模型給出總結(jié)內(nèi)容。    

從左往右依次為Kimi、橙篇的生成結(jié)果   

對比發(fā)現(xiàn),Kimi在文章概括中忽略了“C919技術(shù)亮點與材料應(yīng)用”,同時,“產(chǎn)業(yè)鏈公司梳理”也是直接堆在一起表述,而“橙篇”則細分為“機體制造商”“材料供應(yīng)商”和“機載系統(tǒng)供應(yīng)商”三個類別,再針對每一個類別對企業(yè)進行歸類,“文心一言”也對“國產(chǎn)化率與替代進程”進行了詳細的列舉和總結(jié),對于內(nèi)容的概括較為詳實,遺憾的是目前秘塔AI暫不支持本地文件上傳,這極大削弱了其在閱讀理解方面的應(yīng)用。  

單從總結(jié)內(nèi)容看,“橙篇”與“文心一言”不相上下,但“橙篇”對內(nèi)容概要進行梳理的同時,還在文末附帶了“整體總結(jié)”,其對長文本的整體閱讀理解能力上表現(xiàn)上更為出色,再憑借出色的線上閱讀理解能力,“橙篇”在“閱讀理解”測試環(huán)節(jié)表現(xiàn)明顯優(yōu)于其他幾家。

05?長篇寫作,正在改變的內(nèi)容生成模式

從內(nèi)容采集、整理到創(chuàng)作,相較讓AI根據(jù)高考作文生成一篇闡述人生觀、價值觀的可讀性文章,不如直接以“幫我寫一篇長文,主題是:介紹北京排名前十的博物館”為指令,讓AI大模型生成可轉(zhuǎn)換成旅游冊子或?qū)в沃改系膬?nèi)容更具變現(xiàn)價值。

四款A(yù)I大模型接收到指令后,在內(nèi)容生成上表現(xiàn)出截然不同的流程和方式,其中Kimi和文心一言直接為我們撰寫了一篇類似搜索結(jié)果合集的“文章”。Kimi和文心一言直接根據(jù)指令生成了長文,其內(nèi)容包含了10個北京主要博物館的介紹,從理解到答題并沒有任何偏差,但面對同樣的指令,“橙篇”首先生成的是文章大綱,用戶可以直接在大綱中進行修改、調(diào)整。  

左為Kimi生成長文,右為文心一言生成長文   

橙篇在生成長文之前,會先生成可調(diào)整的文章大綱  

用戶確認“橙篇”生成的大綱無誤后即可點擊“生成長文”按鈕(如果特別不滿意,甚至可以直接點擊“換個大綱”)。根據(jù)大綱,“橙篇”完成了一篇13,158字的長文,詳細介紹10個北京博物館的同時,更給出了參觀和游覽建議,更在文末附有參考文獻。      

橙篇生成最終結(jié)果,無論字數(shù)還是文章結(jié)構(gòu)都相當出色 

而秘塔AI在接到指令后,其直接羅列出“北京排名前十博物館”信息的同時,更提示用戶使用秘塔旗下“寫作貓AI”完成文章的生成。  

秘塔AI在結(jié)果界面會有明確的“寫作貓AI”提示 

選擇進入“寫作貓AI”界面后,即可看到類似在線輕辦公的界面,這里不僅會重新梳理秘塔AI的搜索內(nèi)容,更會在底部給出“寫內(nèi)容”和“寫大綱”兩項提示,點選“寫大綱”后,秘塔“寫作貓AI”也會根據(jù)剛才的搜索內(nèi)容撰寫文章大綱。

寫作貓AI根據(jù)秘塔AI搜索內(nèi)容,完成文章的創(chuàng)作

在寫作貓AI界面,我們不僅可以對字體界面等細節(jié)進行調(diào)整,更可以輸入指令讓寫作貓AI進行插入或重寫,將輕辦公應(yīng)用同AI融為一體,只不過從默認生成的內(nèi)容看,秘塔“寫作貓AI”針對本次指令完成的文章深度不如橙篇。    

不過從長文完成步驟和作品呈現(xiàn)上看,秘塔AI和橙篇已經(jīng)不再是單純地在用對話的方式完成上下長文內(nèi)容的生成了,從指令的分析、理解到長文提綱的生成以及內(nèi)容的完整生成,這兩款A(yù)I大模型的長文生成流程已經(jīng)近似真人,同時,無論是秘塔“寫作貓AI”還是橙篇本身自帶的Word編輯器,其都將AI大模型與輕辦公融為一體,這意味著AI長文本辦公已具備一站式辦公雛形。    

06?一站式辦公:橙篇與秘塔AI的對決

將AI大模型與輕辦公平臺整合在一起,橙篇與秘塔AI在長文本應(yīng)用落地上讓我們看到了不少新意。這里需要注意的是目前秘塔AI是借助秘塔旗下“寫作貓AI”將輕辦公同秘塔AI長文本能力進行結(jié)合,雖然其在軟件內(nèi)部實現(xiàn)了“打通”操作,但畢竟屬于兩個完全獨立的AI應(yīng)用,在用戶使用一致性上還值得改進。在具體的AI+輕辦公設(shè)計思路上,橙篇與秘塔AI其實具有較大差異。

橙篇嵌入“智能助手”的同時,在功能上偏向明顯的工具屬性,其重點強調(diào)“全文校整”“格式整理”等應(yīng)用,用戶除在中部主界面完成字體、段落調(diào)整外,拓展功能基本放到了界面右側(cè)。

橙篇在功能設(shè)計上更偏向文本功能

相對于“橙篇”在文本處理上的“專一”,秘塔“寫作貓AI”則更在意AI功能的整體融入,其中部的操作界面本身就分為“開始”“效率”“審閱”三個部分,用戶除在“開始”界面直接調(diào)整文章內(nèi)容字體、段落外,還可以在“效率”界面讓AI幫助實現(xiàn)“全文改寫”“全文總結(jié)”“智能排版”等功能。同時,用戶點擊“寫作貓AI”內(nèi)容界面的右上角“協(xié)作”按鈕,還可以邀請他人一同創(chuàng)作或直接公開發(fā)布創(chuàng)作內(nèi)容,在輕文本辦公設(shè)計上已經(jīng)有些向騰訊文檔、石墨文檔靠近了。

而作為相對對立的存在,秘塔或許本身想將“寫作貓AI”打造成AI寫作的獨立平臺,用戶點擊操作界面右上角“協(xié)作”旁邊的田字格圖標時,整個界面左側(cè)會根據(jù)“AI寫作”“校閱”“圖片”“詞典”“評論”五個菜單,展現(xiàn)不同的AI工具合集。    

秘塔“寫作貓AI”以平臺化的方式展現(xiàn)各AI工具        

這里我們重點嘗試了“寫作貓AI”的“校閱”欄目,畢竟WPS已經(jīng)將“文檔校對”功能劃分到會員功能區(qū),這類AI平臺能夠直接對長文字詞內(nèi)容進行準確的校對,無疑具有相當?shù)膶嵱眯浴?/p>

“寫作貓AI”的“校閱”功能細分為“內(nèi)容建議”“事實驗證”和“全文總結(jié)”三個部分,這同我們理解的“校閱”功能有些差異,其在傳統(tǒng)字詞校對的基礎(chǔ)上加入了“事實驗證”和“全文總結(jié)”,這兩個功能更偏對文章內(nèi)容的審視。          

“寫作貓AI”的“校閱”功能具有一定創(chuàng)新性        

相比而言,橙篇在“校對”功能上就更接地氣一些。橙篇的“全文校正”功能呢直接分為“糾錯”“可讀性”和“全文建議”三個部分,“糾錯”主要針對字詞錯誤,而“可讀性”則是針對文章句子的優(yōu)化,用戶可以選擇“忽略”或“采納”建議,左右邊欄的設(shè)計操作起來非常方便。

橙篇校對功能更符合日常辦公體驗     

“AI+輕辦公”并不算全新的概念,本身騰訊文檔、夸克智能文檔其實也在積極嵌入AI大模型,綜合提升用戶應(yīng)用體驗,而橙篇、秘塔AI則從AI大模型的角度對輕辦公平臺進行融合,兩種路線暫時并不存在沖突。橙篇和秘塔更多時候是通過文本編輯完成生成式AI內(nèi)容的閉環(huán),相當于從互聯(lián)網(wǎng)內(nèi)容閱讀理解到長文生成、編輯,AI大模型可以一站式滿足用戶需求。

無論是自媒體從業(yè)者、新聞工作者,又或是有文章撰寫需求的白領(lǐng)群體和學(xué)生群體,橙篇、秘塔AI這樣的產(chǎn)品無疑能有效提高學(xué)習(xí)和辦公效率。      

07寫在最后:AI細分應(yīng)用賽道的崛起

Chat類大模型想要在C端大眾市場收獲用戶,無外乎兩條路可走:一是提效工具,二是娛樂工具。自Kimi推動AI大模型向長文本賽道“內(nèi)卷”后,能夠體現(xiàn)生產(chǎn)力價值的AI大模型顯然更符合當下終端消費市場需求。          

從內(nèi)容創(chuàng)作到法律、金融等專業(yè)領(lǐng)域,具備長文本能力的AI大模型能夠快速對信息進行提取、整理甚至分析,充當“助手”的角色,減輕用戶工作量的同時,也踐行AI工具價值的落地。

而即便是作為娛樂工具,長文本可以通過提供更多上下文信息和細節(jié)信息,來輔助模型判斷語義,進一步減少歧義,并且基于所提供事實基礎(chǔ)上的歸納、推理也更加準確。這意味著主打“情感陪伴”的Agent(智體)能夠具備長期“記憶”,從而為用戶帶來連貫的交互體驗,也推動整個AI應(yīng)用的崛起。

本文由人人都是產(chǎn)品經(jīng)理作者【汪仔1064】,微信公眾號:【電腦報】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!