不吹也不擂,看看國內(nèi)各廠的chatbot都進(jìn)化到哪了?|(1)數(shù)據(jù)統(tǒng)計(jì)能力測評和高考數(shù)學(xué)題能力測評

0 評論 1624 瀏覽 4 收藏 25 分鐘

前段時(shí)間高考,作為這幾年大熱的大模型也被人拉出來評測了一番,從各個(gè)科目的表現(xiàn)來看并不是很理想——特別是在數(shù)學(xué)表現(xiàn)上。但是在打工人日常其實(shí)有不少數(shù)據(jù)統(tǒng)計(jì)、分析的工作,這時(shí)候的大模型,能否幫到我們?以及,表現(xiàn)怎么樣?

相信大家在日常工作生活中,都已經(jīng)體驗(yàn)過各類chatbot了,像chatGPT、chatGLM、文心一言、通義千問,還有近來上線的騰訊元寶等;那不知大家是否有一些使用心得和使用經(jīng)驗(yàn)或槽點(diǎn)呢?

我本人目前基本上,每天都會(huì)使用LLM來幫助我工作提效(但于我是否真的提效,還有待考證)~

我用的比較多的兩個(gè)場景是:

  1. 幫我“搜索內(nèi)容+整理內(nèi)容+按我要求的格式”輸出給我;
  2. 幫我“提煉一篇或多篇文章(pdf或網(wǎng)頁url)的要點(diǎn)”;

那除了上面這些場景,PM在日常工作中,還有一些【數(shù)據(jù)統(tǒng)計(jì)分析】的工作,比如查數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù),那這時(shí)候LLM,可否幫幫我們呢?

(雖然我們之前可能早已注意到,chatbot并不擅長數(shù)據(jù)分析,但隨著各類智能體框架和技術(shù)的演進(jìn),相信一些廠商已經(jīng)能夠解決該問題)

話不多說,讓我們一起來看看吧…

一、國內(nèi)各家chatbot【數(shù)據(jù)統(tǒng)計(jì)能力】測評過程記錄、測評結(jié)論

這里,本人選取了chatGLM網(wǎng)頁版(智譜清言)、文心一言3.5網(wǎng)頁版(百度)、通義千問2.5網(wǎng)頁版(阿里)、kimi網(wǎng)頁版(月之暗面)、騰訊元寶,進(jìn)行“chatbot數(shù)據(jù)分析”能力測試。

注:測評過程內(nèi)容較多,可跳過測評過程,先看測評結(jié)論。以下是測評內(nèi)容和測評結(jié)果。

1、我是先用了word文檔,直接測試,統(tǒng)計(jì)“某一列值=xx,共有多少條數(shù)據(jù)”

——發(fā)現(xiàn)不行。word就是沒法很好的完成數(shù)據(jù)統(tǒng)計(jì)分析功能;

2、接著換成了excel文檔,內(nèi)容和問題不變。

——發(fā)現(xiàn)好了一點(diǎn)。智譜AI完勝,可以理解問題,并自行判斷調(diào)用其內(nèi)部的何種工具來完成問題,結(jié)果正確,還支持繪制圖表,并進(jìn)行更深層次的統(tǒng)計(jì)分析。文心一言還不支持解析excel。騰訊元寶還在卡BUG死循環(huán)的路上。kimi回答不正確。

3、——為了不冤枉各個(gè)廠商,我翻了bchabot全部功能(應(yīng)該沒遺漏),最后發(fā)現(xiàn),我沒有冤枉文心一言、元寶、kimi~他們的數(shù)據(jù)統(tǒng)計(jì)分析就是不行~

4、關(guān)于2024高考數(shù)學(xué)題,星火、九章大模型、文心一言、智譜GLM4的表現(xiàn)如何?

2.1 實(shí)驗(yàn)一:使用word文檔,測試簡單的【數(shù)據(jù)統(tǒng)計(jì)】功能

(1)實(shí)驗(yàn)時(shí)間:2024年6月17日

(2)實(shí)驗(yàn)人:南方蝶道

(3)實(shí)驗(yàn)過程記錄:

使用文檔:境內(nèi)深度合成服務(wù)算法備案清單(2024年6月) (1).docx

p.s. 共有492條數(shù)據(jù),服務(wù)提供者=389條;服務(wù)技術(shù)支持者=103條;

測試輸入:

測試結(jié)果輸出:

(1)chatGLM-4.0網(wǎng)頁版-輸出結(jié)果:

(2)百度文心一言3.5網(wǎng)頁版-輸出結(jié)果:

回答報(bào)錯(cuò)、不正確。

第一次系統(tǒng)默認(rèn)調(diào)用【閱讀助手】插件,報(bào)錯(cuò)(這個(gè)插件總是報(bào)錯(cuò),這是我遇到的第五六次了…)

第二次系統(tǒng)給的結(jié)果如下:

(3)阿里通義千問2.5網(wǎng)頁版-輸出結(jié)果:

回答不正確

(4)kimi網(wǎng)頁版-輸出結(jié)果:

回答不正確

(5)騰訊元寶網(wǎng)頁版-輸出結(jié)果:

回答不正確

實(shí)驗(yàn)一結(jié)論:

可以看到,當(dāng)使用word文檔,對chatbot進(jìn)行數(shù)據(jù)統(tǒng)計(jì)提問時(shí),各個(gè)廠商的chatbot均不能完成任務(wù),哪怕是簡單的“統(tǒng)計(jì)某一列中值=XX 的行數(shù)等于多少” ,現(xiàn)階段的chatbot也不能完成。

okay,是輸入方式不對,我們改成 EXCEL文件作為輸入,進(jìn)行測試。詳見下面的實(shí)驗(yàn)二。

2.2 實(shí)驗(yàn)二:使用excel文件,測試簡單的【數(shù)據(jù)統(tǒng)計(jì)】功能:統(tǒng)計(jì)某一列 [數(shù)值=xx] 的行數(shù)有多少

(1)實(shí)驗(yàn)時(shí)間:2024年6月17日

(2)實(shí)驗(yàn)人:南方蝶道

(3)實(shí)驗(yàn)過程記錄:

使用文件:24年6月備案通過名單.xlsx

p.s. 共有492條數(shù)據(jù),服務(wù)提供者=389條;服務(wù)技術(shù)支持者=103條;

測試輸入:

測試結(jié)果輸出:

(1)chatGLM-4.0網(wǎng)頁版

下面結(jié)果表明:chatGLM不僅數(shù)據(jù)分析問題可以計(jì)算正確,還可以繪制統(tǒng)計(jì)圖表~

再問它一個(gè)統(tǒng)計(jì)問題:“幫我統(tǒng)計(jì) 涉及“多模態(tài)”字樣的 ,且角色為 “服務(wù)技術(shù)支持者”的數(shù)據(jù)有多少條,并給出具體的數(shù)據(jù)行”

(2)百度文心一言3.5網(wǎng)頁版-輸出結(jié)果:

文心一言chatbot默認(rèn)的對話窗口,不支持解析excel。即不支持上傳excel文件,僅支持pdf、word和圖片類型文件。

(3)阿里通義千問2.5網(wǎng)頁版-輸出結(jié)果:

計(jì)算不正確

(4)kimi網(wǎng)頁版-輸出結(jié)果:

算了2遍,都不對。

(5)騰訊元寶網(wǎng)頁版-輸出結(jié)果:

自己報(bào)錯(cuò),執(zhí)行不下去中斷了問題。

再試一遍:還是同樣的報(bào)錯(cuò)。顯然,這不是偶發(fā)BUG。

報(bào)錯(cuò)問題詳見:https://yuanbao.tencent.com/bot/app/share/chat/177e6bdd9125a1df7fdeac80574fd415

實(shí)驗(yàn)結(jié)論:

由實(shí)驗(yàn)二各個(gè)廠家chatbot的實(shí)際測試結(jié)果,“數(shù)據(jù)統(tǒng)計(jì)功能“哪家強(qiáng)?——相信大家也一目了然。

1、智譜AI(GLM-4)不僅給出了正確的計(jì)算結(jié)果,還可以給出相關(guān)問題并繪制”數(shù)據(jù)分布圖表“;kimi給出了結(jié)論,但計(jì)算錯(cuò)誤;騰訊還在報(bào)錯(cuò)卡BUG執(zhí)行不下去的路上;百度還不支持excel數(shù)據(jù)分析,任重而道遠(yuǎn)~

綜上,智譜AI chatbot在【數(shù)據(jù)統(tǒng)計(jì)分析】的路上,進(jìn)化的最快、能力最強(qiáng)!

在2024年6月17這個(gè)時(shí)間節(jié)點(diǎn),在”Excel數(shù)據(jù)統(tǒng)計(jì)&分析“這一命題任務(wù)上,chatGLM完勝!這一點(diǎn)毋庸置疑~ 它能夠分析問題->自主判斷調(diào)用其系統(tǒng)內(nèi)部的【代碼生成助手】→自動(dòng)執(zhí)行任務(wù)→給出結(jié)果&且結(jié)果正確。

emmm,但本著開放包容、不冤枉任何一家chatbot的原則,下面再深入看看,是不是各家chatbot有其它隱藏著的excel技能(如Excel數(shù)據(jù)分析智能體啥的),只是我沒有發(fā)現(xiàn)?

——嗯,下面再來深入看一看吧…

2.3 實(shí)驗(yàn)三:騰訊元寶、百度文心一言、阿里通義千問、kimi chatbot【數(shù)據(jù)分析】功能深挖

(1)實(shí)驗(yàn)時(shí)間:2024年6月17日

(2) 實(shí)驗(yàn)人:南方蝶道

(3)實(shí)驗(yàn)過程記錄:

(3.1)百度chatbot–【數(shù)據(jù)分析】功能深挖,到底有沒有?

之前在實(shí)驗(yàn)二中,我們發(fā)現(xiàn)文心一言chatbot,壓根不支持在【對話框】中對excel類型的文件進(jìn)行上傳和解析;

下面看一看其【插件商城】、【智能體中心】(百寶箱)里面是不是有相關(guān)的彩蛋?

(1)文心一言-【插件商城】截圖:

翻了一圈【文心一言-插件商城】,沒有看到【數(shù)據(jù)分析】相關(guān)的插件~

(2)文心一言-【百寶箱】截圖:

直接搜excel相關(guān)的智能體/指令,百寶箱搜索結(jié)果中給了4個(gè),嗯,但是也沒有能干”excel數(shù)據(jù)統(tǒng)計(jì)分析“這件事的。

再試一試“代碼”、“sql”相關(guān)的:

至此,文心一言chatbot鑒定完畢,現(xiàn)階段(2024年6月)就是不支持【數(shù)據(jù)統(tǒng)計(jì)分析】,看來只能挪步至隔壁【千帆大模型平臺(tái)】了~~

后面翻一翻【千帆大模型】平臺(tái)上的智能體,是否有”數(shù)據(jù)統(tǒng)計(jì)分析“相關(guān)的。

(3.2)騰訊元寶–【數(shù)據(jù)分析】功能深挖

搜一搜元寶是否有 excel相關(guān)的智能體?——emmm,Nothing~(下圖是24年6月17日截圖)

再試一試 是否有“代碼生成”(參照智譜AI)相關(guān)的智能體?——emm,也沒有。(下圖是24年6月17日截圖)

(3.3)阿里通義千問–【數(shù)據(jù)分析】功能深挖

(1)通義千問-效率導(dǎo)航-工具箱:無“數(shù)據(jù)分析”相關(guān);

2)通義千問-智能體:提供了excel相關(guān)的智能體,但是測評下來,智能體的功能單一、質(zhì)量不高,無法完成任務(wù)(如不支持傳excel文件、有1000的token限制等);

(3.4)kimi–【數(shù)據(jù)分析】功能深挖

下面是kimi 的”kimi+“智能體列表全部的截圖(2024年6月17日),可以看到在這個(gè)節(jié)點(diǎn),kimi智能體中心沒有【數(shù)據(jù)統(tǒng)計(jì)分析】相關(guān)的~

實(shí)驗(yàn)三結(jié)論:

看來,我沒有冤枉各家chatbot,真的沒有更多的數(shù)據(jù)統(tǒng)計(jì)分析能力…

二、各種PR稿鼓吹大模型可以做高考數(shù)學(xué)題,真的能嗎?

結(jié)論是:現(xiàn)階段,還不能~ 但有機(jī)會(huì),任重而道遠(yuǎn)~~

這里給大家奉上一篇,我個(gè)人認(rèn)為寫的不錯(cuò)的文章(《當(dāng)AI遇上高考數(shù)學(xué)題,4個(gè)大模型“考生”“成績單”出爐》,6月19日發(fā)表的,下稱文章1),文章中的一些核心觀點(diǎn)和測評過程中遇到的大模型問題,給大家分享一下(他山之石、可以攻玉):

該篇文章選擇了4個(gè)大模型,分別是【星火大模型(v3.5版本)】、【文心一言(3.5版)】、【智譜清言(GLM-4)】通用大模型,和 以數(shù)學(xué)能力見長的教育垂類模型:【九章大模型】。

測評數(shù)據(jù):選取的是2024全國高考數(shù)學(xué)–新課標(biāo)1卷–客觀題部分,進(jìn)行測評。其中包括8道單選題、3道多選題、3道填空題。

此外,由于試題中存在圖形、大量數(shù)學(xué)符號,該篇文章,為防止以文本形式輸入題目產(chǎn)生偏差,統(tǒng)一選擇以圖片形式呈現(xiàn)題目并提供給大模型進(jìn)行解答。

測評表現(xiàn)和測評結(jié)果:

四位“考生”此次作答正確率:從高到低依次為星火大模型(85.71%)、九章大模型(78.57%)、智譜清言(28.57%)、文心一言(7.14%)。

盡管做題結(jié)果正確,但各個(gè)模型做題的推理過程,均禁不起推敲;

——那么究竟差在哪了?

“第一,題目識別上存在比較大的困難,涉及一些數(shù)學(xué)符號、分式等會(huì)影響識別效果,還有一些圖形、表格識別存在問題,以及一些數(shù)學(xué)專業(yè)術(shù)語的表述識別也不夠精準(zhǔn)。

第二,幾個(gè)大模型在邏輯推理能力上還存在不足。

第三是解題方法較為單一,大模型似乎只能按照固定的模板去答題,而不能依據(jù)題目的特征因地制宜地選擇最優(yōu)方法?!?/p>

——以上觀點(diǎn),均來自《文章1》

(1)文心一言(v3.5)–2024年-高考數(shù)學(xué)客觀題表現(xiàn)

– 該篇文章測評中可以發(fā)現(xiàn):

①文心一言具備讀取圖片內(nèi)容的能力,但無法識別僅帶有復(fù)雜分?jǐn)?shù)的公式和圖形。

– 例如單選題第3題,明明成功讀出題目中的“⊥”符號為“垂直”,卻在后面的步驟中理解為“平行”(題面中未出現(xiàn)任何平行相關(guān)字眼或符號),經(jīng)提示,文心一言發(fā)現(xiàn)理解錯(cuò)誤,卻在再次解答時(shí)又出現(xiàn)理解偏差。

——這就是大模型普遍均存在的讓人頭疼的“幻覺之一”(上下文矛盾問題);

②文心一言解答數(shù)學(xué)題并不是用數(shù)理邏輯,而是試圖用文字論證的方式去猜測一個(gè)接近的結(jié)果。
– 從單選題第5題的答題情況不難看出;

③文心一言幾乎對每一題都進(jìn)行了詳細(xì)的推理,但最終大部分題目都得出了錯(cuò)誤的答案。

④ 文心一言:優(yōu)秀的文科生,但理科真的差;

“文心一言在答數(shù)學(xué)題能力上雖然遜色,但通過一系列的追問、對話可以發(fā)現(xiàn),這位“考生”對語義語境的把控能力非常優(yōu)秀,很容易明白用戶在說什么,在用戶補(bǔ)充提醒的時(shí)候,它很快就可以知道根據(jù)新信息去解釋上面的題目。”——文章1。

(2)智譜清言(GLM-4)–2024年-高考數(shù)學(xué)客觀題表現(xiàn)

①智譜清言也存在上下文矛盾的幻覺問題。

在第12題中,經(jīng)過一番分析后,智譜清言告訴用戶無法計(jì)算出結(jié)果。

在第13題中,智譜清言重復(fù)地分析、發(fā)現(xiàn)問題、重新審視問題,又一遍一遍地發(fā)現(xiàn)行不通,進(jìn)行了十輪以上的死循環(huán)(在我之前測試,我發(fā)現(xiàn)騰訊元寶也有這個(gè)問題…后面和大家分享),直到人工點(diǎn)擊暫停才停下。

②智譜清言的解答比較簡潔,一般會(huì)直接回應(yīng)題目,有一定的邏輯性和條理性。

③但答案不是特別詳細(xì),也沒有深入分析。

④有些題目的回答和標(biāo)準(zhǔn)答案的匹配度不高,有些題目雖然答對了,但會(huì)漏掉一些關(guān)鍵點(diǎn)。

(3)星火大模型、九章大模型——2024年-高考數(shù)學(xué)客觀題表現(xiàn)

①如果說文心一言是個(gè)“不錯(cuò)的文科生”,那么【星火大模型】和【九章大模型】,就是典型的“理科生”,雖然非常擅長解題,但上下文語義語境的理解是它們的弱勢。

– 例如,當(dāng)用戶對【星火大模型】提出:

Q:“上面這道題可以再詳細(xì)分析一下嗎”時(shí),星火并不能理解指向的是什么,而是回答:

星火大模型回答:“很抱歉,由于我無法看到您提到的具體問題,所以無法為您提供更詳細(xì)的分析。請?zhí)峁﹩栴}的詳細(xì)信息,以便我能夠更好地幫助您。”

當(dāng)用戶對【九章大模型】追問:

Q:“請你檢查一下這道題,D選項(xiàng)到底對不對”;

九章:“當(dāng)然可以,請您提供題目的具體內(nèi)容,包括選項(xiàng)D的表述,我會(huì)盡力幫助您檢查?!?/p>

——說明其比較擅長解題,但很難聯(lián)系上下文語境語義來與用戶互動(dòng)對話。并不明白用戶問的是什么。

②九章大模型的部分解題過程也存在瑕疵。

在一道多選題中,九章大模型在推理中明明認(rèn)為C選項(xiàng)錯(cuò)誤,但最后又把C選為正確答案,“這個(gè)表述上下文之間沒啥邏輯關(guān)系,讓人摸不到頭腦?!鄙鲜鰯?shù)學(xué)專業(yè)人士指出。

② 星火和九章 對題目的處理上:

1)九章大模型在圖片題目識別上,會(huì)先在輸入文本框中識別讀取出題面,并以文本形式呈現(xiàn),用戶可在框內(nèi)確認(rèn)題目的準(zhǔn)確性。若發(fā)現(xiàn)識別錯(cuò)誤,點(diǎn)擊即可出現(xiàn)數(shù)學(xué)符號的輔助輸入工具欄,進(jìn)行編輯修改,防止題目讀取錯(cuò)誤。

2)而星火大模型,沒有上面這個(gè)步驟。直接回答,所以不知道題目識別環(huán)節(jié)理解了多少。

三、寫在最后的一點(diǎn)思考

我的一些觀點(diǎn):

1、PR稿吹得天花亂墜,但是實(shí)際落地,一堆工程問題需要解決;

——這是因?yàn)閺S商需要“造夢”,以獲得資本的青睞;

——所以我們要建好心里預(yù)期,不要抱過高期待;

2、新技術(shù)的出現(xiàn),于世界、于我們都是好事,我們要擁抱它,同時(shí)需要給予它一些耐心和包容性~

3、大模型之于教育場景(輔導(dǎo)服務(wù),課后點(diǎn)評,輔助解題等)有很多想象空間,但同時(shí)也有很長的一段路要走…

寫在最后:

1、希望本文對各位小伙伴了解chatbot能力和市場,有所幫助~~

但是但是,借用本文內(nèi)容的觀點(diǎn)和內(nèi)容,請注明來源鏈接~~ 禁止直接抄襲~

2、除了本文的chatbot【數(shù)據(jù)統(tǒng)計(jì)】能力測評外,本人還系統(tǒng)進(jìn)行了“AI搜索+寫作”、“圖片理解”、“長文檔解析和問答”、“Agent搭建”等各項(xiàng)能力測評,后續(xù)有時(shí)間同大家分享~

本文參考資料:

[1]當(dāng)AI遇上高考數(shù)學(xué)題,4個(gè)大模型“考生”“成績單”出爐 — 新京報(bào)

本文由 @南方碟道 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!