欧美视频在线一区,欧美日一区二区三区,国产精品永久免费网站

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

不吹也不擂，看看國內各廠的chatbot都進化到哪了？|（1）數據統計能力測評和高考數學題能力測評

產品蝶道

2024-06-21

0 評論 1795 瀏覽 4 收藏

前段時間高考，作為這幾年大熱的大模型也被人拉出來評測了一番，從各個科目的表現來看并不是很理想——特別是在數學表現上。但是在打工人日常其實有不少數據統計、分析的工作，這時候的大模型，能否幫到我們？以及，表現怎么樣？

相信大家在日常工作生活中，都已經體驗過各類chatbot了，像chatGPT、chatGLM、文心一言、通義千問，還有近來上線的騰訊元寶等；那不知大家是否有一些使用心得和使用經驗或槽點呢？

我本人目前基本上，每天都會使用LLM來幫助我工作提效（但于我是否真的提效，還有待考證）~

我用的比較多的兩個場景是：

幫我“搜索內容+整理內容+按我要求的格式”輸出給我；
幫我“提煉一篇或多篇文章（pdf或網頁url）的要點”；

那除了上面這些場景，PM在日常工作中，還有一些【數據統計分析】的工作，比如查數據、統計數據，那這時候LLM，可否幫幫我們呢？

（雖然我們之前可能早已注意到，chatbot并不擅長數據分析，但隨著各類智能體框架和技術的演進，相信一些廠商已經能夠解決該問題）

話不多說，讓我們一起來看看吧…

一、國內各家chatbot【數據統計能力】測評過程記錄、測評結論

這里，本人選取了chatGLM網頁版（智譜清言）、文心一言3.5網頁版（百度）、通義千問2.5網頁版（阿里）、kimi網頁版（月之暗面）、騰訊元寶，進行“chatbot數據分析”能力測試。

什么是B端产品经理？和C端产品经理有什么区别？

B端产品经理中的B是Business，商业的意思，B端产品经理首先就要理解这个职位的重要性，要设计出更适合这个项目需求的产品方案，B最终产品经理在日常工作中...

查看详情 >

注：測評過程內容較多，可跳過測評過程，先看測評結論。以下是測評內容和測評結果。

1、我是先用了word文檔，直接測試，統計“某一列值=xx，共有多少條數據”

——發(fā)現不行。word就是沒法很好的完成數據統計分析功能；

2、接著換成了excel文檔，內容和問題不變。

——發(fā)現好了一點。智譜AI完勝，可以理解問題，并自行判斷調用其內部的何種工具來完成問題，結果正確，還支持繪制圖表，并進行更深層次的統計分析。文心一言還不支持解析excel。騰訊元寶還在卡BUG死循環(huán)的路上。kimi回答不正確。

3、——為了不冤枉各個廠商，我翻了bchabot全部功能（應該沒遺漏），最后發(fā)現，我沒有冤枉文心一言、元寶、kimi~他們的數據統計分析就是不行~

4、關于2024高考數學題，星火、九章大模型、文心一言、智譜GLM4的表現如何？

2.1 實驗一：使用word文檔，測試簡單的【數據統計】功能

（1）實驗時間：2024年6月17日

（2）實驗人：南方蝶道

（3）實驗過程記錄：

使用文檔：境內深度合成服務算法備案清單（2024年6月） (1).docx

p.s. 共有492條數據，服務提供者=389條；服務技術支持者=103條；

測試輸入：

測試結果輸出：

（1）chatGLM-4.0網頁版-輸出結果：

（2）百度文心一言3.5網頁版-輸出結果：

回答報錯、不正確。

第一次系統默認調用【閱讀助手】插件，報錯（這個插件總是報錯，這是我遇到的第五六次了…）

第二次系統給的結果如下：

（3）阿里通義千問2.5網頁版-輸出結果：

回答不正確

（4）kimi網頁版-輸出結果：

回答不正確

（5）騰訊元寶網頁版-輸出結果：

回答不正確

實驗一結論：

可以看到，當使用word文檔，對chatbot進行數據統計提問時，各個廠商的chatbot均不能完成任務，哪怕是簡單的“統計某一列中值=XX 的行數等于多少” ，現階段的chatbot也不能完成。

okay，是輸入方式不對，我們改成 EXCEL文件作為輸入，進行測試。詳見下面的實驗二。

2.2 實驗二：使用excel文件，測試簡單的【數據統計】功能：統計某一列 [數值=xx] 的行數有多少

（1）實驗時間：2024年6月17日

（2）實驗人：南方蝶道

（3）實驗過程記錄：

使用文件：24年6月備案通過名單.xlsx

p.s. 共有492條數據，服務提供者=389條；服務技術支持者=103條；

測試輸入：

測試結果輸出：

（1）chatGLM-4.0網頁版

下面結果表明：chatGLM不僅數據分析問題可以計算正確，還可以繪制統計圖表~

再問它一個統計問題：“幫我統計涉及“多模態(tài)”字樣的，且角色為 “服務技術支持者”的數據有多少條，并給出具體的數據行”

（2）百度文心一言3.5網頁版-輸出結果：

文心一言chatbot默認的對話窗口，不支持解析excel。即不支持上傳excel文件，僅支持pdf、word和圖片類型文件。

（3）阿里通義千問2.5網頁版-輸出結果：

計算不正確

（4）kimi網頁版-輸出結果：

算了2遍，都不對。

（5）騰訊元寶網頁版-輸出結果：

自己報錯，執(zhí)行不下去中斷了問題。

再試一遍：還是同樣的報錯。顯然，這不是偶發(fā)BUG。

報錯問題詳見：https://yuanbao.tencent.com/bot/app/share/chat/177e6bdd9125a1df7fdeac80574fd415

實驗結論：

由實驗二各個廠家chatbot的實際測試結果，“數據統計功能“哪家強？——相信大家也一目了然。

1、智譜AI（GLM-4）不僅給出了正確的計算結果，還可以給出相關問題并繪制”數據分布圖表“；kimi給出了結論，但計算錯誤；騰訊還在報錯卡BUG執(zhí)行不下去的路上；百度還不支持excel數據分析，任重而道遠~

綜上，智譜AI chatbot在【數據統計分析】的路上，進化的最快、能力最強！

在2024年6月17這個時間節(jié)點，在”Excel數據統計&分析“這一命題任務上，chatGLM完勝！這一點毋庸置疑~ 它能夠分析問題->自主判斷調用其系統內部的【代碼生成助手】→自動執(zhí)行任務→給出結果&且結果正確。

emmm，但本著開放包容、不冤枉任何一家chatbot的原則，下面再深入看看，是不是各家chatbot有其它隱藏著的excel技能（如Excel數據分析智能體啥的），只是我沒有發(fā)現？

——嗯，下面再來深入看一看吧…

2.3 實驗三：騰訊元寶、百度文心一言、阿里通義千問、kimi chatbot【數據分析】功能深挖

(1）實驗時間：2024年6月17日

(2) 實驗人：南方蝶道

(3)實驗過程記錄：

（3.1）百度chatbot–【數據分析】功能深挖，到底有沒有？

之前在實驗二中，我們發(fā)現文心一言chatbot，壓根不支持在【對話框】中對excel類型的文件進行上傳和解析；

下面看一看其【插件商城】、【智能體中心】（百寶箱）里面是不是有相關的彩蛋？

（1）文心一言-【插件商城】截圖：

翻了一圈【文心一言-插件商城】，沒有看到【數據分析】相關的插件~

（2）文心一言-【百寶箱】截圖：

直接搜excel相關的智能體/指令，百寶箱搜索結果中給了4個，嗯，但是也沒有能干”excel數據統計分析“這件事的。

再試一試“代碼”、“sql”相關的：

至此，文心一言chatbot鑒定完畢，現階段（2024年6月）就是不支持【數據統計分析】，看來只能挪步至隔壁【千帆大模型平臺】了~~

后面翻一翻【千帆大模型】平臺上的智能體，是否有”數據統計分析“相關的。

（3.2）騰訊元寶–【數據分析】功能深挖

搜一搜元寶是否有 excel相關的智能體？——emmm，Nothing~（下圖是24年6月17日截圖）

再試一試是否有“代碼生成”（參照智譜AI）相關的智能體？——emm，也沒有。（下圖是24年6月17日截圖）

（3.3）阿里通義千問–【數據分析】功能深挖

（1）通義千問-效率導航-工具箱：無“數據分析”相關；

2）通義千問-智能體：提供了excel相關的智能體，但是測評下來，智能體的功能單一、質量不高，無法完成任務（如不支持傳excel文件、有1000的token限制等）；

（3.4）kimi–【數據分析】功能深挖

下面是kimi 的”kimi+“智能體列表全部的截圖（2024年6月17日），可以看到在這個節(jié)點，kimi智能體中心沒有【數據統計分析】相關的~

實驗三結論：

看來，我沒有冤枉各家chatbot，真的沒有更多的數據統計分析能力…

二、各種PR稿鼓吹大模型可以做高考數學題，真的能嗎？

結論是：現階段，還不能~ 但有機會，任重而道遠~~

這里給大家奉上一篇，我個人認為寫的不錯的文章（《當AI遇上高考數學題，4個大模型“考生”“成績單”出爐》，6月19日發(fā)表的，下稱文章1），文章中的一些核心觀點和測評過程中遇到的大模型問題，給大家分享一下（他山之石、可以攻玉）：

該篇文章選擇了4個大模型，分別是【星火大模型（v3.5版本）】、【文心一言（3.5版）】、【智譜清言（GLM-4）】通用大模型，和以數學能力見長的教育垂類模型：【九章大模型】。

測評數據：選取的是2024全國高考數學–新課標1卷–客觀題部分，進行測評。其中包括8道單選題、3道多選題、3道填空題。

此外，由于試題中存在圖形、大量數學符號，該篇文章，為防止以文本形式輸入題目產生偏差，統一選擇以圖片形式呈現題目并提供給大模型進行解答。

測評表現和測評結果：

四位“考生”此次作答正確率：從高到低依次為星火大模型（85.71%）、九章大模型（78.57%）、智譜清言（28.57%）、文心一言（7.14%）。

盡管做題結果正確，但各個模型做題的推理過程，均禁不起推敲；

——那么究竟差在哪了？

“第一，題目識別上存在比較大的困難，涉及一些數學符號、分式等會影響識別效果，還有一些圖形、表格識別存在問題，以及一些數學專業(yè)術語的表述識別也不夠精準。

第二，幾個大模型在邏輯推理能力上還存在不足。

第三是解題方法較為單一，大模型似乎只能按照固定的模板去答題，而不能依據題目的特征因地制宜地選擇最優(yōu)方法?！?/p>

——以上觀點，均來自《文章1》

（1）文心一言（v3.5）–2024年-高考數學客觀題表現

– 該篇文章測評中可以發(fā)現：

①文心一言具備讀取圖片內容的能力，但無法識別僅帶有復雜分數的公式和圖形。

– 例如單選題第3題，明明成功讀出題目中的“⊥”符號為“垂直”，卻在后面的步驟中理解為“平行”（題面中未出現任何平行相關字眼或符號），經提示，文心一言發(fā)現理解錯誤，卻在再次解答時又出現理解偏差。

——這就是大模型普遍均存在的讓人頭疼的“幻覺之一”（上下文矛盾問題）；

②文心一言解答數學題并不是用數理邏輯，而是試圖用文字論證的方式去猜測一個接近的結果。
– 從單選題第5題的答題情況不難看出；

③文心一言幾乎對每一題都進行了詳細的推理，但最終大部分題目都得出了錯誤的答案。

④ 文心一言：優(yōu)秀的文科生，但理科真的差；

“文心一言在答數學題能力上雖然遜色，但通過一系列的追問、對話可以發(fā)現，這位“考生”對語義語境的把控能力非常優(yōu)秀，很容易明白用戶在說什么，在用戶補充提醒的時候，它很快就可以知道根據新信息去解釋上面的題目。”——文章1。

（2）智譜清言（GLM-4）–2024年-高考數學客觀題表現

①智譜清言也存在上下文矛盾的幻覺問題。

在第12題中，經過一番分析后，智譜清言告訴用戶無法計算出結果。

在第13題中，智譜清言重復地分析、發(fā)現問題、重新審視問題，又一遍一遍地發(fā)現行不通，進行了十輪以上的死循環(huán)（在我之前測試，我發(fā)現騰訊元寶也有這個問題…后面和大家分享），直到人工點擊暫停才停下。

②智譜清言的解答比較簡潔，一般會直接回應題目，有一定的邏輯性和條理性。

③但答案不是特別詳細，也沒有深入分析。

④有些題目的回答和標準答案的匹配度不高，有些題目雖然答對了，但會漏掉一些關鍵點。

（3）星火大模型、九章大模型——2024年-高考數學客觀題表現

①如果說文心一言是個“不錯的文科生”，那么【星火大模型】和【九章大模型】，就是典型的“理科生”，雖然非常擅長解題，但上下文語義語境的理解是它們的弱勢。

– 例如，當用戶對【星火大模型】提出：

Q：“上面這道題可以再詳細分析一下嗎”時，星火并不能理解指向的是什么，而是回答：

星火大模型回答：“很抱歉，由于我無法看到您提到的具體問題，所以無法為您提供更詳細的分析。請?zhí)峁﹩栴}的詳細信息，以便我能夠更好地幫助您?！?/p>

–當用戶對【九章大模型】追問：

Q：“請你檢查一下這道題，D選項到底對不對”；

九章：“當然可以，請您提供題目的具體內容，包括選項D的表述，我會盡力幫助您檢查。”

——說明其比較擅長解題，但很難聯系上下文語境語義來與用戶互動對話。并不明白用戶問的是什么。

②九章大模型的部分解題過程也存在瑕疵。

在一道多選題中，九章大模型在推理中明明認為C選項錯誤，但最后又把C選為正確答案，“這個表述上下文之間沒啥邏輯關系，讓人摸不到頭腦?！鄙鲜鰯祵W專業(yè)人士指出。

② 星火和九章對題目的處理上：

1）九章大模型在圖片題目識別上，會先在輸入文本框中識別讀取出題面，并以文本形式呈現，用戶可在框內確認題目的準確性。若發(fā)現識別錯誤，點擊即可出現數學符號的輔助輸入工具欄，進行編輯修改，防止題目讀取錯誤。

2）而星火大模型，沒有上面這個步驟。直接回答，所以不知道題目識別環(huán)節(jié)理解了多少。

三、寫在最后的一點思考

我的一些觀點：

1、PR稿吹得天花亂墜，但是實際落地，一堆工程問題需要解決；

——這是因為廠商需要“造夢”，以獲得資本的青睞；

——所以我們要建好心里預期，不要抱過高期待；

2、新技術的出現，于世界、于我們都是好事，我們要擁抱它，同時需要給予它一些耐心和包容性~

3、大模型之于教育場景（輔導服務，課后點評，輔助解題等）有很多想象空間，但同時也有很長的一段路要走…

寫在最后：

1、希望本文對各位小伙伴了解chatbot能力和市場，有所幫助~~

但是但是，借用本文內容的觀點和內容，請注明來源鏈接~~ 禁止直接抄襲~

2、除了本文的chatbot【數據統計】能力測評外，本人還系統進行了“AI搜索+寫作”、“圖片理解”、“長文檔解析和問答”、“Agent搭建”等各項能力測評，后續(xù)有時間同大家分享~

本文參考資料：

[1]當AI遇上高考數學題，4個大模型“考生”“成績單”出爐 — 新京報

本文由 @南方碟道原創(chuàng)發(fā)布于人人都是產品經理。未經許可，禁止轉載

題圖來自Unsplash，基于CC0協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

產品蝶道

涅槃|公眾號：產品蝶道的AIGC知識庫

18篇作品 120253總閱讀量

01-308651 瀏覽

06-122336 瀏覽

刚刚

08-047855 瀏覽

09-152169 瀏覽

11-271328 瀏覽

評論

目前還沒評論，等你發(fā)揮！

案例分析：同样是B端产品经理，为什么你接定制化需求这么难？

专题

12897人已学习14篇文章

项目复盘

在项目完结时，我们经常需要进行项目复盘。那么一个好的项目复盘是怎样的？

专题

11856人已学习12篇文章

产品增长指南

增长这个话题，是互联网产品在成长过程中绕不过的问题。本专题的文章分享了产品增长指南。

专题

45352人已学习12篇文章

个性化推荐算法是什么，怎么做？

产品经理和运营都要懂一点的推荐算法基础和进阶知识

专题

15167人已学习12篇文章

如何讲好用户故事？

用户故事在软件开发过程中被作为描述需求的一种表达形式，本专题的文章分享了如何讲好用户故事。

专题

12456人已学习13篇文章

发票系统设计指南

发票是财务中必不可少的物品，那发票系统该如何设计呢？本专题的文章分享了发票系统设计指南。

专题

14362人已学习14篇文章

如何提升付费转化率？

流量难获取，获取之后转化为付费用户更是困难。本专题的文章分享了如何提升付费转化率。

<dd id="60cei"></dd>

不吹也不擂，看看國內各廠的chatbot都進化到哪了？|（1）數據統計能力測評和高考數學題能力測評

一、國內各家chatbot【數據統計能力】測評過程記錄、測評結論

2.1 實驗一：使用word文檔，測試簡單的【數據統計】功能

2.2 實驗二：使用excel文件，測試簡單的【數據統計】功能：統計某一列 [數值=xx] 的行數有多少

2.3 實驗三：騰訊元寶、百度文心一言、阿里通義千問、kimi chatbot【數據分析】功能深挖

二、各種PR稿鼓吹大模型可以做高考數學題，真的能嗎？

（1）文心一言（v3.5）–2024年-高考數學客觀題表現

（2）智譜清言（GLM-4）–2024年-高考數學客觀題表現

（3）星火大模型、九章大模型——2024年-高考數學客觀題表現

三、寫在最后的一點思考

不吹也不擂，看看國內各廠的chatbot都進化到哪了？|（1）數據統計能力測評和高考數學題能力測評

一、國內各家chatbot【數據統計能力】測評過程記錄、測評結論

2.1 實驗一：使用word文檔，測試簡單的【數據統計】功能

2.2 實驗二：使用excel文件，測試簡單的【數據統計】功能：統計某一列 [數值=xx] 的行數有多少

2.3 實驗三：騰訊元寶、百度文心一言、阿里通義千問、kimi chatbot【數據分析】功能深挖

二、各種PR稿鼓吹大模型可以做高考數學題，真的能嗎？

（3）星火大模型、九章大模型——2024年-高考數學客觀題表現