少妇毛片一区二区三区免费视频 ,超碰人人超碰人人

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

谷歌Gemini扳回一局！多模態(tài)能力和GPT-4V不分伯仲｜港中文128頁全面測評報告

量子位

2023-12-22

0 評論 4523 瀏覽 2 收藏

在Gemini開放API后，有機構(gòu)完成了相應的能力評測，發(fā)現(xiàn)Gemini-Pro的感知和認知綜合表現(xiàn)都相當不錯。具體怎么理解？這篇文章里，作者針對報告結(jié)果做了梳理，一起來看看吧。

谷歌扳回一局！

在Gemini開放API不到一周的時間，港中文等機構(gòu)就完成評測，聯(lián)合發(fā)布了多達128頁的報告，結(jié)果顯示：

在37個視覺理解任務上，Gemini-Pro表現(xiàn)出了和GPT-4V相當?shù)哪芰?/strong>。

在多模態(tài)專有基準MME上，Gemini-Pro的感知和認知綜合表現(xiàn)則直接獲得了1933.4的高分，超越GPT-4V（1926.6）。

此前，CMU測評發(fā)現(xiàn)Gemini-Pro的綜合能力居然和GPT-3.5差不多。

現(xiàn)在，在多模態(tài)這個一大主推的賣點上，Gemini-Pro可算是扳回一局。

那么具體如何？

測評報告一共128頁，咱們就挑重點來看。

一、Gemini-Pro的首份多模態(tài)能力報告來了

這份測評主要是對Gemini-Pro的視覺理解能力進行評估。

一共涵蓋基礎(chǔ)感知、高級認知、挑戰(zhàn)性視覺任務和各種專家能力四大領(lǐng)域，在37個細分任務項上進行定性比較。

定量評估則在專為多模態(tài)大語言模型專門設(shè)計的評測基準MME上展開。

首先來看定量測試結(jié)果。

二、MME上綜合表現(xiàn)比GPT-4V強

MME基準包含兩大類任務。

一個是感知，涵蓋目標存在性判斷、物體計數(shù)、位置關(guān)系、顏色判斷、OCR識別、海報識別、名人識別、場景識別、地標識別和藝術(shù)品識別等。

一個是認知，涵蓋常識推理、數(shù)值計算、文本翻譯和代碼推理等。

結(jié)果如下：

可以看到Gemini-Pro和GPT-4V可謂“各有所長”。

而計分顯示，Gemini-Pro的總分為1933.4，比GPT-4V（1926.6）要高那么一點點。

具體來看：

Gemini-Pro在文本翻譯、顏色/地標/人物識別、OCR等任務中表現(xiàn)突出；

GPT-4V在名人識別任務上的得分為0，主要是因為拒絕回答名人相關(guān)的問題；

無論是Gemini還是GPT-4V在位置識別任務上表現(xiàn)都不佳，表明他們對空間位置信息不敏感；

開源模型SPHINX在感知任務上與GPT-4V以及Gemini平齊甚至更優(yōu)，但認知和兩者有較大差距。

下面就是四大項任務上的定性結(jié)果了。

1. 基礎(chǔ)感知

感知能力直接影響模型在高階任務中的能力，因為它決定了模型獲取和處理原始視覺輸入的準確性和有效性。

報告中分別測試了模型的對象級感知能力、場景級感知能力和基于知識的感知能力。

具體一共10個細分任務：

鑒于篇幅有限，我們在此只展示其中5個：

1）空間關(guān)系

都不分左右。但GPT-4V可以通過上下文少樣本學習這項任務，然后做出正確回答。

2）物體計數(shù)

簡單樣例整體還OK，但復雜一點的全軍覆沒。不過在數(shù)NBA籃球運動員時，Gemini-Pro的答案已經(jīng)相當接近了（正確為42個）。

3）視覺錯覺

左側(cè)樣例中，兩個梨實際上具有相同的亮度。Gemini Pro正確識別，而GPT-4V和SPHNIX被欺騙。

4）場景理解

模型都能夠描繪場景中的關(guān)鍵視覺元素。相比之下，GPT-4V顯示出優(yōu)越的性能，描述更加詳細，并且幻覺的實例也更少。

5）視頻場景理解

從視頻中抽取三個時刻的關(guān)鍵幀，Gemini Pro能夠?qū)⒉煌瑤男畔⒄铣梢粋€連貫的場景描述。

而GPT-4V只是逐幀描述圖像的內(nèi)容。相比之下，SPHNIX的描述并沒有表現(xiàn)出對圖像序列的全面理解。

2. 高級認知

這類任務需要模型進行深入的推理、解決問題和決策。

在此，報告中分別測試了模型的富含文本的視覺推理能力、抽象視覺推理能力、解決科學問題能力、情感分析能力、智力游戲能力。具體包括13項細分任務，同樣限于篇幅我們只展示其中幾項。

1）代碼生成

將結(jié)構(gòu)化視覺內(nèi)容轉(zhuǎn)換為相應的代碼是多模態(tài)大模型的一項重要技能，在此分別測試了模型識別公式生成LaTex代碼和識別網(wǎng)頁生成HTML代碼的能力。

Gemini Pro和GPT-4V在公式識別上表現(xiàn)出更好的結(jié)果，但仍然會錯誤識別一些小字符或符號。

三個模型的識別網(wǎng)頁生成相應HTML代碼的能力仍然存在很大的改進空間。

2）抽象視覺刺激

對抽象視覺刺激和符號的理解和推理是人類智能的一項基本能力。GPT-4V展示了最好的抽象性能，提供了對象如何由形狀組成的詳細描述。Gemini Pro能識別一些簡單的抽象模式。

3）圖像情感分析

模型都可以很好地描繪視圖，并提供其中可能的情感。GPT-4V觀察是中立的，強調(diào)情緒是主觀的，同時給出了更全面的分析。Gemini Pro傾向于直接輸出情感偏好。

4）情感調(diào)節(jié)輸出

情感調(diào)節(jié)輸出是讓多模態(tài)大模型描述以預定義情感為條件的視覺上下文。

雖然Gemini Pro和GPT-4V能夠正確地將相應的情感注入到生成的文本中，但它們都遇到了幻覺問題。

5）數(shù)獨游戲

如果僅以圖像作為輸入，盡管Gemini Pro嘗試在輸出矩陣內(nèi)提供答案，但無法正確識別空白位置，而GPT-4V和SPHNIX則無法進行第一步光學字符識別。此外，給定相應的文本輸入，Gemini Pro和GPT-4V都可以給出正確的答案。

3. 挑戰(zhàn)性視覺任務

評估多模態(tài)大模型在超出標準視覺問答范圍的各種具有挑戰(zhàn)性的視覺任務中的性能。

需要模型具有深厚的視覺感知和理解能力，評估這類表現(xiàn)將有助于深入了解模型在多領(lǐng)域應用的可行性。

報告中分別測試了模型在圖像視覺任務和時序視覺任務中的性能。具體包括以下7個細分任務：

在此我們展示3個。

1）指稱表達式理解

Gemini Pro和GPT-4V都能夠識別指稱對象的大致位置，但它們很難提供精確的坐標和框大小。而SPHNIX展示了提供引用對象的準確位置和大小的能力。

2）目標跟蹤

Gemini Pro和GPT-4V都能夠描繪出要跟蹤的目標的細節(jié)，但它們隨后兩幀圖像中提供了錯誤的邊界框。

3）視覺故事生成

任務要求模型完全理解圖像中的信息，并在生成的故事中對其進行邏輯組織。

Gemini Pro和SPHNIX提供了連貫的故事，但卻和沒有十分貼近漫畫劇情。

GPT-4V為每個插圖提供了精確的描述，卻未能根據(jù)任務要求將它們編織成一個有凝聚力的故事。

4. 各種專家能力

專家能力衡量多模態(tài)大模型將其學到的知識和技能應用于不同專業(yè)領(lǐng)域的泛化能力。除了上述的感知和認知任務外，多模態(tài)大模型在專門和獨特場景下的魯棒性通常具有更實際的參考意義。也是7個細分任務：

在此我們同樣展示3個：

1）缺陷檢測

缺陷檢測需要高精度和對細節(jié)的關(guān)注。對于缺陷明顯的圖像，模型都可以提供正確答案，其中GPT-4V輸出更詳細的原因和描述。

對于下圖中的螺紋損壞的樣例，Gemini Pro給出了過于籠統(tǒng)的答案，SPHNIX錯誤地描述了外觀，而GPT-4V給出了標準答案。

2）經(jīng)濟分析

報告展示了兩個用于回答問題的股價走勢圖。Gemini Pro擅長專家級金融知識，能夠給出正確答案。GPT-4V由于安全風險而沒有給出明確答案。SPHNIX由于缺乏相關(guān)訓練數(shù)據(jù)無法理解此類問題。

3）機器人運動規(guī)劃

機器人規(guī)劃要求機器人能夠確定如何在給定情況下采取行動以實現(xiàn)特定目標。

Gemini Pro和GPT-4V都可以提供有條理且詳細的步驟，并且GPT-4V似乎比Gemini Pro給出了更合理的決定，例如電池的安裝順序，但SPHNIX無法完成手機的組裝，說明其泛化能力有限。

三、總結(jié)評價：都是“半斤八兩”

鑒于其卓越的多模態(tài)推理能力，Gemini確實是GPT-4V的有力挑戰(zhàn)者。

在大多數(shù)情況下，與GPT-4V相比，Gemini的回答準確性具有競爭力，并展示了不同的回答風格和偏好。

GPT-4V傾向于生成對感知任務更詳細的描述，并為認知任務提供深入的分析和逐步的中間推理，而Gemini更喜歡對答案提供直接而簡潔的回應，這有助于用戶快速找到相關(guān)信息。

不過，兩個模型也存在一定的共性問題，比如空間感知能力不強，復雜OCR和抽象視覺理解不理想，推理過程可能存在不自洽結(jié)果，對提示設(shè)計的魯棒性不足……在很多情況下仍然陷入困境。

所以，從現(xiàn)階段成果來看，兩者都點“半斤八兩”的意思。

作者最后的結(jié)論就是：

大模型的多模態(tài)能力總的來說都還有很長的路要走。

具體往哪走？

三個方面：視覺表示編碼（細粒度外觀、空間關(guān)系感知）、多模態(tài)對齊（減輕幻覺、OCR準確性）以及模型推理能力（定量處理、邏輯一致性）。

關(guān)于Gemini Pro與GPT-4V、SPHNIX的更多評估比較，請查看原論文。

鏈接：

[1]https://arxiv.org/pdf/2312.12436.pdf

[2]https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

為我投票

我在參加人人都是產(chǎn)品經(jīng)理2023年度評選，希望喜歡我的文章的朋友都能來支持我一下~

點擊下方鏈接進入我的個人參選頁面，點擊紅心即可為我投票。

每人每天最多可投30票，投票即可獲得抽獎機會，抽取書籍、人人都是產(chǎn)品經(jīng)理紀念周邊&起點課堂會員等好禮哦！

投票傳送門：https://996.pm/MndEQ

作者：happy

來源公眾號：量子位（ID：QbitAI），追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @量子位授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議。

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

Gemini GPT-4V 多模態(tài)能力大模型

量子位

追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

74篇作品 196706總閱讀量

為你推薦

短?。阂话褍?nèi)容工業(yè)的味精！

12-053197 瀏覽

產(chǎn)品經(jīng)理為什么一定要做產(chǎn)品規(guī)劃？

11-142597 瀏覽

出海四小龍，誰會笑到最后？

05-191726 瀏覽

Axure：tab頁簽

12-027342 瀏覽

獨家｜多閃變身抖音版“微信”，還能挑戰(zhàn)社交霸主嗎？

09-191901 瀏覽

評論

評論請登錄

目前還沒評論，等你發(fā)揮！

為你推薦

GPT商店已至，AI的爆款應用還有多遠？

11-083591 瀏覽

財務軟件設(shè)計之發(fā)票

11-062726 瀏覽

京東發(fā)力買菜：意在即時零售，矛頭指向美團？

03-023305 瀏覽

推荐专题更多专题

专题
12516人已学习13篇文章

如何做好用户流失预警？

在用户运营中，拉新往往要比做好用户留存所花费的成本要高，但有各种各样的原因会让用户在某个过程中流失掉，应当如何规避与注意呢？本专题的文章分享了如何做好用户流失预警。
专题
19935人已学习14篇文章

如何搭建用户成长体系？

好的用户成长体系可以促进用户活跃、增强用户粘性、留住用户和帮助企业更好地了解用户对产品的使用情况。本专题的文章提供了搭建用户成长体系的思路。
专题
56364人已学习14篇文章

SaaS产品该如何设计和运营？

带你走进SaaS行业。
专题
18097人已学习14篇文章

如何搭建一个智能客服？

智能客服类产品，最根本的价值在于以低成本取代人工客服工作中大量重复性的部分。本专题的文章分享了如何搭建一个智能客服。
专题
20029人已学习19篇文章

后台权限管理设计指南

好的权限系统可以明确公司内不同人员、不同部门的分工，便于管理等优势。本专题的文章提供了后台权限管理设计指南。
专题
12186人已学习13篇文章

如何进行产品改版升级？

本专题的文章分享了产品升级迭代应该怎么做，以及其中遇到的问题和思考。

社群
付费群 | 免费群

产品经理交流群加入
AI 学习交流群加入
华为鸿蒙交流群加入
运营增长交流群加入
短视频直播电商群加入
DeespSeek交流群加入

快訊
查看更多

熱門文章

我的AI戀人，被別人買斷了

03-18

【超實用工具】AI開發(fā)測試用例生成器

03-21

小楊哥，湮沒在新江湖里

03-25

服務三塔之效率和體驗控制塔

03-20

馬斯克火箭炸出私域真相：真正賺錢的人都在“拆零件”

03-13

分析 26 個細分領(lǐng)域 170 余家 Agent 初創(chuàng)企業(yè)，得出了這些結(jié)論

03-27

文章導航

一、Gemini-Pro的首份多模態(tài)能力報告來了

二、MME上綜合表現(xiàn)比GPT-4V強

三、總結(jié)評價：都是“半斤八兩”

關(guān)于
人人都是產(chǎn)品經(jīng)理（woshipm.com）是以產(chǎn)品經(jīng)理、運營為核心的學習、交流、分享平臺，集媒體、培訓、社群為一體，全方位服務產(chǎn)品人和運營人，成立12年舉辦在線講座1000+期，線下分享會500+場，產(chǎn)品經(jīng)理大會、運營大會50+場，覆蓋北上廣深杭成都等20個城市，在行業(yè)有較高的影響力和知名度。平臺聚集了眾多BAT美團京東滴滴360小米網(wǎng)易等知名互聯(lián)網(wǎng)公司產(chǎn)品總監(jiān)和運營總監(jiān)，他們在這里與你一起成長。

合作伙伴

鏈接

隱私政策

投稿須知

意見反饋

幫助中心

公眾號

視頻號

友情鏈接

PM265

產(chǎn)品經(jīng)理導航

起點課堂

豬八戒網(wǎng)

人才熱線

伙伴云表格

網(wǎng)易易盾

個推

友盟+

糧倉

創(chuàng)業(yè)邦

每日報告

鳥哥筆記

慕課網(wǎng)

旗下品牌: 起點課堂 | 運營派 | 糧倉企微管家
?2010-2024 - 人人都是產(chǎn)品經(jīng)理 - 粵ICP備14037330號-粵公網(wǎng)安備 44030502001309號
 廣播電視節(jié)目制作經(jīng)營許可證（粵）字第03109號增值電信業(yè)務經(jīng)營許可證粵B2-20190788 版權(quán)所有 ? 深圳聚力創(chuàng)想信息科技有限公司

谷歌Gemini扳回一局！多模態(tài)能力和GPT-4V不分伯仲｜港中文128頁全面測評報告

一、Gemini-Pro的首份多模態(tài)能力報告來了

二、MME上綜合表現(xiàn)比GPT-4V強

1. 基礎(chǔ)感知

2. 高級認知

3. 挑戰(zhàn)性視覺任務

4. 各種專家能力

三、總結(jié)評價：都是“半斤八兩”

為我投票

谷歌Gemini扳回一局！多模態(tài)能力和GPT-4V不分伯仲｜港中文128頁全面測評報告

一、Gemini-Pro的首份多模態(tài)能力報告來了

二、MME上綜合表現(xiàn)比GPT-4V強