女人高潮内射99精品,欧美另类专区,欧美乱妇日本无乱码特黄大片

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

解讀 ChatGPT-4V 多模態(tài)能力

產(chǎn)品淺談

2023-10-13

0 評論 2141 瀏覽 3 收藏

🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求，把需求转化为产品，并协调资源推动产品落地，创造商业价值。

下面是筆者整理分享的一篇解讀關(guān)于 ChatGPT-4V 多模態(tài)能力的文章，其中包括物體檢測、人臉識別、文本識別、識別復雜驗證碼能力等的知識，大家可以進來了解了解。

今天 OpenAI 發(fā)布重大更新，支持多模態(tài)語音和圖像，模型叫 GPT-4V。

用一句話總結(jié)：ChatGPT 由「一個完美的詞語接龍工具」，現(xiàn)在升級能看懂你發(fā)的圖片，聽懂你的聲音，還能說話了！

千萬不要想，這個更新沒新東西，有人已經(jīng)拿它開始賺錢了！

Spotify 推出一個名為”Voice Translation for podcasts”的 AI 工具，可以將播客翻譯成其他語言，并保持原始發(fā)言人的聲音風格。

好像比同聲翻譯還厲害了點（目前接口還沒有對外開放）。

對于開發(fā)者來說，研發(fā)成本大幅度降低。是不是可訓練一個可以說話的小助理了？

講點實用，那這個更新，我們可以用來干什么？

我就基于官方的更新說明，逐個分析給大家。

一、GPT-4V說明

1. 物體檢測

檢測和識別圖像中的常見物體，如汽車、動物、家居用品等。

這個能干啥？

官方給了一個例子：比如“如何調(diào)整自行車座椅高度”。

不知道怎么調(diào)整，手機拍下發(fā)給 ChatGPT，它來告訴你。不知道用什么工具，把你手邊能用的工具拍下來給GPT，它告訴你選哪種更合適。

就像在現(xiàn)實世界中，身邊有個專家，手把手教你怎么解決問題。

這個能力是可以工業(yè)化的，因為ChatGPT是可以調(diào)用外部接口。

ChatGPT 能看到圖像，并且可以通過接口，調(diào)用工具來處理一些復雜的事務(wù)。比如機器人等。

2. 人臉識別

可以識別圖像中的人臉，并能根據(jù)面部特征，識別性別、年齡和種族屬性。其面部分析能力是在 FairFace 和 LFW 等數(shù)據(jù)集上進行測量的。

那接下來是不是可以識別抑郁癥等疾?。?/p>

雖然官方重點聲明了 “目前在科學研究和醫(yī)療用途中性能不可靠”。

但未嘗不是一個突破點。

3. 文本識別

有字符識別 (OCR) 功能，可以檢測圖像中的打印或手寫文本，并將其轉(zhuǎn)錄為可讀文本。

這相當于對現(xiàn)在的圖片轉(zhuǎn)文字功能，能力進行了升級，不僅僅有識別能力，還能推理并修正錯誤的信息，對開發(fā)者來說利好。

目前我認識的朋友，就有這個需求，一下子就解決了他的問題。

4. 識別復雜驗證碼能力

能通過視覺推理，來識別基于文本和圖像的驗證碼，這表明 GPT 有高級的解謎能力！

可能會暴力破解一些驗證碼工具，或者在科研領(lǐng)域，會有一些意想不到的效果。

5. 地理定位

可根據(jù)圖中的風景，識別出是在哪個城市。

二、GPT-4V 視覺推理不足的地方

官方重點聲明了“目前在科學研究和醫(yī)療用途中性能不可靠”。

總結(jié)一下：GPT-4V 在空間的識別上，能力不足。

1. 復雜圖像

該模型難以準確解釋復雜的科學圖表、醫(yī)學掃描或具有多個重疊文本組件的圖像。它沒有上下文細節(jié)，不能有效地提供服務(wù)。

2. 空間關(guān)系

模型很難理解圖像中，物品的精確空間布局和位置。它無法正確傳達物品之間的相對位置。

3. 重疊

當圖像中的物品嚴重重疊時，GPT-4V 有時無法區(qū)分一個物品結(jié)束位置和下一個對象的開始位置。它會將不同的對象混合在一起。

4. 背景/前景

模型并不總是準確地感知圖像的前景和背景中的對象。它可能會錯誤地描述對象關(guān)系。

5. 遮擋

當圖像中某些對象被其他對象部分遮擋或遮擋時，GPT-4V 可能無法識別被遮擋的對象或錯過它們與周圍對象的關(guān)系。

6. 小細節(jié)

模型經(jīng)常會錯過或誤解非常小的物體、文本或圖像中的復雜細節(jié)，從而導致錯誤的關(guān)系描述。

7. 下文推理

GPT-4V 缺乏強大的視覺推理能力，來深入分析圖像的上下文，并描述對象之間的隱式關(guān)系。

8. 置信度

模型可能會錯誤地描述對象關(guān)系，與圖像內(nèi)容不符。

最后，GPT-4V(ision)的訓練完成于2022年，我們和Open的差距，看來不止3個月啊！

加油啊，國內(nèi)的大模型廠家！

本文由@產(chǎn)品淺談原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

產(chǎn)品淺談

微信：TalkingSci，公眾號：產(chǎn)品淺談。AI 知識講解、產(chǎn)品深度分析

4篇作品 25933總閱讀量

原型說明咋寫-拖拽上傳圖片

12-222207 瀏覽

原型說明咋寫-拖拽上傳圖片

B站“播放分鐘數(shù)”將于7月初上線，不影響熱門推薦和創(chuàng)作激勵機制

06-306762 瀏覽

B站“播放分鐘數(shù)”將于7月初上線，不影響熱門推薦和創(chuàng)作激勵機制

UI转产品，涨薪30%，只需90天：我的成功之路

刚刚

老板這逆子，我爆文率50%還說浪費錢？

08-285034 瀏覽

老板這逆子，我爆文率50%還說浪費錢？

以小鵝通直播為例，探討SaaS對復雜B2C功能的產(chǎn)品設(shè)計原則

04-078792 瀏覽

以小鵝通直播為例，探討SaaS對復雜B2C功能的產(chǎn)品設(shè)計原則

對客戶需求了解有多深，產(chǎn)品就能賣多貴！

04-079578 瀏覽

對客戶需求了解有多深，產(chǎn)品就能賣多貴！

評論

目前還沒評論，等你發(fā)揮！

B端产品经理面试，都需要注意那些细节（业务篇）

15222人已学习14篇文章

B端交互设计指南

交互设计本质上就是设计产品的使用方式的过程，“如何才能做出合理的B端交互决策”是很多人都在思考的问题。本专题的文章分享了B端交互设计指南。

13448人已学习15篇文章

解构私域流量

私域流量是与公域流量相对的概念，本专题的文章主要通过几个核心的问题，为大家解读私域流量背后的底层逻辑。

19945人已学习14篇文章

如何搭建用户成长体系？

好的用户成长体系可以促进用户活跃、增强用户粘性、留住用户和帮助企业更好地了解用户对产品的使用情况。本专题的文章提供了搭建用户成长体系的思路。

13527人已学习12篇文章

行业调研指南

如何快速了解一个行业？这需要你对这一行业进行细致的调研，了解当下的整体市场环境与未来的发展趋势，进而为后续的产品规划做好准备。本专题的文章分享了行业调研指南。

12962人已学习13篇文章

可视化大屏设计

数据可视化需要利用大屏这一工具实现，若想让数据展示变得更加生动，可视化大屏的艺术性设计便不可缺少，而这需要结合许多设计技巧。本专题的文章可视化大屏设计。

15210人已学习13篇文章

数据分析报告写作指南

本专题的文章分享了数据分析报告写作指南。

^{<video id="kna8l"><em id="kna8l"></em></video>}

^{<video id="kna8l"></video>}