GPT-4o首發(fā)體驗(yàn):迄今為止最像「人」的AI終于出現(xiàn)了!

雷科技
0 評(píng)論 2254 瀏覽 2 收藏 12 分鐘
🔗 技术知识、行业知识、业务知识等,都是B端产品经理需要了解和掌握的领域相关的知识,有助于进行产品方案设计和评估

GPT-4o發(fā)布之后,許多人都不禁開(kāi)始上手體驗(yàn),在這篇文章里,作者就分享了自己的體驗(yàn)和感受,并做了一定的分析和點(diǎn)評(píng),一起來(lái)看。

趕在 Google I/O 大會(huì)之前,5 月 14 日凌晨,OpenAI 發(fā)布了一個(gè)新模型——GPT-4o。

對(duì),不是搜索,不是 GPT-5,而是 GPT-4 系列的一款全新多模態(tài)大模型。按照 OpenAI CTO 米拉·穆拉蒂(Muri Murati)的說(shuō)法,GPT-4o——「o」代表了 omni(意為「全能的」)——能夠接受文本、音頻和圖像任意組合的輸入與輸出。

而新的 GPT-4o 模型響應(yīng)更快、處理更快、效率更高,也讓人機(jī)交互在一定程度上發(fā)生了質(zhì)的變化。

事實(shí)上,在不到 30 分鐘的發(fā)布會(huì)中,最為人津津樂(lè)道的不是 GPT-4o 這個(gè)模型自身,而是在 GPT-4o 的支撐下,ChatGPT 的交互體驗(yàn)。不僅是人機(jī)語(yǔ)音對(duì)話體驗(yàn)更接近人與人之間的實(shí)時(shí)對(duì)話,視覺(jué)識(shí)別能力的進(jìn)步也讓 AI 更能基于現(xiàn)實(shí)世界進(jìn)行語(yǔ)音交互。

簡(jiǎn)而言之就是更自然的人機(jī)交互。這很容易讓人想起《她(Her)》中的 AI 虛擬助手,包括 OpenAI CEO 山姆·奧爾特曼(Sam Altman):

圖/ X

但對(duì)很多人來(lái)說(shuō),更重要的可能是免費(fèi)用戶也能使用 GPT-4o(不包括新的語(yǔ)音模式),官方說(shuō)將在接下來(lái)幾周正式推出。當(dāng)然,ChatGPT Plus 付費(fèi)用戶顯然還是有「特權(quán)」的,從今天開(kāi)始就可以提前試用 GPT-4o 模型。

圖/ ChatGPT

不過(guò) OpenAI 演示中的桌面應(yīng)用還未上線,ChatGPT 移動(dòng)端 APP(包括 Android 與 iOS)也還沒(méi)更新到發(fā)布會(huì)演示的版本??傊?,ChatGPT Plus 用戶暫時(shí)還體驗(yàn)不到的 ChatGPT(GPT-4o)新的語(yǔ)音模式。

圖/ X

所以在某種程度上,目前 ChatGPT Plus 用戶享受到的 GPT-4o 基本是未來(lái)幾周 ChatGPT 免費(fèi)版用戶的體驗(yàn)。

但 GPT-4o 的實(shí)際表現(xiàn)如何?值不值得免費(fèi)版用戶重新開(kāi)始使用 ChatGPT?說(shuō)到底還是需要實(shí)際的上手體驗(yàn)。同時(shí),通過(guò)目前基于文本和圖像的對(duì)話,我們或許也能窺見(jiàn)新 ChatGPT(GPT-4o)的能力。

一、從一張圖片中看出《原神》,GPT-4o 更懂圖像了

GPT-4o 模型的所有升級(jí),其實(shí)都可以總結(jié)為原生多模態(tài)能力的全面提升,不僅是文本、音頻和圖像任意組合的輸入、輸出,同時(shí)各自的理解能力也有明顯的進(jìn)步。

尤其是圖像理解。

在這張圖片中,有被部分遮擋的書(shū)本,還有一臺(tái)正在運(yùn)行游戲的手機(jī),GPT-4o 不僅能準(zhǔn)確識(shí)別書(shū)本上文字,根據(jù)知識(shí)庫(kù)或者聯(lián)網(wǎng)正確地識(shí)別出完整的書(shū)名,最讓人驚艷的是能直接看出手機(jī)正在運(yùn)行的游戲——《原神》。

圖/ ChatGPT

坦白講,熟悉《原神》這款游戲的玩家大概都能一眼看出本體,但僅憑這張圖片,很多沒(méi)玩過(guò)游戲、不了解游戲角色的人基本都認(rèn)不出《原神》。

當(dāng)小雷詢問(wèn) ta 怎么看出是《原神》時(shí),GPT-4o 的回答也符合邏輯:無(wú)非就是畫(huà)面內(nèi)容、游戲界面以及視覺(jué)風(fēng)格。

圖/ ChatGPT

但同樣的圖片和問(wèn)題,但我詢問(wèn)通義千問(wèn)(阿里旗下)和 GPT-4,它們給出回答卻很難令人滿意。

類(lèi)似的,在看了馬斯克剛發(fā)的梗圖之后,GPT-4o 也能較為準(zhǔn)確地理解其中的笑點(diǎn)和諷刺之處。

圖/ ChatGPT

而在移動(dòng)端 ChatGPT APP 上,通過(guò)一張非常局部的拍攝照片,GPT-4o 對(duì)場(chǎng)景的描述也算準(zhǔn)確,并且也大致推理住宅區(qū)或者辦公樓等范圍。

圖/ ChatGPT

以上這些例子,其實(shí)都能在一定程度上說(shuō)明 GPT-4o 在圖像理解方面的進(jìn)步。需要一提的是,根據(jù) OpenAI 新的政策,幾周后免費(fèi)版 ChatGPT 用戶也支持直接拍照或者上傳圖片給 GPT-4o。

此外,免費(fèi)版用戶在使用 GPT-4o 時(shí),還能使用通過(guò)上傳文件幫助總結(jié)、撰寫(xiě)和分析。不過(guò)從文件個(gè)數(shù)和大小上,ChatGPT 可能還是不如 Kimi 或者其他國(guó)內(nèi) AI 聊天機(jī)器人大膽,限制明顯。

當(dāng)然優(yōu)點(diǎn)還是有,畢竟 GPT-4o 有著 GPT-4 的頂級(jí)「智能」。

二、新模式還沒(méi)來(lái),但語(yǔ)音體驗(yàn)已經(jīng)上了一個(gè)臺(tái)階

但比起圖像理解能力,在小雷看來(lái),這次 GPT-4o 最重要的能力升級(jí)還得是語(yǔ)音。

雖然新的語(yǔ)音模式還沒(méi)實(shí)裝,很多演示中的體驗(yàn)都沒(méi)辦法感受,但打開(kāi)現(xiàn)有的語(yǔ)音模式聊幾句,就能發(fā)現(xiàn) GPT-4o 的語(yǔ)音體驗(yàn)已經(jīng)有明顯的升級(jí)。

其一,不僅音色音調(diào)非常接近正常人的聲音,更關(guān)鍵的是 AI 也能熟練掌握各種語(yǔ)氣詞,比如「嗯」「啊」等,對(duì)話中也會(huì)有一定的抑揚(yáng)頓挫。與此相對(duì)的,能明顯感受到,GPT-4o 下語(yǔ)音模式的回應(yīng)更接近普遍意義上的「有感情」。

相比 Siri 等語(yǔ)音助手理所當(dāng)然有大幅的進(jìn)步,甚至比起目前一堆的生成式 AI 語(yǔ)音聊天,GPT-4o 下語(yǔ)音也顯得更加保真和自然。

其二,過(guò)去在語(yǔ)音模式的對(duì)話中,說(shuō)完話往往需要較長(zhǎng)的時(shí)間才能讓 ChatGPT 意識(shí)到我說(shuō)完了,然后開(kāi)始上傳、處理和輸出回答,以至于很多時(shí)候我會(huì)選擇手動(dòng)控制。但在 GPT-4o 下,ChatGPT 能夠更靈敏地意識(shí)到我說(shuō)完了并開(kāi)始處理,基本就少了很多手動(dòng)干涉。

目前還是舊的語(yǔ)音模式和界面,圖/ ChatGPT

不過(guò)缺點(diǎn)也有,有些小雷估計(jì)正式推出時(shí)也很難有明顯的改善,比如一直在討論的「幻覺(jué)」問(wèn)題,并沒(méi)有感受到明顯的改善;但有些可能將在推出發(fā)生質(zhì)的改變,比如對(duì)話的延遲。

從目前版本的體驗(yàn)來(lái)看,就算在聊天模式下網(wǎng)絡(luò)連接一切正常,語(yǔ)音模式一開(kāi)始連接就會(huì)花費(fèi)不短的時(shí)間,甚至是連接失敗。但即使連接上了,對(duì)話延遲還是很高,經(jīng)常是我說(shuō)完了要等待數(shù)秒才能等到語(yǔ)音回應(yīng)。

實(shí)際上,舊的語(yǔ)音模式其實(shí)是先將用戶的語(yǔ)音通過(guò) OpenAI 的 Whisper 模型轉(zhuǎn)錄成文本,再通過(guò) GPT-3.5/GPT-4 進(jìn)行處理和輸出,最后再通過(guò)文本轉(zhuǎn)語(yǔ)音模型將文本轉(zhuǎn)錄為語(yǔ)音。這么一通下來(lái),也就不難理解之前 ChatGPT 語(yǔ)音回答之慢、語(yǔ)音交互體驗(yàn)之差的的原因了。

同時(shí),這也是新的語(yǔ)音模式讓人期待的核心原因。按照 OpenAI 的說(shuō)法,GPT-4o 則是跨文本、視覺(jué)和音頻端到端訓(xùn)練的新模型,在新的語(yǔ)音模式下所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。甚至不只是文本和語(yǔ)音,新的語(yǔ)音模式還能基于手機(jī)攝像頭的實(shí)時(shí)畫(huà)面進(jìn)行對(duì)話。

新的語(yǔ)音模式和界面,圖/ OpenAI

簡(jiǎn)單來(lái)說(shuō),原來(lái) ChatGPT 回應(yīng)你的語(yǔ)音必須要依序經(jīng)過(guò)三個(gè)「腦」(模型)的處理和輸出。而在即將到來(lái)的新模式下,ChatGPT 只要經(jīng)過(guò)一個(gè)同時(shí)支持文本、語(yǔ)音乃至圖像的「大腦」(模型),效率提升也就自然可以想象了。

至于到底能不能實(shí)現(xiàn) OpenAI 演示中的超低延遲回應(yīng),還是要等未來(lái)幾周新模式的實(shí)裝,屆時(shí)小雷也會(huì)在第一時(shí)間進(jìn)行體驗(yàn)。

寫(xiě)在最后

誠(chéng)然,在 GPT-4 發(fā)布以來(lái)的一年里,全球大模型還在瘋狂涌現(xiàn)和迭代,與 GPT-4 之間的差距也在不斷拉小,甚至一度超越(Claude 3 Opus)。但從權(quán)威基準(zhǔn)測(cè)試、對(duì)戰(zhàn) PK 排行榜以及大量用戶的反饋來(lái)看,GPT-4 依然是全球最頂級(jí)的大模型之一。

更重要的是,技術(shù)塑造能力,產(chǎn)品塑造體驗(yàn)。GPT-4o 再次證明了 OpenAI 依然在技術(shù)和產(chǎn)品上的絕對(duì)實(shí)力,而 GPT-4o 對(duì)于語(yǔ)音交互體驗(yàn)的迭代,恐怕還會(huì)再次消滅一批 AI 語(yǔ)聊、AI 語(yǔ)音助手方向的創(chuàng)業(yè)公司。

但另一方面,我們也再次看到了人機(jī)語(yǔ)音交互發(fā)生質(zhì)變的希望。

編輯:冬日果醬;來(lái)源:雷科技AI硬件組

來(lái)源公眾號(hào):雷科技(ID:leitech),聚焦科技與生活。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @雷科技 授權(quán)發(fā)布。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!