激情无码人妻又粗又大中国人,丁香花视频资源在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

GPT-4o首發(fā)體驗(yàn)：迄今為止最像「人」的AI終于出現(xiàn)了！

雷科技

2024-05-17

0 評(píng)論 2254 瀏覽 2 收藏

🔗 技术知识、行业知识、业务知识等，都是B端产品经理需要了解和掌握的领域相关的知识，有助于进行产品方案设计和评估

GPT-4o發(fā)布之后，許多人都不禁開(kāi)始上手體驗(yàn)，在這篇文章里，作者就分享了自己的體驗(yàn)和感受，并做了一定的分析和點(diǎn)評(píng)，一起來(lái)看。

趕在 Google I/O 大會(huì)之前，5 月 14 日凌晨，OpenAI 發(fā)布了一個(gè)新模型——GPT-4o。

對(duì)，不是搜索，不是 GPT-5，而是 GPT-4 系列的一款全新多模態(tài)大模型。按照 OpenAI CTO 米拉·穆拉蒂（Muri Murati）的說(shuō)法，GPT-4o——「o」代表了 omni（意為「全能的」）——能夠接受文本、音頻和圖像任意組合的輸入與輸出。

而新的 GPT-4o 模型響應(yīng)更快、處理更快、效率更高，也讓人機(jī)交互在一定程度上發(fā)生了質(zhì)的變化。

事實(shí)上，在不到 30 分鐘的發(fā)布會(huì)中，最為人津津樂(lè)道的不是 GPT-4o 這個(gè)模型自身，而是在 GPT-4o 的支撐下，ChatGPT 的交互體驗(yàn)。不僅是人機(jī)語(yǔ)音對(duì)話體驗(yàn)更接近人與人之間的實(shí)時(shí)對(duì)話，視覺(jué)識(shí)別能力的進(jìn)步也讓 AI 更能基于現(xiàn)實(shí)世界進(jìn)行語(yǔ)音交互。

簡(jiǎn)而言之就是更自然的人機(jī)交互。這很容易讓人想起《她（Her）》中的 AI 虛擬助手，包括 OpenAI CEO 山姆·奧爾特曼（Sam Altman）：

圖/ X

但對(duì)很多人來(lái)說(shuō)，更重要的可能是免費(fèi)用戶也能使用 GPT-4o（不包括新的語(yǔ)音模式），官方說(shuō)將在接下來(lái)幾周正式推出。當(dāng)然，ChatGPT Plus 付費(fèi)用戶顯然還是有「特權(quán)」的，從今天開(kāi)始就可以提前試用 GPT-4o 模型。

圖/ ChatGPT

不過(guò) OpenAI 演示中的桌面應(yīng)用還未上線，ChatGPT 移動(dòng)端 APP（包括 Android 與 iOS）也還沒(méi)更新到發(fā)布會(huì)演示的版本?？傊?，ChatGPT Plus 用戶暫時(shí)還體驗(yàn)不到的 ChatGPT（GPT-4o）新的語(yǔ)音模式。

圖/ X

所以在某種程度上，目前 ChatGPT Plus 用戶享受到的 GPT-4o 基本是未來(lái)幾周 ChatGPT 免費(fèi)版用戶的體驗(yàn)。

但 GPT-4o 的實(shí)際表現(xiàn)如何？值不值得免費(fèi)版用戶重新開(kāi)始使用 ChatGPT？說(shuō)到底還是需要實(shí)際的上手體驗(yàn)。同時(shí)，通過(guò)目前基于文本和圖像的對(duì)話，我們或許也能窺見(jiàn)新 ChatGPT（GPT-4o）的能力。

一、從一張圖片中看出《原神》，GPT-4o 更懂圖像了

GPT-4o 模型的所有升級(jí)，其實(shí)都可以總結(jié)為原生多模態(tài)能力的全面提升，不僅是文本、音頻和圖像任意組合的輸入、輸出，同時(shí)各自的理解能力也有明顯的進(jìn)步。

尤其是圖像理解。

做到这三点挑战，产品经理只会不断升值

好的产品经理是很稀缺的，懂用户、懂商业、懂数据的产品经理走出互联网，依然是抢手货。相反，如果只做简单传话、低效执行、浅层思考的产品经理，恐怕走不过未来3-5年的洪流。

查看详情 >

在這張圖片中，有被部分遮擋的書(shū)本，還有一臺(tái)正在運(yùn)行游戲的手機(jī)，GPT-4o 不僅能準(zhǔn)確識(shí)別書(shū)本上文字，根據(jù)知識(shí)庫(kù)或者聯(lián)網(wǎng)正確地識(shí)別出完整的書(shū)名，最讓人驚艷的是能直接看出手機(jī)正在運(yùn)行的游戲——《原神》。

圖/ ChatGPT

坦白講，熟悉《原神》這款游戲的玩家大概都能一眼看出本體，但僅憑這張圖片，很多沒(méi)玩過(guò)游戲、不了解游戲角色的人基本都認(rèn)不出《原神》。

當(dāng)小雷詢問(wèn) ta 怎么看出是《原神》時(shí)，GPT-4o 的回答也符合邏輯：無(wú)非就是畫(huà)面內(nèi)容、游戲界面以及視覺(jué)風(fēng)格。

圖/ ChatGPT

但同樣的圖片和問(wèn)題，但我詢問(wèn)通義千問(wèn)（阿里旗下）和 GPT-4，它們給出回答卻很難令人滿意。

類(lèi)似的，在看了馬斯克剛發(fā)的梗圖之后，GPT-4o 也能較為準(zhǔn)確地理解其中的笑點(diǎn)和諷刺之處。

圖/ ChatGPT

而在移動(dòng)端 ChatGPT APP 上，通過(guò)一張非常局部的拍攝照片，GPT-4o 對(duì)場(chǎng)景的描述也算準(zhǔn)確，并且也大致推理住宅區(qū)或者辦公樓等范圍。

圖/ ChatGPT

以上這些例子，其實(shí)都能在一定程度上說(shuō)明 GPT-4o 在圖像理解方面的進(jìn)步。需要一提的是，根據(jù) OpenAI 新的政策，幾周后免費(fèi)版 ChatGPT 用戶也支持直接拍照或者上傳圖片給 GPT-4o。

此外，免費(fèi)版用戶在使用 GPT-4o 時(shí)，還能使用通過(guò)上傳文件幫助總結(jié)、撰寫(xiě)和分析。不過(guò)從文件個(gè)數(shù)和大小上，ChatGPT 可能還是不如 Kimi 或者其他國(guó)內(nèi) AI 聊天機(jī)器人大膽，限制明顯。

當(dāng)然優(yōu)點(diǎn)還是有，畢竟 GPT-4o 有著 GPT-4 的頂級(jí)「智能」。

二、新模式還沒(méi)來(lái)，但語(yǔ)音體驗(yàn)已經(jīng)上了一個(gè)臺(tái)階

但比起圖像理解能力，在小雷看來(lái)，這次 GPT-4o 最重要的能力升級(jí)還得是語(yǔ)音。

雖然新的語(yǔ)音模式還沒(méi)實(shí)裝，很多演示中的體驗(yàn)都沒(méi)辦法感受，但打開(kāi)現(xiàn)有的語(yǔ)音模式聊幾句，就能發(fā)現(xiàn) GPT-4o 的語(yǔ)音體驗(yàn)已經(jīng)有明顯的升級(jí)。

其一，不僅音色音調(diào)非常接近正常人的聲音，更關(guān)鍵的是 AI 也能熟練掌握各種語(yǔ)氣詞，比如「嗯」「啊」等，對(duì)話中也會(huì)有一定的抑揚(yáng)頓挫。與此相對(duì)的，能明顯感受到，GPT-4o 下語(yǔ)音模式的回應(yīng)更接近普遍意義上的「有感情」。

相比 Siri 等語(yǔ)音助手理所當(dāng)然有大幅的進(jìn)步，甚至比起目前一堆的生成式 AI 語(yǔ)音聊天，GPT-4o 下語(yǔ)音也顯得更加保真和自然。

其二，過(guò)去在語(yǔ)音模式的對(duì)話中，說(shuō)完話往往需要較長(zhǎng)的時(shí)間才能讓 ChatGPT 意識(shí)到我說(shuō)完了，然后開(kāi)始上傳、處理和輸出回答，以至于很多時(shí)候我會(huì)選擇手動(dòng)控制。但在 GPT-4o 下，ChatGPT 能夠更靈敏地意識(shí)到我說(shuō)完了并開(kāi)始處理，基本就少了很多手動(dòng)干涉。

目前還是舊的語(yǔ)音模式和界面，圖/ ChatGPT

不過(guò)缺點(diǎn)也有，有些小雷估計(jì)正式推出時(shí)也很難有明顯的改善，比如一直在討論的「幻覺(jué)」問(wèn)題，并沒(méi)有感受到明顯的改善；但有些可能將在推出發(fā)生質(zhì)的改變，比如對(duì)話的延遲。

從目前版本的體驗(yàn)來(lái)看，就算在聊天模式下網(wǎng)絡(luò)連接一切正常，語(yǔ)音模式一開(kāi)始連接就會(huì)花費(fèi)不短的時(shí)間，甚至是連接失敗。但即使連接上了，對(duì)話延遲還是很高，經(jīng)常是我說(shuō)完了要等待數(shù)秒才能等到語(yǔ)音回應(yīng)。

實(shí)際上，舊的語(yǔ)音模式其實(shí)是先將用戶的語(yǔ)音通過(guò) OpenAI 的 Whisper 模型轉(zhuǎn)錄成文本，再通過(guò) GPT-3.5/GPT-4 進(jìn)行處理和輸出，最后再通過(guò)文本轉(zhuǎn)語(yǔ)音模型將文本轉(zhuǎn)錄為語(yǔ)音。這么一通下來(lái)，也就不難理解之前 ChatGPT 語(yǔ)音回答之慢、語(yǔ)音交互體驗(yàn)之差的的原因了。

同時(shí)，這也是新的語(yǔ)音模式讓人期待的核心原因。按照 OpenAI 的說(shuō)法，GPT-4o 則是跨文本、視覺(jué)和音頻端到端訓(xùn)練的新模型，在新的語(yǔ)音模式下所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。甚至不只是文本和語(yǔ)音，新的語(yǔ)音模式還能基于手機(jī)攝像頭的實(shí)時(shí)畫(huà)面進(jìn)行對(duì)話。

新的語(yǔ)音模式和界面，圖/ OpenAI

簡(jiǎn)單來(lái)說(shuō)，原來(lái) ChatGPT 回應(yīng)你的語(yǔ)音必須要依序經(jīng)過(guò)三個(gè)「腦」（模型）的處理和輸出。而在即將到來(lái)的新模式下，ChatGPT 只要經(jīng)過(guò)一個(gè)同時(shí)支持文本、語(yǔ)音乃至圖像的「大腦」（模型），效率提升也就自然可以想象了。

至于到底能不能實(shí)現(xiàn) OpenAI 演示中的超低延遲回應(yīng)，還是要等未來(lái)幾周新模式的實(shí)裝，屆時(shí)小雷也會(huì)在第一時(shí)間進(jìn)行體驗(yàn)。

寫(xiě)在最后

誠(chéng)然，在 GPT-4 發(fā)布以來(lái)的一年里，全球大模型還在瘋狂涌現(xiàn)和迭代，與 GPT-4 之間的差距也在不斷拉小，甚至一度超越（Claude 3 Opus）。但從權(quán)威基準(zhǔn)測(cè)試、對(duì)戰(zhàn) PK 排行榜以及大量用戶的反饋來(lái)看，GPT-4 依然是全球最頂級(jí)的大模型之一。

更重要的是，技術(shù)塑造能力，產(chǎn)品塑造體驗(yàn)。GPT-4o 再次證明了 OpenAI 依然在技術(shù)和產(chǎn)品上的絕對(duì)實(shí)力，而 GPT-4o 對(duì)于語(yǔ)音交互體驗(yàn)的迭代，恐怕還會(huì)再次消滅一批 AI 語(yǔ)聊、AI 語(yǔ)音助手方向的創(chuàng)業(yè)公司。

但另一方面，我們也再次看到了人機(jī)語(yǔ)音交互發(fā)生質(zhì)變的希望。

編輯：冬日果醬；來(lái)源：雷科技AI硬件組

來(lái)源公眾號(hào)：雷科技（ID：leitech），聚焦科技與生活。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @雷科技授權(quán)發(fā)布。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App