上手了刷屏一天的GPT-4o,我感覺(jué)目前也就那樣

0 評(píng)論 386 瀏覽 0 收藏 13 分鐘

最近,OpenAI的春季發(fā)布會(huì)如期而至,而在這場(chǎng)發(fā)布會(huì)中,GPT-4o的發(fā)布引起了不少業(yè)內(nèi)人士的關(guān)注。那么,GPT-4o的實(shí)際上手體驗(yàn)如何?一起來(lái)看看作者的分享。

沒(méi)有所謂的 AI 搜索引擎,也沒(méi)有炸裂的 GPT-5 ,但 OpenAI 還是讓大伙兒感受到了,什么叫做?“Only OpenAI Can Do”?。

就在近日凌晨, OpenAI 的春季發(fā)布會(huì)終于是來(lái)了。

他們也沒(méi)多講幾句廢話,整場(chǎng)發(fā)布會(huì)就二十來(lái)分鐘,其中,最重磅的無(wú)異于 GPT-4o 新模型的發(fā)布。

關(guān)于 GPT-4o 起名的緣由, OpenAI 官方是這么解釋的: “ o “ 的全稱(chēng)是 “ omni ” ,也就是 “ 全能 ” 的意思。

之所以說(shuō)它全能,是因?yàn)樗馨盐谋?、視覺(jué)、音頻全打通了。換句話說(shuō),你跟 GPT-4o 對(duì)話就跟真人似的。

最重要的是, GPT-4o 是免費(fèi)向用戶(hù)開(kāi)放的,不開(kāi) Plus 會(huì)員也能用,只不過(guò) Plus 會(huì)員要多一些使用次數(shù)。

反正跟世超一起蹲守直播的同事們看了,都直呼想要。。。

就連奧特曼也在推特上毫不避諱地,把 GPT-4o 跟科幻電影《 Her 》聯(lián)系起來(lái)。( 這部電影講的是人和 AI 語(yǔ)音助理談戀愛(ài)的故事 )

評(píng)論區(qū)的網(wǎng)友們也紛紛表示 “ 見(jiàn)證歷史 ” “ 電影終于要照進(jìn)現(xiàn)實(shí)了 ” ,甚至還用奧特曼的照片,整出來(lái)了個(gè) “ him ” 。

玩笑歸玩笑,但世超覺(jué)得, OpenAI 這次 GPT-4o 的現(xiàn)場(chǎng)演示效果,特別是實(shí)時(shí)語(yǔ)音和視頻交互的能力,確實(shí)甩了其他現(xiàn)役大模型好幾個(gè)車(chē)尾燈。

不過(guò)光這么說(shuō),大伙兒對(duì) GPT-4o 的感受可能也不深,咱直接來(lái)看演示。

像演示人員讓 GPT-4o 從一數(shù)到十,中途就嫌它語(yǔ)速太慢了,讓它說(shuō)快點(diǎn)兒, GPT-4o 能立馬反應(yīng)過(guò)來(lái),后續(xù)隨時(shí)插話它都能瞬間 get 到。

就這一個(gè)接一個(gè)的連續(xù)對(duì)話實(shí)力,說(shuō)實(shí)話世超還沒(méi)在 AI 身上體驗(yàn)過(guò)。

給 GPT-4o 一個(gè)麥克風(fēng)和攝像頭權(quán)限,它能分分鐘化身成面試指導(dǎo)官,比方視頻里的這個(gè)老哥,說(shuō)自己要去 OpenAI 面試,讓 GPT-4o 給點(diǎn)著裝建議。

它迅速 “ 打量 ” 了下這位老哥,禮貌不失幽默地給出了 “ 抓個(gè)頭發(fā) ” 的中肯建議。但老哥打算走個(gè)不聽(tīng)勸的人設(shè),順手拿出個(gè)帽子,問(wèn)能不能戴它去面試。

GPT-4o 這邊反應(yīng)賊快,識(shí)破了老哥明知故問(wèn)地惡作劇,順著他的話茬說(shuō),也不是不行,最起碼能讓你在人群中脫穎而出。

如果不給世超看演示畫(huà)面,光聽(tīng)聲音我可能會(huì)以為,這就是兩個(gè)朋友之間在開(kāi)玩笑。

當(dāng)然,以 GPT-4o 的知識(shí)儲(chǔ)備和多模態(tài)能力,它也有相當(dāng)正兒八經(jīng)的應(yīng)用場(chǎng)景。

一扭頭,就能直接化身成視障人士的眼睛,幫他們識(shí)別所在的位置,要是想知道眼前都有啥場(chǎng)景, GPT-4o 也能夠繪聲繪色地描繪出來(lái),甚至還能一步一步指導(dǎo)視障人士打車(chē)。

再搖身一變, GPT-4o 還能化身成數(shù)學(xué)老師,把屏幕的權(quán)限開(kāi)放給它,它能一步步指導(dǎo)你做題,你在題目上寫(xiě)了啥畫(huà)了啥 GPT-4o 也都能看得一清二楚。

有一說(shuō)一,這跟世超上中學(xué)時(shí)爸媽請(qǐng)的家教沒(méi)啥兩樣。。。

看完官方的案例視頻,相信大伙兒跟世超一樣,已經(jīng)被震撼得沒(méi)邊兒了。

而為了做到這些, OpenAI 在底層的模型上可是下了不少苦功。

之前咱們用 ChatGPT 的語(yǔ)音對(duì)話,都是一輪一輪的來(lái)。它得先把咱說(shuō)的話轉(zhuǎn)換成文字輸給 GPT-4 ,等 GPT-4 生成文字答案之后,才能再轉(zhuǎn)成語(yǔ)音輸出。

也就是說(shuō),以前和 ChatGPT 語(yǔ)音對(duì)個(gè)話,它得動(dòng)用三個(gè)模型,一個(gè)管音頻轉(zhuǎn)文本,一個(gè) GPT-4 管文本轉(zhuǎn)文本,另外還有一個(gè)管文本轉(zhuǎn)音頻。

一整套流程下來(lái),耐心都快給磨沒(méi)了,而且中間除非咱們手動(dòng)暫停,否則根本沒(méi)插話的機(jī)會(huì)。

但 GPT-4o 不一樣,它是一個(gè)原生的多模態(tài)模型,無(wú)論文字音頻,還是視頻啥的,所有的輸入和輸出都在同一個(gè)神經(jīng)網(wǎng)絡(luò)里處理。

這種打娘胎里自帶多模態(tài)的特性,讓 GPT-4o 能夠聽(tīng)懂好賴(lài)話,表達(dá)自己的情緒,和它對(duì)話也能像吃了德芙一樣絲滑。

不過(guò),上面那些視頻終歸還是?“PPT”?,沒(méi)到手實(shí)測(cè)一波,世超也不敢輕易下定論這玩意兒是不是真的有這么強(qiáng)。畢竟前段時(shí)間, Sora 生成的《?氣球人?》短片才被傳出加了大量的人類(lèi)后期。

而在實(shí)際用這塊, OpenAI 還是一如既往的狗,嘴上說(shuō) GPT-4o 都能免費(fèi)用,但也要分先來(lái)后到,而且功能也慢慢開(kāi)放。

現(xiàn)在能用上 GPT-4o 的只有 Plus 賬號(hào),而且最重磅的實(shí)時(shí)視頻和語(yǔ)音功能,毛都看不著。

但有總歸比沒(méi)有強(qiáng),世超手邊恰好也有個(gè) Plus 賬號(hào),而且官方也說(shuō)了, GPT-4o 生成的速度還會(huì)比 GPT-4 快上兩倍。

所以咱這波,就先提前給差友們?cè)囋?GPT-4o 的實(shí)力。

先讓它給咱講一個(gè)童話故事,順便再畫(huà)出整個(gè)故事的分鏡圖。GPT-4o 沒(méi)猶豫幾秒,庫(kù)吃庫(kù)吃就開(kāi)始寫(xiě)了。

寫(xiě)完中間也沒(méi)帶停頓,直接開(kāi)始畫(huà)分鏡了。

而同樣的問(wèn)題再拋給 GPT-4 ,它一開(kāi)始就得磨蹭半天在問(wèn)題上。。。

講清楚要求后才肯繼續(xù)寫(xiě),而且寫(xiě)完之后也不繼續(xù)畫(huà)分鏡圖,還得等世超我再親自強(qiáng)調(diào)一波。

不過(guò)雖然 GPT-4 比 GPT-4o 墨跡了不少,但從內(nèi)容來(lái)看,我還是會(huì)覺(jué)得 GPT-4 會(huì)更豐富一點(diǎn)。

再借我司老員工火鍋的照片一用,分別讓 GPT-4 和 GPT-4o 生成一張像素風(fēng)的圖片。

在生成速度上 GPT-4o 完勝,但要摳細(xì)節(jié)的話兩個(gè)就半斤八兩了。

GPT-4 識(shí)別出了火鍋?zhàn)炖锏鹬氖谴樱?GPT-4o 多識(shí)別出了一只拖鞋,非要比的話,其實(shí) GPT-4 的金毛更像火鍋一些。。。

( 左邊 GPT-4 ,右邊 GPT-4o )

接著,我又讓 GPT-4o 把咱差評(píng)的 LOGO 換成 3D 圖片,結(jié)果它整出來(lái)字,翻遍整本新華字典,估計(jì)都找不到。

但不識(shí)漢字也是歷代 ChatGPT 的老毛病了,換成英文再要求它,你別說(shuō),這次出來(lái)的整體效果還可以,就是經(jīng)不起細(xì)看,不少英文拼寫(xiě)都是錯(cuò)的。。

整個(gè)上手試下來(lái), GPT-4o 給我最大的印象就是快,非???。

但說(shuō)實(shí)話,除了快,世超真沒(méi)覺(jué)得有啥特別的了,與其說(shuō) GPT-4o 是 GPT-4 的智商進(jìn)化版,倒不如說(shuō)是把 GPT-4 的交互能力單拎出來(lái)強(qiáng)化了一波。

就像奧特曼在博客里提到的, “ 達(dá)到人類(lèi)響應(yīng)時(shí)間和表達(dá)水平 ” 是 AI 的巨大變化。大模型的終極形態(tài),也應(yīng)該是讓人和 AI 的交流回歸到最原始、最簡(jiǎn)單的形態(tài)。

在未來(lái),咱們面對(duì)一臺(tái)電腦、一部手機(jī),直接說(shuō)話交流,就是最主要的交互方式。

不過(guò)這次 GPT-4o 最厲害的殺手锏:視頻交流功能,還沒(méi)放出來(lái),等到時(shí)候咱能體驗(yàn)到了再下結(jié)論也不遲。

另外,網(wǎng)友們也沒(méi)干坐著,也在各種研究 GPT-4o 的,結(jié)果,卻扒出了一些番外的料。。。

也不知道 GPT-4o 的中文語(yǔ)料庫(kù)是哪兒來(lái)的,里面有不少的釣魚(yú)網(wǎng)站的違禁詞,像什么?“?日本 x 片免費(fèi)視頻?”?這類(lèi)的。

給人老外都整無(wú)語(yǔ)了。。

像這樣的樂(lè)子,以后指不定還要冒出來(lái)不少。但言歸正傳, GPT-4o 的出現(xiàn)確實(shí)又給 AI 開(kāi)了個(gè)新副本。

按照之前 ChatGPT 問(wèn)世之后,其他友商步步緊逼的尿性。世超盲猜,在 GPT-4o 之后,類(lèi)似的 “Claude-o”“Gemini-o” 應(yīng)該很快就會(huì)出現(xiàn)。

剛好很快就是谷歌的 I/O 了,咱們也淺淺期待一手好吧。

圖片、資料來(lái)源:

X , OpenAI 、 Blog

本文由人人都是產(chǎn)品經(jīng)理作者【差評(píng)】,微信公眾號(hào):【差評(píng)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
50324人已学习25篇文章
在产品初期,有什么方法能获取及维护高质量的种子用户呢?
专题
13720人已学习12篇文章
作者B端的产品经理,要基于这个行业理解的大背景下去了解公司的业务全局。本专题的文章分享了B端产品经理如何了解业务全局。
专题
13710人已学习13篇文章
本专题的文章分享了关于教育+AI的思考。
专题
13826人已学习12篇文章
本专题的文章分享了用户运营实战经验。
专题
20644人已学习15篇文章
商品管理系统属于电商产品中最基础、最核心的系统,是支撑整个电商产品的核心。本专题的文章提供了商品管理设计指南。