端到端訓(xùn)練,語音輸入響應(yīng)10倍優(yōu)于競品,OpenAI發(fā)布了一個(gè)AI“怪物”

0 評論 512 瀏覽 0 收藏 17 分鐘

就在最近,OpenAI召開了GPT-4o發(fā)布會,在這場發(fā)布會中,我們可以看到GPT-4o的性能展示,也能從中窺探到一些《Her》所構(gòu)建的未來場景的影子。

近日凌晨,OpenAI召開了GPT-4o發(fā)布會,雖然整個(gè)發(fā)布會時(shí)長不到半小時(shí),但是全程高能:AI語音響應(yīng)速度比肩真人、能夠理解情緒語調(diào)信息、可實(shí)時(shí)對音頻、視覺和文本進(jìn)行推理…….

陀螺君在觀看發(fā)布會時(shí)最大的感受便是:要么是ChatGPT里面塞了一個(gè)真人,要么則是科幻電影《Her》所構(gòu)建的未來場景真的已經(jīng)到來。

一、性能比肩GPT-4 Turbo,語音響應(yīng)速度甚至比真人更快

本次發(fā)布會中,OpenAI CEO山姆·奧特曼并未出席,OpenAI CTO Mira Murati主持了本次活動。

在開始時(shí),Mira Murati先簡單闡述了以往所發(fā)布的GPT-4等模型的固有局限:人與人之間的互動其實(shí)相較于此前的機(jī)器對話要復(fù)雜得多。

人與人之間對話交流除了語義以外,還有語氣、各種背景語境理解等,這些因素使得對話式AI想要獲得類似于真人般的體驗(yàn)會非常復(fù)雜。不過,OpenAI最新發(fā)布的GPT 4o正是一款試圖顛覆現(xiàn)有語音交互體驗(yàn)的AI大模型。

GPT-4o(里面的“o”所代表的是“omni(全能的)”),它與GPT-4類似,可以實(shí)時(shí)處理和輸出各種音頻、視覺以及文本信息。不過特別之處在于,它將音頻輸入響應(yīng)時(shí)間縮短至了原有模型的十分之一。

在GPT-4o之前,集成了GPT-3.5和GPT-4的ChatGPT音頻輸入響應(yīng)平均延遲分別為2.8秒和5.4秒,而到了現(xiàn)在,GPT-4o可以縮短至232毫秒,平均為320毫秒,官方稱這基本上與真人聊天感覺無異。

在OpenAI官網(wǎng)GPT-4o的演示頁面上,官方則在顯著的地方備注道:“此頁面上的所有視頻均為1倍語速”,已表明它對GPT-4o響應(yīng)速度的絕對自信。

圖源:OpenAI

為什么GPT-4o能夠?qū)崿F(xiàn)如此大的突破,原因在于它摒棄了原有AI語音對話的常見流程。在以前,想要實(shí)現(xiàn)AI對話其實(shí)需要經(jīng)歷三個(gè)步驟:語音轉(zhuǎn)文本——AI接收信息、處理并輸出文本——文本轉(zhuǎn)語音。而現(xiàn)在,GPT-4o具備了端到端能力,即所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。

除了能有效改善語音響應(yīng)速度外,端到端處理其實(shí)還有一個(gè)天然的優(yōu)勢,早些時(shí)候三段式解決方案在語音轉(zhuǎn)文本環(huán)節(jié)往往會丟失大量重要信息:比如說話者的笑聲、語氣詞、音調(diào)等,這些信息往往無法在文本信息上面反映但對于聊天卻有至關(guān)重要的作用,而端到端處理信息能有效保留這些內(nèi)容。

回到GPT-4o上,關(guān)于它的具體表現(xiàn),我們可以先結(jié)合下面的視頻感受一番。

恰巧,谷歌在也放出了一段基于Gemini驅(qū)動的AI助手的視頻,我們可以基于此簡單對比不同大模型之間的一些差距。

關(guān)于GPT-4o模型性能,OpenAI在其官網(wǎng)放出了相應(yīng)的測試結(jié)果,官方表示“GPT-4o在文本、推理和編碼智能方面實(shí)現(xiàn)了GPT-4 Turbo級別的性能,同時(shí)在多語言、音頻和視覺功能上設(shè)置了新的高水位線。”

圖源:OpenAI

舉例而言,GPT-4o 在0-shot COT MMLU(常識問題)上創(chuàng)下了88.7%的高分,超越了GPT-4 Turbo、Gemini Pro 1.5、Claude 3 Opus、Llama 3 400b等競品;而在反映音頻翻譯性能的MLS 基準(zhǔn)測試中表現(xiàn)也優(yōu)于Meta的SeamlessM4T、谷歌的Gemini。

圖源:OpenAI

Mira Murati提到,從今日起,用戶可在ChatGPT中免費(fèi)體驗(yàn)GPT-4o的能力,不過當(dāng)前只局限于文本和圖像功能,(ChatGPT Plus用戶能享受到5倍的訪問量)。關(guān)于它最為核心的語音模式,則會在未來數(shù)周面向Plus用戶推出(alpha版本)。

此外,現(xiàn)如今開發(fā)者還可以基于API訪問GPT-4o的文本和圖像功能,與GPT-4 Turbo相比,GPT-4o可速度提高2倍,而價(jià)格降低一半,速率限制提高5倍。而關(guān)于語音和視頻功能,則會在未來數(shù)周內(nèi)面向特定的合作伙伴推出。

其他方面,Mira Murati還簡單提及了ChatGPT的一些改進(jìn),如今日正式推出基于macOS的桌面版本,而Windows版本則計(jì)劃在今年晚些時(shí)候推出。此外,ChatGPT的頁面UI也有所改進(jìn),進(jìn)一步提升了易用性。

macOS版本ChatGPT,圖源:Youtube

二、能撒嬌賣萌、能看代碼圖表,真實(shí)演示讓人嘆為觀止

本次發(fā)布會中,其實(shí)關(guān)于GPT-4o的底層技術(shù)講解并不算多,只有短短數(shù)分鐘,而很多細(xì)節(jié)、隱私方面的介紹也只是一帶而過。相反,整場發(fā)布會有高達(dá)三分之二的時(shí)長都放在了演示上面,OpenAI的研究主管Mark Chen、后訓(xùn)練團(tuán)隊(duì)負(fù)責(zé)人Barret Zoph參與了本次演示環(huán)節(jié)。

(高度懷疑OpenAI是在內(nèi)涵谷歌去年的Gemini發(fā)布會,后者在發(fā)布會上只提供了錄屏演示,后續(xù)被扒出視頻經(jīng)過特殊剪輯處理。)

左二為Mark Chen,右一為Barret Zoph

根據(jù)粗略統(tǒng)計(jì),發(fā)布會期間共計(jì)演示了GPT-4o八個(gè)不同場景片段,這些場景頗具代表性,能夠很好體現(xiàn)GPT-4o的語音響應(yīng)以及多模態(tài)等相關(guān)能力。

剛開始時(shí),Mark Chen向ChatGPT詢問,“我在現(xiàn)場演示demo有點(diǎn)緊張,你能幫助我嗎?”ChatGPT回復(fù)時(shí)語音十分甜美,并且反應(yīng)非常迅速,同時(shí)還不失幽默地說了幾句俏皮話。在這個(gè)過程中,其實(shí)我們可以發(fā)現(xiàn)GPT-4o除了能夠識別常見語音指令外,甚至還能識別出用戶呼吸頻率,這是有別于其他AI的一項(xiàng)重要能力。

在另外一個(gè)演示中,Mark Chen向AI詢問能否講一個(gè)以“戀愛中的機(jī)器人”為主題的睡前故事,AI語音響應(yīng)同樣非常迅速,即便Mark Chen在AI輸出過程中多次打斷它的講話,AI也能很好把握用戶的需求,如增加朗讀的感情、增加更多戲劇性等。AI在這個(gè)過程中聲情并茂,各種停頓以及感情把控非常好,非常離譜。

此外,Barret Zoph還演示了GPT-4o的解數(shù)學(xué)題的能力,他在一張紙上面寫下一個(gè)方程組,ChatGPT不僅能準(zhǔn)確識別方程組,還能一步步給予相應(yīng)的解題步驟。不過,這里我們也可以看到智能手機(jī)作為AI載體其實(shí)有點(diǎn)尷尬,用戶需要一只手舉著手機(jī)拍攝,另一只手寫作業(yè),不是十分方便。

單從演示來看,GPT-4o的視覺能力還是相當(dāng)不錯(cuò)的,并且響應(yīng)也頗為迅速,后面,Barret Zoph寫下“I ? ChatGPT”時(shí),AI的回復(fù)則是充滿了“寵溺”,“擬人”屬性拉滿。

除手機(jī)APP外,Mark Chen還演示了macOS客戶端的ChatGPT能力,比如用戶能夠向其詢問“屏幕上面的代碼代表了什么?”、“這張表格里面能讀取什么信息?”等。在演示過程中,AI均給予了正確的響應(yīng)。

在發(fā)布會的最后階段,為了給AI“上點(diǎn)強(qiáng)度”,Mira Murati讀取了兩個(gè)直播留言反饋,并進(jìn)行了相應(yīng)的演示。其中一個(gè)演示是常見的翻譯功能,Mark Chen與Mira Murati雙方分別使用英語和意大利語對話,而ChatGPT則很好地翻譯了出來。

不過,在最后一個(gè)演示中,有用戶留言表示“AI能不能通過看你的臉識別你的感受?”這里有點(diǎn)小翻車,AI識別到的并非Barret Zoph的人臉,而是桌子。不過Barret Zoph臨危不亂通過新增提示語的方式實(shí)現(xiàn)了救場。(也有反饋稱這是由于ChatGPT率先調(diào)用了后置攝像頭所導(dǎo)致的失誤)

三、電影《Her》照進(jìn)現(xiàn)實(shí),已經(jīng)讓人迫切希望看到GPT-4o的“泛濫”

回顧整場發(fā)布會,其實(shí)可以發(fā)現(xiàn)GPT-4o就像是GPT-Turbo的一個(gè)語音加強(qiáng)版,得益于出色的延遲以及“情感”能力,它將具備巨大的應(yīng)用落地的價(jià)值以及潛力,而相較于Siri等常見的語音聊天工具更是降維打擊。

Mira Murati在發(fā)布會中表示,“我們正在尋找關(guān)于未來用戶與機(jī)器交互的范式,而GPT-4o(憑借其易用性),正在將這一范式變得更加自然?!?/p>

發(fā)布會結(jié)束后,Altman在社交平臺上寫下了“her”這個(gè)單詞作為回應(yīng),這其實(shí)可以看到OpenAI以及Altman對于GPT-4o這款產(chǎn)品所寄予的厚望。

圖源:X

Ps:《Her》是一部在2013年上映的科幻電影,里面講述的是主人公西奧多愛上了搭載強(qiáng)人工智能電腦操作系統(tǒng)的故事,薩曼莎每天通過語音的方式與AI進(jìn)行聊天互動,最終使得西奧多在這段感情上越陷越深。

在博客中,Altman寫到:

新的語音(和視頻)模式是我用過的最好的計(jì)算機(jī)界面。感覺就像電影里的人工智能一樣;我仍然有點(diǎn)驚訝它是真的。事實(shí)證明,達(dá)到人類水平的響應(yīng)時(shí)間和表達(dá)能力是一個(gè)巨大的變化。

最初的ChatGPT暗示了語言界面的可能性;這個(gè)新事物感覺本質(zhì)上是不同的。它快速、智能、有趣、自然且有幫助。

對我來說,與電腦交談從來都不是很自然的事?,F(xiàn)在確實(shí)如此。當(dāng)我們添加(可選)個(gè)性化、訪問您的信息、代表您采取行動的能力等等時(shí),我確實(shí)可以看到一個(gè)令人興奮的未來,我們能夠使用計(jì)算機(jī)做比以往更多的事情。

就在不久前,有消息傳出蘋果與OpenAI達(dá)成相關(guān)協(xié)議,并有望將ChatGPT整合到iPhone當(dāng)中。結(jié)合發(fā)布會來看,OpenAI對于與蘋果的關(guān)系也顯得頗為“曖昧”,如桌面版本應(yīng)用率先在Mac平臺推出,全程使用iPhone以及Mac設(shè)備作為演示等。目前暫未明確雙方將會采取何種合作模式,假如蘋果真的將GPT-4o引入Siri當(dāng)中,想必將會極大提升iPhone的產(chǎn)品競爭力。

圖源:X

發(fā)布會結(jié)束后,知名AI硬件開發(fā)商Humane(Altman是該公司的投資人之一)也演示了GPT-4o落地的場景:AI能夠基于所看到的畫面設(shè)計(jì)猜謎游戲。Humane CEO Imran Chaudhri表示這段視頻中其實(shí)同時(shí)運(yùn)用了“GPT-4o+Gemini”的相關(guān)能力。

值得一提的是,今年年初,谷歌發(fā)布對標(biāo)GPT-4 Turbo的Gemini 1.5 Pro,而僅僅半小時(shí)后,OpenAI火速發(fā)布了Sora,結(jié)果搶了谷歌的風(fēng)頭。而現(xiàn)在,OpenAI“故技重施”,選擇在谷歌I/O大會前一天發(fā)布GPT-4o,可謂火藥味十足。

從結(jié)果來看,OpenAI這一招其實(shí)頗為有效,今天鋪天蓋地都是GPT-4o相關(guān)新聞,谷歌I/O大會相關(guān)動態(tài)則顯得頗為冷清,我們且看谷歌如何接招。

總結(jié)來看,OpenAI的GPT-4o,強(qiáng)是真的強(qiáng),并且這種強(qiáng)不僅僅只存在于實(shí)驗(yàn)數(shù)據(jù)方面,對于用戶的體感也十分明顯。此外,由于語音響應(yīng)+端到端能力的加持,它相較于GPT-4等產(chǎn)品也具有更強(qiáng)的應(yīng)用落地以及商業(yè)變現(xiàn)可能性。

陀螺君將很樂意看到GPT-4o在手機(jī)、電腦、智能硬件等產(chǎn)品方面的落地。除此之外,我們可以持續(xù)關(guān)注谷歌、Meta、微軟、蘋果等企業(yè)在AI領(lǐng)域的相關(guān)動作。

參考資料:

1.https://openai.com/index/hello-gpt-4o/

2.https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

3.https://blog.samaltman.com/gpt-4o

作者:萬里

來源公眾號:VR陀螺(ID:vrtuoluo),XR行業(yè)垂直媒體,關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!