国产毛片18片毛一级特黄,学霸被校霸做了七次,欧美黄亚洲性在线看

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

開通會員

發(fā)布

注冊 | 登錄

端到端訓(xùn)練，語音輸入響應(yīng)10倍優(yōu)于競品，OpenAI發(fā)布了一個AI“怪物”

VR陀螺

2024-05-15

0 評論 615 瀏覽 0 收藏

🔗 产品经理专业技能指的是：需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

就在最近，OpenAI召開了GPT-4o發(fā)布會，在這場發(fā)布會中，我們可以看到GPT-4o的性能展示，也能從中窺探到一些《Her》所構(gòu)建的未來場景的影子。

近日凌晨，OpenAI召開了GPT-4o發(fā)布會，雖然整個發(fā)布會時長不到半小時，但是全程高能：AI語音響應(yīng)速度比肩真人、能夠理解情緒語調(diào)信息、可實(shí)時對音頻、視覺和文本進(jìn)行推理…….

陀螺君在觀看發(fā)布會時最大的感受便是：要么是ChatGPT里面塞了一個真人，要么則是科幻電影《Her》所構(gòu)建的未來場景真的已經(jīng)到來。

一、性能比肩GPT-4 Turbo，語音響應(yīng)速度甚至比真人更快

本次發(fā)布會中，OpenAI CEO山姆·奧特曼并未出席，OpenAI CTO Mira Murati主持了本次活動。

在開始時，Mira Murati先簡單闡述了以往所發(fā)布的GPT-4等模型的固有局限：人與人之間的互動其實(shí)相較于此前的機(jī)器對話要復(fù)雜得多。

人與人之間對話交流除了語義以外，還有語氣、各種背景語境理解等，這些因素使得對話式AI想要獲得類似于真人般的體驗(yàn)會非常復(fù)雜。不過，OpenAI最新發(fā)布的GPT 4o正是一款試圖顛覆現(xiàn)有語音交互體驗(yàn)的AI大模型。

GPT-4o（里面的“o”所代表的是“omni（全能的）”），它與GPT-4類似，可以實(shí)時處理和輸出各種音頻、視覺以及文本信息。不過特別之處在于，它將音頻輸入響應(yīng)時間縮短至了原有模型的十分之一。

B端究竟需要什么样的产品经理？

B端产品经理都是以提升供应侧的工作效率为目的，所以B端需求主要是以业务问题为导向。这个是B端产品比较重要的一点，B端产品是服务于一个主体 ...

查看详情 >

在GPT-4o之前，集成了GPT-3.5和GPT-4的ChatGPT音頻輸入響應(yīng)平均延遲分別為2.8秒和5.4秒，而到了現(xiàn)在，GPT-4o可以縮短至232毫秒，平均為320毫秒，官方稱這基本上與真人聊天感覺無異。

在OpenAI官網(wǎng)GPT-4o的演示頁面上，官方則在顯著的地方備注道：“此頁面上的所有視頻均為1倍語速”，已表明它對GPT-4o響應(yīng)速度的絕對自信。

圖源：OpenAI

為什么GPT-4o能夠?qū)崿F(xiàn)如此大的突破，原因在于它摒棄了原有AI語音對話的常見流程。在以前，想要實(shí)現(xiàn)AI對話其實(shí)需要經(jīng)歷三個步驟：語音轉(zhuǎn)文本——AI接收信息、處理并輸出文本——文本轉(zhuǎn)語音。而現(xiàn)在，GPT-4o具備了端到端能力，即所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。

除了能有效改善語音響應(yīng)速度外，端到端處理其實(shí)還有一個天然的優(yōu)勢，早些時候三段式解決方案在語音轉(zhuǎn)文本環(huán)節(jié)往往會丟失大量重要信息：比如說話者的笑聲、語氣詞、音調(diào)等，這些信息往往無法在文本信息上面反映但對于聊天卻有至關(guān)重要的作用，而端到端處理信息能有效保留這些內(nèi)容。

回到GPT-4o上，關(guān)于它的具體表現(xiàn)，我們可以先結(jié)合下面的視頻感受一番。

恰巧，谷歌在也放出了一段基于Gemini驅(qū)動的AI助手的視頻，我們可以基于此簡單對比不同大模型之間的一些差距。

關(guān)于GPT-4o模型性能，OpenAI在其官網(wǎng)放出了相應(yīng)的測試結(jié)果，官方表示“GPT-4o在文本、推理和編碼智能方面實(shí)現(xiàn)了GPT-4 Turbo級別的性能，同時在多語言、音頻和視覺功能上設(shè)置了新的高水位線。”

圖源：OpenAI

舉例而言，GPT-4o 在0-shot COT MMLU（常識問題）上創(chuàng)下了88.7%的高分，超越了GPT-4 Turbo、Gemini Pro 1.5、Claude 3 Opus、Llama 3 400b等競品；而在反映音頻翻譯性能的MLS 基準(zhǔn)測試中表現(xiàn)也優(yōu)于Meta的SeamlessM4T、谷歌的Gemini。

圖源：OpenAI

Mira Murati提到，從今日起，用戶可在ChatGPT中免費(fèi)體驗(yàn)GPT-4o的能力，不過當(dāng)前只局限于文本和圖像功能，（ChatGPT Plus用戶能享受到5倍的訪問量）。關(guān)于它最為核心的語音模式，則會在未來數(shù)周面向Plus用戶推出（alpha版本）。

此外，現(xiàn)如今開發(fā)者還可以基于API訪問GPT-4o的文本和圖像功能，與GPT-4 Turbo相比，GPT-4o可速度提高2倍，而價格降低一半，速率限制提高5倍。而關(guān)于語音和視頻功能，則會在未來數(shù)周內(nèi)面向特定的合作伙伴推出。

其他方面，Mira Murati還簡單提及了ChatGPT的一些改進(jìn)，如今日正式推出基于macOS的桌面版本，而Windows版本則計劃在今年晚些時候推出。此外，ChatGPT的頁面UI也有所改進(jìn)，進(jìn)一步提升了易用性。

macOS版本ChatGPT，圖源：Youtube

二、能撒嬌賣萌、能看代碼圖表，真實(shí)演示讓人嘆為觀止

本次發(fā)布會中，其實(shí)關(guān)于GPT-4o的底層技術(shù)講解并不算多，只有短短數(shù)分鐘，而很多細(xì)節(jié)、隱私方面的介紹也只是一帶而過。相反，整場發(fā)布會有高達(dá)三分之二的時長都放在了演示上面，OpenAI的研究主管Mark Chen、后訓(xùn)練團(tuán)隊(duì)負(fù)責(zé)人Barret Zoph參與了本次演示環(huán)節(jié)。

（高度懷疑OpenAI是在內(nèi)涵谷歌去年的Gemini發(fā)布會，后者在發(fā)布會上只提供了錄屏演示，后續(xù)被扒出視頻經(jīng)過特殊剪輯處理。）

左二為Mark Chen，右一為Barret Zoph

根據(jù)粗略統(tǒng)計，發(fā)布會期間共計演示了GPT-4o八個不同場景片段，這些場景頗具代表性，能夠很好體現(xiàn)GPT-4o的語音響應(yīng)以及多模態(tài)等相關(guān)能力。

剛開始時，Mark Chen向ChatGPT詢問，“我在現(xiàn)場演示demo有點(diǎn)緊張，你能幫助我嗎？”ChatGPT回復(fù)時語音十分甜美，并且反應(yīng)非常迅速，同時還不失幽默地說了幾句俏皮話。在這個過程中，其實(shí)我們可以發(fā)現(xiàn)GPT-4o除了能夠識別常見語音指令外，甚至還能識別出用戶呼吸頻率，這是有別于其他AI的一項(xiàng)重要能力。

在另外一個演示中，Mark Chen向AI詢問能否講一個以“戀愛中的機(jī)器人”為主題的睡前故事，AI語音響應(yīng)同樣非常迅速，即便Mark Chen在AI輸出過程中多次打斷它的講話，AI也能很好把握用戶的需求，如增加朗讀的感情、增加更多戲劇性等。AI在這個過程中聲情并茂，各種停頓以及感情把控非常好，非常離譜。

此外，Barret Zoph還演示了GPT-4o的解數(shù)學(xué)題的能力，他在一張紙上面寫下一個方程組，ChatGPT不僅能準(zhǔn)確識別方程組，還能一步步給予相應(yīng)的解題步驟。不過，這里我們也可以看到智能手機(jī)作為AI載體其實(shí)有點(diǎn)尷尬，用戶需要一只手舉著手機(jī)拍攝，另一只手寫作業(yè)，不是十分方便。

單從演示來看，GPT-4o的視覺能力還是相當(dāng)不錯的，并且響應(yīng)也頗為迅速，后面，Barret Zoph寫下“I ? ChatGPT”時，AI的回復(fù)則是充滿了“寵溺”，“擬人”屬性拉滿。

除手機(jī)APP外，Mark Chen還演示了macOS客戶端的ChatGPT能力，比如用戶能夠向其詢問“屏幕上面的代碼代表了什么？”、“這張表格里面能讀取什么信息？”等。在演示過程中，AI均給予了正確的響應(yīng)。

在發(fā)布會的最后階段，為了給AI“上點(diǎn)強(qiáng)度”，Mira Murati讀取了兩個直播留言反饋，并進(jìn)行了相應(yīng)的演示。其中一個演示是常見的翻譯功能，Mark Chen與Mira Murati雙方分別使用英語和意大利語對話，而ChatGPT則很好地翻譯了出來。

不過，在最后一個演示中，有用戶留言表示“AI能不能通過看你的臉識別你的感受？”這里有點(diǎn)小翻車，AI識別到的并非Barret Zoph的人臉，而是桌子。不過Barret Zoph臨危不亂通過新增提示語的方式實(shí)現(xiàn)了救場。（也有反饋稱這是由于ChatGPT率先調(diào)用了后置攝像頭所導(dǎo)致的失誤）

三、電影《Her》照進(jìn)現(xiàn)實(shí)，已經(jīng)讓人迫切希望看到GPT-4o的“泛濫”

回顧整場發(fā)布會，其實(shí)可以發(fā)現(xiàn)GPT-4o就像是GPT-Turbo的一個語音加強(qiáng)版，得益于出色的延遲以及“情感”能力，它將具備巨大的應(yīng)用落地的價值以及潛力，而相較于Siri等常見的語音聊天工具更是降維打擊。

Mira Murati在發(fā)布會中表示，“我們正在尋找關(guān)于未來用戶與機(jī)器交互的范式，而GPT-4o（憑借其易用性），正在將這一范式變得更加自然?！?/p>

發(fā)布會結(jié)束后，Altman在社交平臺上寫下了“her”這個單詞作為回應(yīng)，這其實(shí)可以看到OpenAI以及Altman對于GPT-4o這款產(chǎn)品所寄予的厚望。

圖源：X

Ps:《Her》是一部在2013年上映的科幻電影，里面講述的是主人公西奧多愛上了搭載強(qiáng)人工智能電腦操作系統(tǒng)的故事，薩曼莎每天通過語音的方式與AI進(jìn)行聊天互動，最終使得西奧多在這段感情上越陷越深。

在博客中，Altman寫到：

新的語音（和視頻）模式是我用過的最好的計算機(jī)界面。感覺就像電影里的人工智能一樣；我仍然有點(diǎn)驚訝它是真的。事實(shí)證明，達(dá)到人類水平的響應(yīng)時間和表達(dá)能力是一個巨大的變化。

最初的ChatGPT暗示了語言界面的可能性；這個新事物感覺本質(zhì)上是不同的。它快速、智能、有趣、自然且有幫助。

對我來說，與電腦交談從來都不是很自然的事。現(xiàn)在確實(shí)如此。當(dāng)我們添加（可選）個性化、訪問您的信息、代表您采取行動的能力等等時，我確實(shí)可以看到一個令人興奮的未來，我們能夠使用計算機(jī)做比以往更多的事情。

就在不久前，有消息傳出蘋果與OpenAI達(dá)成相關(guān)協(xié)議，并有望將ChatGPT整合到iPhone當(dāng)中。結(jié)合發(fā)布會來看，OpenAI對于與蘋果的關(guān)系也顯得頗為“曖昧”，如桌面版本應(yīng)用率先在Mac平臺推出，全程使用iPhone以及Mac設(shè)備作為演示等。目前暫未明確雙方將會采取何種合作模式，假如蘋果真的將GPT-4o引入Siri當(dāng)中，想必將會極大提升iPhone的產(chǎn)品競爭力。

圖源：X

發(fā)布會結(jié)束后，知名AI硬件開發(fā)商Humane（Altman是該公司的投資人之一）也演示了GPT-4o落地的場景：AI能夠基于所看到的畫面設(shè)計猜謎游戲。Humane CEO Imran Chaudhri表示這段視頻中其實(shí)同時運(yùn)用了“GPT-4o+Gemini”的相關(guān)能力。

值得一提的是，今年年初，谷歌發(fā)布對標(biāo)GPT-4 Turbo的Gemini 1.5 Pro，而僅僅半小時后，OpenAI火速發(fā)布了Sora，結(jié)果搶了谷歌的風(fēng)頭。而現(xiàn)在，OpenAI“故技重施”，選擇在谷歌I/O大會前一天發(fā)布GPT-4o，可謂火藥味十足。

從結(jié)果來看，OpenAI這一招其實(shí)頗為有效，今天鋪天蓋地都是GPT-4o相關(guān)新聞，谷歌I/O大會相關(guān)動態(tài)則顯得頗為冷清，我們且看谷歌如何接招。

總結(jié)來看，OpenAI的GPT-4o，強(qiáng)是真的強(qiáng)，并且這種強(qiáng)不僅僅只存在于實(shí)驗(yàn)數(shù)據(jù)方面，對于用戶的體感也十分明顯。此外，由于語音響應(yīng)+端到端能力的加持，它相較于GPT-4等產(chǎn)品也具有更強(qiáng)的應(yīng)用落地以及商業(yè)變現(xiàn)可能性。

陀螺君將很樂意看到GPT-4o在手機(jī)、電腦、智能硬件等產(chǎn)品方面的落地。除此之外，我們可以持續(xù)關(guān)注谷歌、Meta、微軟、蘋果等企業(yè)在AI領(lǐng)域的相關(guān)動作。

參考資料：

1.https://openai.com/index/hello-gpt-4o/

2.https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

3.https://blog.samaltman.com/gpt-4o

作者：萬里

來源公眾號：VR陀螺（ID：vrtuoluo），XR行業(yè)垂直媒體，關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App