Hello GPT-4o

硅星人
0 評論 726 瀏覽 0 收藏 8 分鐘
🔗 B端产品经理需要进行售前演示、方案定制、合同签订等,而C端产品经理需要进行活动策划、内容运营、用户激励等

OpenAI正式推出最新旗艦?zāi)P虶PT-4o,那么,GPT-4o究竟具備哪些能力?具體的能力表現(xiàn)又如何?一起來看看本文的分享。

今天,OpenAI正式推出最新旗艦?zāi)P虶PT-4o,能夠跨音頻、視覺和文本進(jìn)行實時推理。

GPT-4o(”o” 即 “omni 全能”)標(biāo)志著實現(xiàn)更自然人機(jī)交互的重大進(jìn)步。它能夠接收文本、音頻和圖像的任意組合作為輸入,并輸出同樣多樣化的組合。在最短232毫秒內(nèi)響應(yīng)音頻輸入,平均響應(yīng)時間320毫秒,與人類在對話中的反應(yīng)時間類似。在處理英語和編程方面與GPT-4 Turbo表現(xiàn)相當(dāng),非英語文本處理上則有顯著提升。此外,GPT-4o在API中的運(yùn)行速度更快,成本也降低了50%。在視覺和音頻理解能力上,GPT-4o明顯優(yōu)于現(xiàn)有模型。

在GPT-4o之前,人們可以使用語音模式與ChatGPT交談,平均延遲時間為2.8秒(GPT-3.5)和5.4秒(GPT-4)。為此語音模式集成了三個獨立模型:一個簡單模型將音頻轉(zhuǎn)錄為文本,GPT-3.5或GPT-4接收文本并輸出文本,第三個簡單模型再將文本轉(zhuǎn)換回音頻。這一過程意味著GPT-4可能丟失大量信息——它無法直接理解語調(diào)、多個說話者的聲音或背景噪音,也無法輸出笑聲、歌唱或表達(dá)情感。

現(xiàn)在,OpenAI端到端訓(xùn)練的新模型GPT-4o覆蓋了文本、視覺和音頻,這意味著所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理。由于GPT-4o是第一個結(jié)合所有這些模態(tài)的模型,所以團(tuán)隊對模型能力和局限性仍在探索中。

一、模型評估

根據(jù)傳統(tǒng)基準(zhǔn)測試,GPT-4o在文本、推理和編程智能方面達(dá)到了GPT-4 Turbo級別的表現(xiàn),同時在多語言、音頻和視覺能力方面設(shè)立了新的高標(biāo)準(zhǔn)。

改進(jìn)的推理能力 – GPT-4o在5次嘗試的MMLU(多項選擇通用知識問題測試)中創(chuàng)下了87.2%的新高分。

音頻ASR性能 – GPT-4o在所有語言上顯著提升了語音識別性能,相較于Whisper-v3尤其在資源較少的語言上有顯著改進(jìn)。

音頻翻譯性能 – GPT-4o在語音翻譯方面設(shè)立了新的行業(yè)標(biāo)準(zhǔn),并在MLS基準(zhǔn)測試中表現(xiàn)優(yōu)于Whisper-v3。

M3Exam評測 – M3Exam基準(zhǔn)測試同時涵蓋多語言和視覺評估,包括來自其他國家標(biāo)準(zhǔn)化測試的多項選擇題,有時會包含圖表和示意圖。在所有語言上,GPT-4o在這一基準(zhǔn)測試上比GPT-4表現(xiàn)更強(qiáng)。

視覺理解評估 – GPT-4o在視覺感知基準(zhǔn)測試上達(dá)到了行業(yè)領(lǐng)先的表現(xiàn)。

二、語言分詞

20種語言被選為新分詞器在不同語言家族中壓縮改進(jìn)的代表。(以下含中文壓縮表現(xiàn))

三、模型安全性和局限性

GPT-4o在各種模態(tài)中通過設(shè)計內(nèi)置了安全性,采用了如過濾訓(xùn)練數(shù)據(jù)和通過后訓(xùn)練改善模型行為的技術(shù)。OpenAI還創(chuàng)建了新的安全系統(tǒng),為語音輸出提供保護(hù)措施。

OpenAI根據(jù)“準(zhǔn)備框架”和自愿承諾對GPT-4o進(jìn)行了評估。對網(wǎng)絡(luò)安全、化學(xué)生物輻射核(CBRN)、說服力和模型自主性的評估顯示,GPT-4o在這些類別中的風(fēng)險等級沒有超過中等。這一評估包括在模型訓(xùn)練過程中進(jìn)行一系列自動化和人工評估。同時團(tuán)隊測試了模型安全措施前后的版本,使用自定義的微調(diào)和提示來更好地誘導(dǎo)模型的能力。

GPT-4o還經(jīng)歷了由70多名外部專家在社會心理學(xué)、偏見與公正以及錯誤信息等領(lǐng)域進(jìn)行的廣泛外部紅隊測試,以識別由新加入的模態(tài)引入或放大的風(fēng)險。并利用這些學(xué)習(xí)成果來建立安全干預(yù)措施,以提高與GPT-4o互動的安全性。

團(tuán)隊也認(rèn)識到GPT-4o的音頻模態(tài)可能會呈現(xiàn)出多種新的風(fēng)險。今天,OpenAI公開發(fā)布文本和圖像輸入及文本輸出。在接下來的幾周和幾個月內(nèi),將致力于技術(shù)基礎(chǔ)設(shè)施、通過后訓(xùn)練提高可用性和必要的安全性,以發(fā)布其他模態(tài)。例如,在發(fā)布時,音頻輸出將限于一組預(yù)設(shè)的聲音,并將遵守現(xiàn)有安全政策。OpenAI將在即將發(fā)布的系統(tǒng)卡中分享更多關(guān)于GPT-4o各種模態(tài)的詳細(xì)信息。

通過對模型的測試和迭代,我們觀察到存在于模型所有模態(tài)中的幾個局限性。

OpenAI歡迎用戶反饋,幫助識別GPT-4 Turbo仍然優(yōu)于GPT-4o的任務(wù),以便繼續(xù)改進(jìn)模型。

四、模型可用性

GPT-4o是OpenAI在深度學(xué)習(xí)領(lǐng)域推動實用性方向界限的最新步驟。在過去的兩年中,團(tuán)隊在整個技術(shù)棧的每一層都進(jìn)行了大量的效率改進(jìn)工作。作為這項研究的首個成果,能夠更廣泛地提供GPT-4級別的模型。GPT-4o的能力將逐步推出(從今天開始提供擴(kuò)展的紅隊訪問)。

GPT-4o的文本和圖像功能從今天開始在ChatGPT中推出。GPT-4o將提供給所有免費用戶,并為Plus用戶提供高達(dá)5倍的消息限制。未來幾周內(nèi)在ChatGPT Plus中將以alpha版本推出新版語音模式。開發(fā)者現(xiàn)在也可以在API中訪問GPT-4o作為文本和視覺模型。

GPT-4o比GPT-4 Turbo快2倍,價格減半,速率限制提高了5倍。OpenAI計劃在未來幾周內(nèi)向API中的一小群受信任的合作伙伴推出GPT-4o的新音頻和視頻功能。

本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
19178人已学习13篇文章
在B端产品设计中,数据的筛选是其中必不可少的一个步骤。本专题的文章提供了B端数据筛选查询的设计思路。
专题
12253人已学习12篇文章
LLM=Large Language Model 大语言模型,是一种基于深度学习的自然语言处理模型。它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。本专题的文章分享了大语言模型的知识。
专题
15374人已学习12篇文章
服务设计在流程性和系统性的问题解决方面提供很好的思路和方法。本专题的文章分享了如何做好服务设计。
专题
15175人已学习12篇文章
用户故事在软件开发过程中被作为描述需求的一种表达形式,本专题的文章分享了如何讲好用户故事。
专题
12007人已学习12篇文章
面对多岗位意见不统一时,如何提升自己的话语权,让自己的建议能够真正被他人纳入范围内?本专题的文章分享了关于提升话语权的一些建议。