速遞|剛剛,OpenAI 發(fā)布了高級語音模式!

1 評論 1005 瀏覽 0 收藏 4 分鐘

OpenAI 剛剛宣布了一個令人興奮的新功能——高級語音模式(AVM),這標(biāo)志著人工智能在語音交互領(lǐng)域的又一次進(jìn)步。AVM 利用 GPT-4o 的原生音頻技術(shù),為用戶提供更加自然和實時的對話體驗。

周二,OpenAI 宣布向更多 ChatGPT 付費用戶推出“高級語音模式”(Advanced Voice Mode,簡稱 AVM )。

目前,OpenAI 提供了兩種類型的語音對話 —— 標(biāo)準(zhǔn)語音和高級語音:

1)高級語音:目前正在向 Plus 和 Team 用戶逐步推出。該功能使用 GPT-4o 的原生音頻技術(shù),能夠?qū)崿F(xiàn)更加自然的實時對話,并捕捉非語言線索(例如語速),還能作出情感化的回應(yīng)。

Plus 和 Team 用戶每天對高級語音的使用量有限制,包括語音輸入和輸出。企業(yè)版和教育版的用戶將在下周開始獲得該功能。

2)標(biāo)準(zhǔn)語音:適用于所有登錄 ChatGPT的用戶,并可以通過 iOS、macOS 和Android 應(yīng)用使用。

標(biāo)準(zhǔn)語音通過多種模型生成響應(yīng),包括將語音轉(zhuǎn)錄為文本,再傳遞給模型進(jìn)行回答。

盡管標(biāo)準(zhǔn)語音不像高級語音那樣具備原生多模式功能,但它仍然使用 GPT-4o 和 GPT-4o mini。需要注意的是,標(biāo)準(zhǔn)語音中的每一次提示都會計入消息限制。

要開始語音對話,需要選擇屏幕右下角的“語音”圖標(biāo):

當(dāng)開始高級語音對話時,用戶將被帶到一個屏幕,屏幕中心有一個藍(lán)色球體:

AVM 將在一周內(nèi)逐步向所有 Plus 和 Team 用戶推送。在等待期間,OpenAI 還增加了“自定義指令”、記憶功能、五種新語音和改進(jìn)的口音支持,還可以用超過 50 種語言說“抱歉,我遲到了”。

此外,ChatGPT 還新增了五種可供用戶體驗的語音:Arbor、Maple、Sol、 Spruce 和 Vale,加上之前的 Breeze、Juniper、Cove 和 Ember,ChatGPT 語音總數(shù)達(dá)到了九種,幾乎趕上了谷歌 Gemini Live 的數(shù)量。

  1. Arbor – 隨和且多功能
  2. Breeze – 生動活潑
  3. Cove – 沉著且直接
  4. Ember——自信而樂觀
  5. Juniper – 開放而樂觀
  6. Maple——開朗、坦誠
  7. Sol – 精明且放松
  8. Spruce——冷靜而肯定
  9. Vale——聰明且好奇

OpenAI 表示,自從 AVM 的有限 alpha 測試發(fā)布以來,已經(jīng)進(jìn)行了多項改進(jìn)。據(jù)稱ChatGPT的語音功能現(xiàn)在對口音的理解能力更強,且對話更加順暢和迅速。

OpenAI 還將 ChatGPT 部分定制功能擴展到了 AVM,包括“自定義指令”,允許用戶個性化 ChatGPT 的響應(yīng)方式,以及“記憶功能”,讓 ChatGPT 能夠記住之前的對話以供以后參考。

本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號:【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 不管怎么樣都是AI技術(shù)的一種進(jìn)步,但想進(jìn)行商業(yè)化必須大規(guī)模投入使用才行

    來自廣東 回復(fù)