從智障到智能,語(yǔ)音交互對(duì)智能座艙的重要性

3 評(píng)論 529 瀏覽 1 收藏 7 分鐘

語(yǔ)音交互不占用視覺和雙手,因而最適合放在智能座艙之類的場(chǎng)景上。這篇文章,我們來看看智能座艙中語(yǔ)音交互的使用效率和頻率,如何進(jìn)行提升。

在聊智能座艙中的語(yǔ)音交互技術(shù)之前,我們先來插播一條新聞:5月14日,OpenAI宣布推出GPT-4o,據(jù)說GPT-4o在處理速度上提升了高達(dá)200%,同時(shí)在價(jià)格上也實(shí)現(xiàn)了50%的下降,GPT-4o所有功能包括視覺、聯(lián)網(wǎng)、記憶、執(zhí)行代碼以及GPT Store等,后續(xù)將對(duì)所有用戶免費(fèi)開放。

不得不說,在IA賽道上,我們國(guó)內(nèi)廠商又被甩了半步!

GPT-4o的名稱中“o”代表Omni,即全能的意思,凸顯了其多功能的特性,GPT-4o是OpenAI為聊天機(jī)器人ChatGPT發(fā)布的語(yǔ)言模型,“可以實(shí)時(shí)對(duì)音頻、視覺和文本進(jìn)行推理,新模型使ChatGPT能夠處理50種不同的語(yǔ)言,同時(shí)提高了速度和質(zhì)量??梢灶A(yù)期,GPT-4o的能力接入智能座艙,將會(huì)給整個(gè)用戶體驗(yàn)帶來更大的想象空間。

當(dāng)前每個(gè)車企都在全力發(fā)展語(yǔ)音交互技術(shù),其中重要原因是語(yǔ)音交互幾乎不占視覺和手部資源,從而可以大幅提高駕駛安全。車機(jī)屏幕中的大量視覺信息占用駕駛員的認(rèn)知資源,從而引起駕駛員的分心。其次,基于屏幕的GUI交互需要駕駛員通過觸摸或者按鍵的方式進(jìn)行交互,前者需要駕駛員單手離開方向盤從而有可能引起安全風(fēng)險(xiǎn),后者則效率低下。

從智能座艙語(yǔ)音交互技術(shù)發(fā)展來看,提升語(yǔ)音交互的使用效率和頻率我認(rèn)為主要由以下四點(diǎn)決定。

一、更自然的喚醒技術(shù)

部分語(yǔ)音技術(shù)供應(yīng)商支持“免喚醒”和“one-shot”技術(shù),“免喚醒”是指省略喚醒詞直接說“打開車窗”,車窗就會(huì)直接打開。其實(shí)“免喚醒”正是用了喚醒詞技術(shù),只不過把默認(rèn)喚醒詞改為指令,新的喚醒詞被命中后會(huì)直接執(zhí)行相關(guān)指令。

“one-shot”技術(shù)也被稱為“喚醒連說”,支持用戶在說出喚醒詞之后不作停頓,立刻說出后續(xù)需求。例如用戶直接說“小艾同學(xué)幫我打開車窗”,小艾同學(xué)就能直接把車窗打開。這種方式摒棄傳統(tǒng)的一問一答形式,極大減少了用戶語(yǔ)音操控的步驟。

二、全雙工語(yǔ)音交互

在幾年前,由于部分語(yǔ)音交互技術(shù)暫未成熟,用戶和語(yǔ)音助手的交互大多屬于單輪交互或多輪交互,兩種交互方式帶來的問題是用戶無法持續(xù)地向語(yǔ)音助手發(fā)起指令。單輪交互是指每次語(yǔ)音助手被喚醒后只能完成一項(xiàng)對(duì)話,不管任務(wù)能否被完成,語(yǔ)音助手都會(huì)進(jìn)入休眠狀態(tài)。多輪交互是指用戶可以不用多次晚醒語(yǔ)音助手,雙方可以通過多輪交流的方式完成一個(gè)任務(wù),當(dāng)任務(wù)完成后語(yǔ)音助手會(huì)自動(dòng)進(jìn)入休眠狀態(tài)。

為了讓語(yǔ)音交互擁有更自然和更高效率的體驗(yàn),近年陸續(xù)有車企推出持續(xù)監(jiān)聽和全雙工語(yǔ)音交互技術(shù)。持續(xù)監(jiān)聽可以理解為一旦喚醒語(yǔ)音助手,語(yǔ)音助手會(huì)把麥克風(fēng)一直打開。用戶可以一直說,語(yǔ)音助手會(huì)針對(duì)用戶每一句話分別做出響應(yīng)。

但是持續(xù)監(jiān)聽的體驗(yàn)依然存在很多問題,因?yàn)辂溈孙L(fēng)一直打開,語(yǔ)音助手會(huì)把所有的聲音進(jìn)行聆聽并做出響應(yīng)。假設(shè)上一輪對(duì)話未結(jié)束,這時(shí)候語(yǔ)音助手聽到其他人說的話,誤以為這是新的語(yǔ)音任務(wù),會(huì)把上一輪對(duì)話直接結(jié)束并報(bào)新的內(nèi)容。

相比簡(jiǎn)單地把麥克風(fēng)打開,全雙工語(yǔ)音交互不會(huì)像持續(xù)監(jiān)聽一樣容易被噪聲打斷整個(gè)對(duì)話過程。要實(shí)現(xiàn)以上效果,全雙工語(yǔ)音交互需要擁有更強(qiáng)的抗噪能力和上下文理解能力,它能理解聲音是否跟當(dāng)前任務(wù)有關(guān),并且能猜測(cè)當(dāng)前任務(wù)下一輪對(duì)話是什么,這對(duì)于技術(shù)的要求非常高。

全雙工語(yǔ)音交互可以簡(jiǎn)單地理解為真正的“邊聽邊說”,用戶一旦習(xí)慣了全雙工語(yǔ)音交互,就很難回到以上三種交互模式,所以全雙工語(yǔ)音交互是提升語(yǔ)音交互的使用效率和頻率的重要基礎(chǔ)能力。

三、實(shí)現(xiàn)捷徑

小鵬汽車 P7在2020年發(fā)布的官方視頻中提到駕駛員進(jìn)入座艙時(shí)對(duì)語(yǔ)音助手說一句話,系統(tǒng)會(huì)自動(dòng)幫助駕駛員完成十幾項(xiàng)步驟,極大提升了人和機(jī)器的交互效率。這項(xiàng)體驗(yàn)的背后是捷徑的實(shí)現(xiàn),捷徑是指用戶可以將若干操作選項(xiàng)按順序整合在一起,并賦予一個(gè)指令,當(dāng)指令被響應(yīng)后,涉及的操作選項(xiàng)按順序會(huì)依次執(zhí)行。

盡管該技術(shù)跟語(yǔ)音交互沒有太大的關(guān)系,但從用戶心智來看,這是語(yǔ)音交互和人工智能技術(shù)帶來的便利。

四、實(shí)現(xiàn)GUI和VUI融合

在上述的小鵬官方視頻中也提到了駕駛員可以在23s內(nèi)完成10輪語(yǔ)音交互對(duì)話,這項(xiàng)體驗(yàn)的背后是GUI和VUI融合的實(shí)現(xiàn),它能讓用戶說出屏幕內(nèi)容并被VUI執(zhí)行,加上全雙工語(yǔ)音交互技術(shù)實(shí)現(xiàn)“可見即可說”。

GUI和VUI融合為語(yǔ)音交互帶來的好處是有效提升語(yǔ)音交互的使用頻率,但融合背后有些問題也需要注意后面有時(shí)間我們?cè)倭摹?/p>

本文由 @ALICS 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 大佬為啥不更新了?

    來自重慶 回復(fù)
  2. 請(qǐng)問一下智能座艙語(yǔ)音交互產(chǎn)品經(jīng)理日常都負(fù)責(zé)哪些工作啊

    來自中國(guó) 回復(fù)
  3. 你好,想申請(qǐng)轉(zhuǎn)載您的文章??梢约游⑿帕囊幌拢琺icrouxcn

    來自北京 回復(fù)