智能座艙——車載語音交互應(yīng)該怎樣更好?
汽車的人機交互模式從早期的機械式物理按鍵到電子遙控,現(xiàn)在發(fā)展到集語音、按鍵、手勢、視覺等多模交互形態(tài),其中,語音交互是目前智能網(wǎng)聯(lián)汽車的標(biāo)配,本文就車載語音交互做個初步梳理。
一、語音交互流程
雖然在日常的用車過程中,通過喚醒詞→發(fā)出指令→車機反饋這樣一個流程進(jìn)行語音交互已經(jīng)習(xí)以為常,但是整個語音交互的流程其實并不像用戶感知的這樣簡單,下面以用戶一句語音交互請求為例,說明汽車語音交互整體鏈路和流程:
- 首先用戶發(fā)起語音請求 (一般通過語音喚醒詞喚醒或者車機按鍵,在此不贅述語音喚醒的過程),車機麥克風(fēng)拾音之后,調(diào)用語音增強能力接口,對音頻做回聲消除、噪聲抑制等語音增強處理,提升音頻的品質(zhì)。
- 語音增強之后的音頻進(jìn)行識別轉(zhuǎn)寫,轉(zhuǎn)寫之后的文本做文本后處理,如標(biāo)點符號的處理、敏感詞的檢測和大小寫規(guī)整等。
- 識別規(guī)整后的文本進(jìn)行語義理解 (包括語義抽取、上下文交互、信源搜索、對話管理等),給出語義理解的結(jié)果。
- 車機端拿到語義結(jié)果之后解析出對應(yīng)的技能名稱、意圖和語義槽,然后根據(jù)對應(yīng)技能交互設(shè)計進(jìn)行交互上的展示和操控 (如UI展示天氣查詢的結(jié)果、TTS播報天氣查詢結(jié)果、控制空調(diào)等)。
具體的流程示意圖如下:
其中,語義理解(NLU)和語音合成(TTS)需要借助人工智能模型,這里的AI能力調(diào)用方式可以有2種方式:車端本地AI能力、云端AI能力。
車端本地AI能力的優(yōu)點是在無網(wǎng)絡(luò)或弱網(wǎng)絡(luò)情況下也能實現(xiàn)用戶語音交互的需求,但是由于是本地化部署方式,成本偏高,后續(xù)的更新維護只能借由OTA方式進(jìn)行升級;
云端AI能力的優(yōu)點是性能和效果更優(yōu)秀,且調(diào)用成本低,維護升級比車端更加便捷。但是,對于汽車的網(wǎng)絡(luò)通訊環(huán)境穩(wěn)定有一定要求,否則會語音交互出現(xiàn)問題,造成不好的用戶體驗。
二、語音交互目前的核心應(yīng)用場景
語音交互極大的解放了駕駛員的注意力,讓越來越多的操作變得簡單快捷,目前語音交互在座艙中的核心應(yīng)用場景如下:
- 地圖導(dǎo)航
- 娛樂信息(音樂、視頻、圖片、新聞等)
- 社交信息(電話、短信、微信等)
- 車機操控(空調(diào)、車窗、座椅等)
根據(jù)語音交互的主從關(guān)系,還分為被動語音交互和主動語音交互,目前大多數(shù)語音交互均是圍繞被動語音交互在各個應(yīng)用場景中的落地,而主動語音交互目前還未進(jìn)行深入的場景發(fā)掘,目前主要是應(yīng)用在駕駛提醒中,比如行車未系安全帶等。不過,隨著被動語音交互的逐漸普及,語音交互的產(chǎn)品亮點開始向主動語音交互拓展,尤其借助人工智能和用戶的行車大數(shù)據(jù)做智能化的提醒建議,例如:
- 車輛油量和電量不足,車機主動發(fā)起語音提示并給出附近的加油站和充電站導(dǎo)航,給到用戶進(jìn)行確認(rèn);
- 車輛即將進(jìn)入隧道,車機主動提示是否要設(shè)置為內(nèi)循環(huán)模式,防止隧道空氣渾濁影響車內(nèi)的空氣質(zhì)量;
- 感知目前大霧天氣,主動提示打開霧燈,等待車主確認(rèn);
- 等等
三、語音交互目前主要的問題
評價一個語音交互體驗的好壞,主要是喊的醒、聽的懂、做得到。這也是人與人交流中的基本狀態(tài),而車載語音交互目前主要的問題還是集中在:
1. 喚醒不及時(誤喚醒)
- 這塊主要是在于受車內(nèi)環(huán)境影響,或者喚醒詞識別模糊不精確。
- 喚醒詞盡量朗朗上口,符合國人口頭用語,比如”你好小明“,切記拗口,因為拗口就容易說錯,”黑化肥會揮發(fā)“;
- 喚醒詞避免方言的干擾,比如”你好,牛奶“,”湖建號“,且喚醒詞不宜過短,例如”啊“;
- 如果是按鍵觸發(fā)語音交互,此時應(yīng)該車內(nèi)音頻通道降低音量,減少環(huán)境音對喚醒的干擾;
- 喚醒詞盡量不和日常對話過程中的常用語重合,例如”回家“”老公“;
2. 對于內(nèi)容理解不準(zhǔn)確
- 問東答西,這里就不展開了。
3. 不知道它哪些能做到
- 以為能做到的說了做不到,以為做不到的說了又做到了。
- 這塊目前是對于語音交互最大的黑盒子,因為無法一目了然知道語音交互可以做什么,導(dǎo)致交互心理障礙。
- 這塊目前沒看到有提供解決方案的,一個好的語音助手是用戶可以大膽的和它溝通,并且都能得到正向反饋,這塊可能是需要借助大模型進(jìn)行用戶意圖揣測,至少保障不能總回答做不到。
四、語音交互+
日常用車中,可能并不是單一交互行為在發(fā)生,更多的是多種交互方式的組合使用。對于語音交互,可以結(jié)合觸控,形成語音+觸控,提升交互操作的準(zhǔn)確性:
語音+視覺:交互更直觀,便于任務(wù)判斷。
語音+手勢:駕駛操控更簡潔自然。
五、語音交互的走向思考
語音交互應(yīng)更多的由被動語音交互轉(zhuǎn)為主動語音交互,甚至全主動語音交互,用戶進(jìn)行確認(rèn)即可,畢竟選擇題比問答題更好做也更容易處理。
頻繁的在車內(nèi)進(jìn)行被動語音交互是個比較詭異的事情,尤其是有不太熟悉的人在車內(nèi),并且每當(dāng)發(fā)起語音交互時,車內(nèi)的人總是不約而同的沉默,挺尷尬的,讓我想到了”小聲點,影響到我使用TNT了“,不過車內(nèi)還是相對封閉有隱私感。對于營運車輛,我?guī)缀鯖]有聽到過一次語音交互,可能就是司機和乘客之間并不熟悉,偶爾來幾句車機語音交互挺怪的。
我自己到目前,用的最多的語音交互就是導(dǎo)航和聽歌,因為這兩者都是需要打字查詢,過程相對來說比較繁瑣,其他情況我只有在新鮮感階段才會用用語音交互。
與其讓用戶發(fā)出指令進(jìn)行交互,不如將絕大多數(shù)適應(yīng)場景的交互直接由車機發(fā)起,比如,上車準(zhǔn)備觸發(fā),問一句”今天目的地是哪里“,畢竟,這樣更自然。
車機根據(jù)駕駛者的駕駛數(shù)據(jù)和說話內(nèi)容,結(jié)合場景推送,形成面向用戶的主動語音交互,是目前語音交互更值得探索的區(qū)域。
本文由 @蕪湖小fly 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
尬不尬取決于車主是I人還是E人,不過自動化指令對I人更友好。