www.日本在线观看视频,欧美日韩精品一区二区,亚洲中文无码亚洲人成网

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

智能座艙——車載語音交互應(yīng)該怎樣更好？

蕪湖小fly

2024-08-01

1 評論 3257 瀏覽 14 收藏

9 分鐘

汽車的人機交互模式從早期的機械式物理按鍵到電子遙控，現(xiàn)在發(fā)展到集語音、按鍵、手勢、視覺等多模交互形態(tài)，其中，語音交互是目前智能網(wǎng)聯(lián)汽車的標(biāo)配，本文就車載語音交互做個初步梳理。

一、語音交互流程

雖然在日常的用車過程中，通過喚醒詞→發(fā)出指令→車機反饋這樣一個流程進(jìn)行語音交互已經(jīng)習(xí)以為常，但是整個語音交互的流程其實并不像用戶感知的這樣簡單，下面以用戶一句語音交互請求為例，說明汽車語音交互整體鏈路和流程：

首先用戶發(fā)起語音請求（一般通過語音喚醒詞喚醒或者車機按鍵，在此不贅述語音喚醒的過程），車機麥克風(fēng)拾音之后，調(diào)用語音增強能力接口，對音頻做回聲消除、噪聲抑制等語音增強處理，提升音頻的品質(zhì)。
語音增強之后的音頻進(jìn)行識別轉(zhuǎn)寫，轉(zhuǎn)寫之后的文本做文本后處理，如標(biāo)點符號的處理、敏感詞的檢測和大小寫規(guī)整等。
識別規(guī)整后的文本進(jìn)行語義理解（包括語義抽取、上下文交互、信源搜索、對話管理等），給出語義理解的結(jié)果。
車機端拿到語義結(jié)果之后解析出對應(yīng)的技能名稱、意圖和語義槽，然后根據(jù)對應(yīng)技能交互設(shè)計進(jìn)行交互上的展示和操控（如UI展示天氣查詢的結(jié)果、TTS播報天氣查詢結(jié)果、控制空調(diào)等）。

具體的流程示意圖如下：

其中，語義理解（NLU）和語音合成（TTS）需要借助人工智能模型，這里的AI能力調(diào)用方式可以有2種方式：車端本地AI能力、云端AI能力。

車端本地AI能力的優(yōu)點是在無網(wǎng)絡(luò)或弱網(wǎng)絡(luò)情況下也能實現(xiàn)用戶語音交互的需求，但是由于是本地化部署方式，成本偏高，后續(xù)的更新維護只能借由OTA方式進(jìn)行升級；

云端AI能力的優(yōu)點是性能和效果更優(yōu)秀，且調(diào)用成本低，維護升級比車端更加便捷。但是，對于汽車的網(wǎng)絡(luò)通訊環(huán)境穩(wěn)定有一定要求，否則會語音交互出現(xiàn)問題，造成不好的用戶體驗。

二、語音交互目前的核心應(yīng)用場景

語音交互極大的解放了駕駛員的注意力，讓越來越多的操作變得簡單快捷，目前語音交互在座艙中的核心應(yīng)用場景如下：

地圖導(dǎo)航
娛樂信息（音樂、視頻、圖片、新聞等）
社交信息（電話、短信、微信等）
車機操控（空調(diào)、車窗、座椅等）

根據(jù)語音交互的主從關(guān)系，還分為被動語音交互和主動語音交互，目前大多數(shù)語音交互均是圍繞被動語音交互在各個應(yīng)用場景中的落地，而主動語音交互目前還未進(jìn)行深入的場景發(fā)掘，目前主要是應(yīng)用在駕駛提醒中，比如行車未系安全帶等。不過，隨著被動語音交互的逐漸普及，語音交互的產(chǎn)品亮點開始向主動語音交互拓展，尤其借助人工智能和用戶的行車大數(shù)據(jù)做智能化的提醒建議，例如：

車輛油量和電量不足，車機主動發(fā)起語音提示并給出附近的加油站和充電站導(dǎo)航，給到用戶進(jìn)行確認(rèn)；
車輛即將進(jìn)入隧道，車機主動提示是否要設(shè)置為內(nèi)循環(huán)模式，防止隧道空氣渾濁影響車內(nèi)的空氣質(zhì)量；
感知目前大霧天氣，主動提示打開霧燈，等待車主確認(rèn)；
等等

三、語音交互目前主要的問題

評價一個語音交互體驗的好壞，主要是喊的醒、聽的懂、做得到。這也是人與人交流中的基本狀態(tài)，而車載語音交互目前主要的問題還是集中在：

1. 喚醒不及時（誤喚醒）

這塊主要是在于受車內(nèi)環(huán)境影響，或者喚醒詞識別模糊不精確。
喚醒詞盡量朗朗上口，符合國人口頭用語，比如”你好小明“，切記拗口，因為拗口就容易說錯，”黑化肥會揮發(fā)“；
喚醒詞避免方言的干擾，比如”你好，牛奶“，”湖建號“，且喚醒詞不宜過短，例如”啊“；
如果是按鍵觸發(fā)語音交互，此時應(yīng)該車內(nèi)音頻通道降低音量，減少環(huán)境音對喚醒的干擾；
喚醒詞盡量不和日常對話過程中的常用語重合，例如”回家“”老公“；

2. 對于內(nèi)容理解不準(zhǔn)確

問東答西，這里就不展開了。

3. 不知道它哪些能做到

以為能做到的說了做不到，以為做不到的說了又做到了。
這塊目前是對于語音交互最大的黑盒子，因為無法一目了然知道語音交互可以做什么，導(dǎo)致交互心理障礙。
這塊目前沒看到有提供解決方案的，一個好的語音助手是用戶可以大膽的和它溝通，并且都能得到正向反饋，這塊可能是需要借助大模型進(jìn)行用戶意圖揣測，至少保障不能總回答做不到。

四、語音交互+

日常用車中，可能并不是單一交互行為在發(fā)生，更多的是多種交互方式的組合使用。對于語音交互，可以結(jié)合觸控，形成語音+觸控，提升交互操作的準(zhǔn)確性：

語音+視覺：交互更直觀，便于任務(wù)判斷。

語音+手勢：駕駛操控更簡潔自然。

五、語音交互的走向思考

語音交互應(yīng)更多的由被動語音交互轉(zhuǎn)為主動語音交互，甚至全主動語音交互，用戶進(jìn)行確認(rèn)即可，畢竟選擇題比問答題更好做也更容易處理。

頻繁的在車內(nèi)進(jìn)行被動語音交互是個比較詭異的事情，尤其是有不太熟悉的人在車內(nèi)，并且每當(dāng)發(fā)起語音交互時，車內(nèi)的人總是不約而同的沉默，挺尷尬的，讓我想到了”小聲點，影響到我使用TNT了“，不過車內(nèi)還是相對封閉有隱私感。對于營運車輛，我?guī)缀鯖]有聽到過一次語音交互，可能就是司機和乘客之間并不熟悉，偶爾來幾句車機語音交互挺怪的。

我自己到目前，用的最多的語音交互就是導(dǎo)航和聽歌，因為這兩者都是需要打字查詢，過程相對來說比較繁瑣，其他情況我只有在新鮮感階段才會用用語音交互。

與其讓用戶發(fā)出指令進(jìn)行交互，不如將絕大多數(shù)適應(yīng)場景的交互直接由車機發(fā)起，比如，上車準(zhǔn)備觸發(fā)，問一句”今天目的地是哪里“，畢竟，這樣更自然。

車機根據(jù)駕駛者的駕駛數(shù)據(jù)和說話內(nèi)容，結(jié)合場景推送，形成面向用戶的主動語音交互，是目前語音交互更值得探索的區(qū)域。

本文由 @蕪湖小fly 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App