日韩在线视频一区,国产精品欧美福利久久,久久精品国产欧美亚洲人人爽

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

車載語音產(chǎn)品需求分析與產(chǎn)品設(shè)計

ALICS

2024-02-26

2 評論 7896 瀏覽 65 收藏

23 分鐘

語音交互是車載系統(tǒng)中常見的一種交互方式，但在用戶體驗上，現(xiàn)在市面上的車載語音交互常常容易受人吐槽。怎么做好相應(yīng)的車載語音產(chǎn)品設(shè)計呢？這篇文章里，作者對車載語音產(chǎn)品從需求分析到原型圖設(shè)計的完整流程做了較為系統(tǒng)的闡述，一起來看看吧。

車載語音產(chǎn)品概述
需求分析與競品分析
需求分類與功能設(shè)計
智能化場景與交互設(shè)計方案
車載語音VUI與原型圖設(shè)計
車載語音產(chǎn)品系統(tǒng)架構(gòu)

一、車載語音產(chǎn)品概述

多模交互已經(jīng)成為當(dāng)前智能座艙的標(biāo)配，在車載系統(tǒng)中同時使用多種交互方式，其中之一就是語音交互。語音交互可以與其他交互方式（如觸摸屏、物理按鈕等）結(jié)合，提供更豐富和便捷的用戶體驗，用戶可以更方便地進(jìn)行操作，尤其在駕駛過程中可以更專注于道路，提升安全性和便捷性。

同時，語音交互也可以與其他交互方式相結(jié)合，提供更靈活的操作選擇，滿足用戶的不同需求。

1. 車載語音交互具有以下特點和優(yōu)勢

車載語音是指通過語音識別技術(shù)（ASR）將駕駛員或其他乘員的語音指令轉(zhuǎn)化為可理解的指令，然后通過語音合成技術(shù)（TTS）將系統(tǒng)的反饋信息以語音形式傳達(dá)給對應(yīng)人員。

提升駕駛安全性：駕駛員可以通過語音指令完成操作，無需分散注意力去觸摸屏幕或按鈕，減少駕駛風(fēng)險；
提供便捷的操作方式：語音交互能夠提供更自然、更直觀的人機(jī)交互方式，讓駕駛員更輕松地控制車輛功能和獲取信息；
支持多任務(wù)處理：通過語音交互，駕駛員可以同時進(jìn)行駕駛和操作，無需停下來或轉(zhuǎn)移注意力；
個性化體驗：車載語音交互可以根據(jù)駕駛員的習(xí)慣和偏好進(jìn)行個性化設(shè)置，提供更加貼合用戶需求的服務(wù)和建議。

2. 車載語音產(chǎn)品腦圖框架

二、需求與競品分析

1. 車載語音交互痛點分析

語音喚醒率差，識別率差，NLP理解能力差、多輪對話不靈活，離線功能少，目前大部分的車載語音是被吐槽頻率最高的一個功能，基本上可以說是雞肋。

下面是用戶痛點整理：

2. 基于實際駕駛情景的分析

3. 車載語音體驗地圖

4. 車載語音產(chǎn)品的競品分析

頭部造車新勢力將語音交互功能作為其產(chǎn)品智能化與差異化的核心體現(xiàn)，因此通常會選擇自研搭建智能語音技術(shù)框架，以提高智能語音助手的功能迭代與優(yōu)化的頻率以及便捷性。

從當(dāng)前各車企語音交互功能的智能化配置來看，造車新勢力的語音交互功能的智能化水平依然存在一定優(yōu)勢。傳統(tǒng)主機(jī)廠通常選擇外部合作的發(fā)展模式，但頭部的傳統(tǒng)主機(jī)廠也開始逐漸發(fā)力，全雙工、多音區(qū)覆蓋等核心功能也已搭載上車。

部分車企語音交互功能智能化配置：

1）小鵬首創(chuàng)全系統(tǒng)功能覆蓋、連續(xù)對話等，智能化表現(xiàn)成其標(biāo)簽

小鵬基于全車揚(yáng)聲器分布，推出的全系統(tǒng)功能覆蓋、連續(xù)對話等多種行業(yè)首創(chuàng)功能為其取得行業(yè)領(lǐng)先地位，符合其極客定位。

通過“OTA+云端”的高頻迭代方式，實現(xiàn)用戶無感情況下的語音助手優(yōu)化。語音助手小P更像是用戶專屬的助理與朋友，通過定制裝扮、多種音色選擇與定制化語音暗號建立小P與客戶的獨有聯(lián)系。

小鵬將繼續(xù)優(yōu)化提升語音交互的基礎(chǔ)能力與語音包與應(yīng)用場景的豐富度，同時也將座艙內(nèi)部分語音相關(guān)的軟件應(yīng)用通過“軟件收費”的方式進(jìn)行開放。

2）理想智能語音交互產(chǎn)品“理想同學(xué)”另辟蹊徑，定位契合車型定位

語音助手“理想同學(xué)”的產(chǎn)品定位完美契合理想ONE中高端家庭用車的車型定位，以全車語音覆蓋、座艙全成員平等交互權(quán)利等特點，滿足家庭出行場景的語音交互需求。

理想同學(xué)基于其產(chǎn)品用戶畫像，深耕4音區(qū)以及開拓多音區(qū)覆蓋，使車內(nèi)所有人員均可通過語音進(jìn)行人機(jī)交互，同時也將從整車交互的角度進(jìn)行場景化的思考，貼合家庭出行用戶使用習(xí)慣。

3）蔚來賦予NOMI具有情感的擬人化形象，助其成為“蔚來的靈魂

蔚來智能語音交互助手NOMI，源于蔚來對于語音交互體驗的理解-“Know me”，其集成了語音交互系統(tǒng)和智能情感引擎，被賦予了具有感情的擬人化形象，使蔚來的汽車產(chǎn)品從機(jī)器演變成了具有生命的駕乘伙伴。

蔚來的NOMI智能語音交互助手的語音技術(shù)是在科大訊飛的支持基礎(chǔ)上進(jìn)行了個性化設(shè)計與改造。NOMI聽音辨位免打擾獨立音區(qū)交互等功能，可幫助其后排乘客進(jìn)行語音交互的體驗。

三、需求分類與功能設(shè)計

1. 車載語音產(chǎn)品場景控制劃分

車載交互的場景控制，包括語音助手情景模式、語音助手推薦、全場景語音控制。

2. 車載語音系統(tǒng)交互功能劃分

按照語音識別的交互功能整個鏈路來進(jìn)行分類，包括語音助手形象、助手感知、語音助手交互、語音助手聲音。

3. 功能設(shè)計

1）語音助手形象設(shè)計

不同場景下的語音交互助手的形象不同，比如在休眠狀態(tài)就是一個波浪形，在設(shè)置界面是一個卡通或者人形,這些都是基于車輛定位，比如五菱車型就是設(shè)置卡通，萌寵的形象。如果是商務(wù)車，可以設(shè)置比較穩(wěn)重的形象。

卡通化的語音形象：在親和力上有很大的優(yōu)勢能夠被用戶快速的接受，但是辨識度上可能存在同質(zhì)化嚴(yán)重問題，所以在效果表現(xiàn)力上面有欠缺，也較難表達(dá)車企的品牌理念。
抽象化的語音形象：則通過造型的多變和動效豐富，從而在設(shè)計感和效果上相對突出，在傳達(dá)性上也不滿意，用戶不容易知道當(dāng)前語音是處在一個什么狀態(tài)下，在親和力上遠(yuǎn)也不如卡通化形象。

2）車載語音助手感知

語音助手感知，更多的層面類似于人的眼睛和耳朵，通過聽和看兩個感覺器官來進(jìn)行內(nèi)容輸入。

也可以通過多麥克風(fēng)及回音消除方案進(jìn)行設(shè)計，多音區(qū)的控制，硬件通過A2B的麥克風(fēng)布局，同時軟件進(jìn)行界面設(shè)置，是否允許多音區(qū)喚醒。

喚醒方式分實體按鈕喚醒與虛擬按鈕喚醒，實體按鈕，好處就是能夠給到用戶觸覺上的反饋，用戶感知性強(qiáng)；虛擬按鈕，此類的按鈕一般都會在中控屏幕上面，喚醒的方式是點擊。

語音喚醒詞有兩種，一種是語音公司默認(rèn)的，這個是訓(xùn)練過的模型，男生、女生、老人、小孩都適合。一種是自定義喚醒詞，需要付費給語音公司，要么他幫你訓(xùn)練，車上其他乘客（包括車上其他陌生乘客），如果不付費，就是錄入自己家人的語音，這樣才識別率會高一些。

3）車載語音助手交互

語音助手交互更多類似于人的大腦，進(jìn)行多模態(tài)交互，多輪交互等等。

構(gòu)建對話交互平臺，解決用戶三大對話類型，獲取內(nèi)容/服務(wù)。任務(wù)型和問答型對話，用戶需要盡快的得到想要反饋和解決方案，并且快速的完成，此類任務(wù)的反饋要求還需要清晰、簡單明了，閑聊型的任務(wù)帶有的目的性不是很強(qiáng)，但是對于趣味性要求會高。

4）車載語音助手交互/多模態(tài)

主流的車型上都配備有多模態(tài)的交互方式包括觸摸、語音、人臉、手勢、聲紋、指紋、燈光、手表等等。目前主流的是聲音+手勢會比較多長安汽車的視線喚醒、長城汽車的聲紋識別。

另外，還有語音+車內(nèi)+車外攝像頭交互方式，奔馳“MBUX Travel Knowledge”–駕駛員可通過視線鎖定一棟建筑物，并說：“我想知道這棟樓的用途即可獲取相關(guān)信息。”該功能由Cerence Look提供技術(shù)支撐。

語音+唇動識別與唇動識別融合下的語音交互將極大提高語音識別性能，不同語言下的唇部動作不同，在嘈雜的座艙環(huán)境下即使系統(tǒng)接收到聲音很小，結(jié)合唇部動作也可以保障較高的語音識別率。

5）車載語音助手交互/UGC用戶定義

車主可通過手機(jī)APP自定義語音指令及對應(yīng)的操作，在不影響整車控!功能與行車安全的前提下，增加語義定制功能，用戶可根據(jù)個人喜好與場景化需求，靈活設(shè)置語音交互對話內(nèi)容，增加個性化和趣味性，此項功能可關(guān)閉。比如特斯拉的彩蛋屁，可以設(shè)置一個語音，小P放一個屁，回復(fù)就是一個屁的聲音，非常有意思。

6）車載語音助手聲音選擇

語音助手聲音更多的是輸出部分，類似于有“郭德綱”“林志玲”等聲音，也可以個性化錄制自己的聲音。音色切換指語音系統(tǒng)除了默認(rèn)語音聲音外，可提供其他聲音供用戶選擇，如明星、游戲人物的聲音等?？梢栽O(shè)計親和女聲、知性女聲、磁性男聲、稚嫩童聲、熱情女聲五種音色供選擇，可以聯(lián)網(wǎng)選擇明星播報語音。

四、智能化場景與交互設(shè)計方案

1. 車載音頻的焦點優(yōu)先級設(shè)計

1）獨占交互

在獨占交互中，一次只允許一個應(yīng)用持有焦點。因此，在傳入的焦點請求被授予焦點的同時，現(xiàn)有的焦點持有者會失去焦點。例如，用戶在現(xiàn)有應(yīng)用中播放音樂時啟動新的音樂應(yīng)用。由于這兩個應(yīng)用都在播放媒體內(nèi)容，因此一次只允許其中一個應(yīng)用持有焦點；

2）拒絕交互

在拒絕交互中，傳入的請求一律會遭到拒絕。嘗試在通話過程中播放音樂就是拒絕交互的一個示例。在這個例子中，如果撥號器正為某個通話持有音頻焦點，而另一個應(yīng)用要請求焦點來播放音樂，則音樂應(yīng)用發(fā)出的請求會收到AUDIOFOCUS REQUEST FAILED 響應(yīng)。由于焦點請求遭拒，因此系統(tǒng)不會向當(dāng)前焦點持有者分派任何類型的焦點丟失事件；

3）并發(fā)交互

AAOS 最獨特的地方就是并發(fā)交互。在這種交互模式下，請求音頻焦點的車載應(yīng)用可與其他應(yīng)用同時持有焦點。

2. 處理并發(fā)聲音流

雖然并發(fā)交互適用于許多實用應(yīng)用，但原始設(shè)備制造商（OEM）必須在硬件級別跨輸出設(shè)備實現(xiàn)混音和降音（安卓里面稱為閃避）。

因此，建議僅將存在并發(fā)播放的 CarAudioContext 路由到無法與其同時播放的CarAudioContext 的同一輸出設(shè)備。通過為并發(fā)聲音流提供單獨的輸出設(shè)備，HAL便可在混音之前對其中一個聲音流進(jìn)行閃避。

例如，如果同時提供導(dǎo)航提示音和媒體播放聲音，媒體聲音流的增益會暫時降低（閃避），以便用戶能更清楚地聽到導(dǎo)航提示。

AndroidCar音頻焦點-智能座艙交互矩陣實例表

3. 車載語音智能化場景分析

1）場景控制

車載交互的場景控制，包括情景模式預(yù)制、助手推薦、全場景語音控制，語音產(chǎn)品經(jīng)理需要重點掌握的是場景推薦模式設(shè)計、聚合媒體的全部功能、語義表單的設(shè)計、多輪對話的設(shè)計。

2）車載聚合媒體內(nèi)容

作為車載語音產(chǎn)品經(jīng)理，把聚合媒體的所有菜單內(nèi)容都理解一遍，這些內(nèi)容的語音交互場景是什么，才能知道語義表的設(shè)計以及邏輯框架的設(shè)計。

3）車載場景智能化推薦

場景智能化推薦，80%是主動交互的一種，未來語音交互也是從被動走向主動，需要產(chǎn)品經(jīng)理非常強(qiáng)的場景智能化的設(shè)計能力，做到既不打擾用戶，又能給用戶更好的體驗。

上車問候：上車的時候有比較常見的就是開機(jī)動畫，儀表自檢，場景推薦可以是節(jié)假日彩蛋、個性化開機(jī)語、生日提醒等；場景智能化推薦的上車相關(guān)內(nèi)容，包括有主體的喚醒、運營事件、二十四節(jié)氣提醒、氛圍燈聯(lián)動等等；

實況關(guān)懷、媒體推薦：場景智能化推薦的實況關(guān)懷在一些汽車上已經(jīng)實現(xiàn)，比如哈佛初戀的車型，包括加班關(guān)懷和限號提醒媒體推薦主要是智能歌單、電臺推薦等等；

其他還有目的地推薦、美食推薦、離車關(guān)懷、故障提醒、電量/油量提醒、疲勞駕駛，智能車控、乘客服務(wù)等等。

4）車載語義功能表

（省略）因Excel表格內(nèi)容太多，放進(jìn)來影響文章可讀性，所以就不展示了。語義功能表包括：通訊模塊、導(dǎo)航模塊、媒體模塊、查詢模塊、車輛控制、語音技能、自動泊車、DMS、駕駛相關(guān)設(shè)置、香氛控制等。

五、車載語音VUI與原型圖設(shè)計

1. 對話系統(tǒng)設(shè)計

對話設(shè)計是基于人們的對話的設(shè)計語言，它集合多個設(shè)計的內(nèi)容，其中包括語音用戶界面設(shè)計、交互設(shè)計視覺設(shè)計、動畫設(shè)計、語音對話腳本設(shè)計、乃至還有音頻設(shè)計增加語音助手的靈動性。

1）語音交互原理

為了更能理解用戶的需求，需要進(jìn)行多輪對話的設(shè)計。

2）語音交互流程

第二步對話管理，主要完成對話狀態(tài)的維護(hù)（dialog state tracing,DST），生成系統(tǒng)決策（dialogpolicy），作為接口與人物模型進(jìn)行匹配、提供語義表達(dá)的期望值（expections for interpretation）、分發(fā)任務(wù)記錄當(dāng)前queryID和pageID。

當(dāng)前是用戶的一次對話需要經(jīng)歷的全部流程，如果需要多次的對話，就要不斷的維護(hù)對話棧，并且對話棧要匹配當(dāng)前的pagelD，才能幫助用戶經(jīng)歷多次跳轉(zhuǎn)都能到達(dá)預(yù)期的頁面，所以多輪交互更加復(fù)雜和難以掌控。

3）注意事項

語音對話系統(tǒng)設(shè)計包括語音用戶界面設(shè)計、交互設(shè)計、視覺設(shè)計、動畫設(shè)計、語音對話腳本設(shè)計。

對話系統(tǒng)設(shè)計的原則：語音簡短化、響應(yīng)等待設(shè)計、避免過多選擇、不要假設(shè)用戶知道該做什么語言文案設(shè)計一致性、不要信息轟炸用戶、避免使用專業(yè)術(shù)語。多輪對話設(shè)計，主要需要二次選擇和確認(rèn)，對搜索結(jié)果排序。