車載語音產(chǎn)品需求分析與產(chǎn)品設(shè)計

2 評論 7896 瀏覽 65 收藏 23 分鐘

語音交互是車載系統(tǒng)中常見的一種交互方式,但在用戶體驗上,現(xiàn)在市面上的車載語音交互常常容易受人吐槽。怎么做好相應(yīng)的車載語音產(chǎn)品設(shè)計呢?這篇文章里,作者對車載語音產(chǎn)品從需求分析到原型圖設(shè)計的完整流程做了較為系統(tǒng)的闡述,一起來看看吧。

目錄:

  1. 車載語音產(chǎn)品概述
  2. 需求分析與競品分析
  3. 需求分類與功能設(shè)計
  4. 智能化場景與交互設(shè)計方案
  5. 車載語音VUI與原型圖設(shè)計
  6. 車載語音產(chǎn)品系統(tǒng)架構(gòu)

一、車載語音產(chǎn)品概述

多模交互已經(jīng)成為當(dāng)前智能座艙的標(biāo)配,在車載系統(tǒng)中同時使用多種交互方式,其中之一就是語音交互。語音交互可以與其他交互方式(如觸摸屏、物理按鈕等)結(jié)合,提供更豐富和便捷的用戶體驗,用戶可以更方便地進(jìn)行操作,尤其在駕駛過程中可以更專注于道路,提升安全性和便捷性。

同時,語音交互也可以與其他交互方式相結(jié)合,提供更靈活的操作選擇,滿足用戶的不同需求。

1. 車載語音交互具有以下特點和優(yōu)勢

車載語音是指通過語音識別技術(shù)(ASR)將駕駛員或其他乘員的語音指令轉(zhuǎn)化為可理解的指令,然后通過語音合成技術(shù)(TTS)將系統(tǒng)的反饋信息以語音形式傳達(dá)給對應(yīng)人員。

  1. 提升駕駛安全性:駕駛員可以通過語音指令完成操作,無需分散注意力去觸摸屏幕或按鈕,減少駕駛風(fēng)險;
  2. 提供便捷的操作方式:語音交互能夠提供更自然、更直觀的人機(jī)交互方式,讓駕駛員更輕松地控制車輛功能和獲取信息;
  3. 支持多任務(wù)處理:通過語音交互,駕駛員可以同時進(jìn)行駕駛和操作,無需停下來或轉(zhuǎn)移注意力;
  4. 個性化體驗:車載語音交互可以根據(jù)駕駛員的習(xí)慣和偏好進(jìn)行個性化設(shè)置,提供更加貼合用戶需求的服務(wù)和建議。

2. 車載語音產(chǎn)品腦圖框架

二、需求與競品分析

1. 車載語音交互痛點分析

語音喚醒率差,識別率差,NLP理解能力差、多輪對話不靈活,離線功能少,目前大部分的車載語音是被吐槽頻率最高的一個功能,基本上可以說是雞肋。

下面是用戶痛點整理:

2. 基于實際駕駛情景的分析

3. 車載語音體驗地圖

4. 車載語音產(chǎn)品的競品分析

頭部造車新勢力將語音交互功能作為其產(chǎn)品智能化與差異化的核心體現(xiàn),因此通常會選擇自研搭建智能語音技術(shù)框架,以提高智能語音助手的功能迭代與優(yōu)化的頻率以及便捷性。

從當(dāng)前各車企語音交互功能的智能化配置來看,造車新勢力的語音交互功能的智能化水平依然存在一定優(yōu)勢。傳統(tǒng)主機(jī)廠通常選擇外部合作的發(fā)展模式,但頭部的傳統(tǒng)主機(jī)廠也開始逐漸發(fā)力,全雙工、多音區(qū)覆蓋等核心功能也已搭載上車。

部分車企語音交互功能智能化配置:

1)小鵬首創(chuàng)全系統(tǒng)功能覆蓋、連續(xù)對話等,智能化表現(xiàn)成其標(biāo)簽

小鵬基于全車揚(yáng)聲器分布,推出的全系統(tǒng)功能覆蓋、連續(xù)對話等多種行業(yè)首創(chuàng)功能為其取得行業(yè)領(lǐng)先地位,符合其極客定位。

通過“OTA+云端”的高頻迭代方式,實現(xiàn)用戶無感情況下的語音助手優(yōu)化。語音助手小P更像是用戶專屬的助理與朋友,通過定制裝扮、多種音色選擇與定制化語音暗號建立小P與客戶的獨有聯(lián)系。

小鵬將繼續(xù)優(yōu)化提升語音交互的基礎(chǔ)能力與語音包與應(yīng)用場景的豐富度,同時也將座艙內(nèi)部分語音相關(guān)的軟件應(yīng)用通過“軟件收費”的方式進(jìn)行開放。

2)理想智能語音交互產(chǎn)品“理想同學(xué)”另辟蹊徑,定位契合車型定位

語音助手“理想同學(xué)”的產(chǎn)品定位完美契合理想ONE中高端家庭用車的車型定位,以全車語音覆蓋、座艙全成員平等交互權(quán)利等特點,滿足家庭出行場景的語音交互需求。

理想同學(xué)基于其產(chǎn)品用戶畫像,深耕4音區(qū)以及開拓多音區(qū)覆蓋,使車內(nèi)所有人員均可通過語音進(jìn)行人機(jī)交互,同時也將從整車交互的角度進(jìn)行場景化的思考,貼合家庭出行用戶使用習(xí)慣。

3)蔚來賦予NOMI具有情感的擬人化形象,助其成為“蔚來的靈魂

蔚來智能語音交互助手NOMI,源于蔚來對于語音交互體驗的理解-“Know me”,其集成了語音交互系統(tǒng)和智能情感引擎,被賦予了具有感情的擬人化形象,使蔚來的汽車產(chǎn)品從機(jī)器演變成了具有生命的駕乘伙伴。

蔚來的NOMI智能語音交互助手的語音技術(shù)是在科大訊飛的支持基礎(chǔ)上進(jìn)行了個性化設(shè)計與改造。NOMI聽音辨位免打擾獨立音區(qū)交互等功能,可幫助其后排乘客進(jìn)行語音交互的體驗。

三、需求分類與功能設(shè)計

1. 車載語音產(chǎn)品場景控制劃分

車載交互的場景控制,包括語音助手情景模式、語音助手推薦、全場景語音控制。

2. 車載語音系統(tǒng)交互功能劃分

按照語音識別的交互功能整個鏈路來進(jìn)行分類,包括語音助手形象、助手感知、語音助手交互、語音助手聲音。

3. 功能設(shè)計

1)語音助手形象設(shè)計

不同場景下的語音交互助手的形象不同,比如在休眠狀態(tài)就是一個波浪形,在設(shè)置界面是一個卡通或者人形,這些都是基于車輛定位,比如五菱車型就是設(shè)置卡通,萌寵的形象。如果是商務(wù)車,可以設(shè)置比較穩(wěn)重的形象。

  • 卡通化的語音形象:在親和力上有很大的優(yōu)勢能夠被用戶快速的接受,但是辨識度上可能存在同質(zhì)化嚴(yán)重問題,所以在效果表現(xiàn)力上面有欠缺,也較難表達(dá)車企的品牌理念。
  • 抽象化的語音形象:則通過造型的多變和動效豐富,從而在設(shè)計感和效果上相對突出,在傳達(dá)性上也不滿意,用戶不容易知道當(dāng)前語音是處在一個什么狀態(tài)下,在親和力上遠(yuǎn)也不如卡通化形象。

2)車載語音助手感知

語音助手感知,更多的層面類似于人的眼睛和耳朵,通過聽和看兩個感覺器官來進(jìn)行內(nèi)容輸入。

也可以通過多麥克風(fēng)及回音消除方案進(jìn)行設(shè)計,多音區(qū)的控制,硬件通過A2B的麥克風(fēng)布局,同時軟件進(jìn)行界面設(shè)置,是否允許多音區(qū)喚醒。

喚醒方式分實體按鈕喚醒與虛擬按鈕喚醒,實體按鈕,好處就是能夠給到用戶觸覺上的反饋,用戶感知性強(qiáng);虛擬按鈕,此類的按鈕一般都會在中控屏幕上面,喚醒的方式是點擊。

語音喚醒詞有兩種,一種是語音公司默認(rèn)的,這個是訓(xùn)練過的模型,男生、女生、老人、小孩都適合。一種是自定義喚醒詞,需要付費給語音公司,要么他幫你訓(xùn)練,車上其他乘客(包括車上其他陌生乘客),如果不付費,就是錄入自己家人的語音,這樣才識別率會高一些。

3)車載語音助手交互

語音助手交互更多類似于人的大腦,進(jìn)行多模態(tài)交互,多輪交互等等。

構(gòu)建對話交互平臺,解決用戶三大對話類型,獲取內(nèi)容/服務(wù)。任務(wù)型和問答型對話,用戶需要盡快的得到想要反饋和解決方案,并且快速的完成,此類任務(wù)的反饋要求還需要清晰、簡單明了,閑聊型的任務(wù)帶有的目的性不是很強(qiáng),但是對于趣味性要求會高。

4)車載語音助手交互/多模態(tài)

主流的車型上都配備有多模態(tài)的交互方式包括觸摸、語音、人臉、手勢、聲紋、指紋、燈光、手表等等。目前主流的是聲音+手勢會比較多長安汽車的視線喚醒、長城汽車的聲紋識別。

另外,還有語音+車內(nèi)+車外攝像頭交互方式,奔馳“MBUX Travel Knowledge”–駕駛員可通過視線鎖定一棟建筑物,并說:“我想知道這棟樓的用途即可獲取相關(guān)信息。”該功能由Cerence Look提供技術(shù)支撐。

語音+唇動識別與唇動識別融合下的語音交互將極大提高語音識別性能,不同語言下的唇部動作不同,在嘈雜的座艙環(huán)境下即使系統(tǒng)接收到聲音很小,結(jié)合唇部動作也可以保障較高的語音識別率。

5)車載語音助手交互/UGC用戶定義

車主可通過手機(jī)APP自定義語音指令及對應(yīng)的操作,在不影響整車控!功能與行車安全的前提下,增加語義定制功能,用戶可根據(jù)個人喜好與場景化需求,靈活設(shè)置語音交互對話內(nèi)容,增加個性化和趣味性,此項功能可關(guān)閉。比如特斯拉的彩蛋屁,可以設(shè)置一個語音,小P放一個屁,回復(fù)就是一個屁的聲音,非常有意思。

6)車載語音助手聲音選擇

語音助手聲音更多的是輸出部分,類似于有“郭德綱”“林志玲”等聲音,也可以個性化錄制自己的聲音。音色切換指語音系統(tǒng)除了默認(rèn)語音聲音外,可提供其他聲音供用戶選擇,如明星、游戲人物的聲音等??梢栽O(shè)計親和女聲、知性女聲、磁性男聲、稚嫩童聲、熱情女聲五種音色供選擇,可以聯(lián)網(wǎng)選擇明星播報語音。

四、智能化場景與交互設(shè)計方案

1. 車載音頻的焦點優(yōu)先級設(shè)計

1)獨占交互

在獨占交互中,一次只允許一個應(yīng)用持有焦點。因此,在傳入的焦點請求被授予焦點的同時,現(xiàn)有的焦點持有者會失去焦點。例如,用戶在現(xiàn)有應(yīng)用中播放音樂時啟動新的音樂應(yīng)用。由于這兩個應(yīng)用都在播放媒體內(nèi)容,因此一次只允許其中一個應(yīng)用持有焦點;

2)拒絕交互

在拒絕交互中,傳入的請求一律會遭到拒絕。嘗試在通話過程中播放音樂就是拒絕交互的一個示例。在這個例子中,如果撥號器正為某個通話持有音頻焦點,而另一個應(yīng)用要請求焦點來播放音樂,則音樂應(yīng)用發(fā)出的請求會收到AUDIOFOCUS REQUEST FAILED 響應(yīng)。由于焦點請求遭拒,因此系統(tǒng)不會向當(dāng)前焦點持有者分派任何類型的焦點丟失事件;

3)并發(fā)交互

AAOS 最獨特的地方就是并發(fā)交互。在這種交互模式下,請求音頻焦點的車載應(yīng)用可與其他應(yīng)用同時持有焦點。

2. 處理并發(fā)聲音流

雖然并發(fā)交互適用于許多實用應(yīng)用,但原始設(shè)備制造商(OEM)必須在硬件級別跨輸出設(shè)備實現(xiàn)混音和降音(安卓里面稱為閃避)。

因此,建議僅將存在并發(fā)播放的 CarAudioContext 路由到無法與其同時播放的CarAudioContext 的同一輸出設(shè)備。通過為并發(fā)聲音流提供單獨的輸出設(shè)備,HAL便可在混音之前對其中一個聲音流進(jìn)行閃避。

例如,如果同時提供導(dǎo)航提示音和媒體播放聲音,媒體聲音流的增益會暫時降低(閃避),以便用戶能更清楚地聽到導(dǎo)航提示。

AndroidCar音頻焦點-智能座艙交互矩陣實例表

3. 車載語音智能化場景分析

1)場景控制

車載交互的場景控制,包括情景模式預(yù)制、助手推薦、全場景語音控制,語音產(chǎn)品經(jīng)理需要重點掌握的是場景推薦模式設(shè)計、聚合媒體的全部功能、語義表單的設(shè)計、多輪對話的設(shè)計。

2)車載聚合媒體內(nèi)容

作為車載語音產(chǎn)品經(jīng)理,把聚合媒體的所有菜單內(nèi)容都理解一遍,這些內(nèi)容的語音交互場景是什么,才能知道語義表的設(shè)計以及邏輯框架的設(shè)計。

3)車載場景智能化推薦

場景智能化推薦,80%是主動交互的一種,未來語音交互也是從被動走向主動,需要產(chǎn)品經(jīng)理非常強(qiáng)的場景智能化的設(shè)計能力,做到既不打擾用戶,又能給用戶更好的體驗。

上車問候:上車的時候有比較常見的就是開機(jī)動畫,儀表自檢,場景推薦可以是節(jié)假日彩蛋、個性化開機(jī)語、生日提醒等;場景智能化推薦的上車相關(guān)內(nèi)容,包括有主體的喚醒、運營事件、二十四節(jié)氣提醒、氛圍燈聯(lián)動等等;

實況關(guān)懷、媒體推薦:場景智能化推薦的實況關(guān)懷在一些汽車上已經(jīng)實現(xiàn),比如哈佛初戀的車型,包括加班關(guān)懷和限號提醒媒體推薦主要是智能歌單、電臺推薦等等;

其他還有目的地推薦、美食推薦、離車關(guān)懷、故障提醒、電量/油量提醒、疲勞駕駛,智能車控、乘客服務(wù)等等。

4)車載語義功能表

(省略)因Excel表格內(nèi)容太多,放進(jìn)來影響文章可讀性,所以就不展示了。語義功能表包括:通訊模塊、導(dǎo)航模塊、媒體模塊、查詢模塊、車輛控制、語音技能、自動泊車、DMS、駕駛相關(guān)設(shè)置、香氛控制等。

五、車載語音VUI與原型圖設(shè)計

1. 對話系統(tǒng)設(shè)計

對話設(shè)計是基于人們的對話的設(shè)計語言,它集合多個設(shè)計的內(nèi)容,其中包括語音用戶界面設(shè)計、交互設(shè)計視覺設(shè)計、動畫設(shè)計、語音對話腳本設(shè)計、乃至還有音頻設(shè)計增加語音助手的靈動性。

1)語音交互原理

為了更能理解用戶的需求,需要進(jìn)行多輪對話的設(shè)計。

2)語音交互流程

第二步對話管理,主要完成對話狀態(tài)的維護(hù)(dialog state tracing,DST),生成系統(tǒng)決策(dialogpolicy),作為接口與人物模型進(jìn)行匹配、提供語義表達(dá)的期望值(expections for interpretation)、分發(fā)任務(wù)記錄當(dāng)前queryID和pageID。

當(dāng)前是用戶的一次對話需要經(jīng)歷的全部流程,如果需要多次的對話,就要不斷的維護(hù)對話棧,并且對話棧要匹配當(dāng)前的pagelD,才能幫助用戶經(jīng)歷多次跳轉(zhuǎn)都能到達(dá)預(yù)期的頁面,所以多輪交互更加復(fù)雜和難以掌控。

3)注意事項

語音對話系統(tǒng)設(shè)計包括語音用戶界面設(shè)計、交互設(shè)計、視覺設(shè)計、動畫設(shè)計、語音對話腳本設(shè)計。

對話系統(tǒng)設(shè)計的原則:語音簡短化、響應(yīng)等待設(shè)計、避免過多選擇、不要假設(shè)用戶知道該做什么語言文案設(shè)計一致性、不要信息轟炸用戶、避免使用專業(yè)術(shù)語。多輪對話設(shè)計,主要需要二次選擇和確認(rèn),對搜索結(jié)果排序。

2. 車載語音VUI設(shè)計

1)GUI與VUI的特點對比

VUI在某些場景下具有非常明顯的優(yōu)勢,但是也需要比較好的設(shè)計邏輯。

綠色表示VUI優(yōu)勢明顯

2)語音VUI交互設(shè)計規(guī)范

目前業(yè)界未存在公認(rèn)的語音交互的設(shè)計規(guī)范標(biāo)準(zhǔn),業(yè)內(nèi)各家公司都處于前瞻、摸索、引導(dǎo)的階段盡管語音交互被看做是一種區(qū)別GUI的交互方式,但基本的可用性原則依舊適用于衡量用戶體驗的質(zhì)量。

3)VUI的設(shè)計原則

VUI的設(shè)計原則相關(guān)內(nèi)容,主要是社會原則、感性原則、理性原則:

3. 車載語音VUI邏輯與原型圖設(shè)計

下圖是車載語音撥打電話的主流程圖:

六、車載語音產(chǎn)品系統(tǒng)架構(gòu)

1. 智能座艙域控制高通8155整機(jī)框架圖

主流的8155方案是一芯帶5屏,這里有液晶儀表、中控導(dǎo)航、后排頭枕顯示屏、同時有語音mic的輸入、U盤、wifi、藍(lán)牙、外接喇叭的輸出。

2. 語音系統(tǒng)架構(gòu)

語音系統(tǒng)架構(gòu)交互,是AI交互中的其中一個環(huán)節(jié),更多的是整體的解決方案是需要算力、平臺解決方案。

3. 常見車云通訊協(xié)議

以上是車載語音產(chǎn)品的需求分析到原型圖設(shè)計的完整流程(完結(jié))。

本文由 @ALICS 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 太干了,贊

    來自上海 回復(fù)
  2. 配圖有些糊,請問有清晰版本嗎?

    來自上海 回復(fù)