淺說語音用戶界面:VUI+GUI

文章對語音用戶界面進(jìn)行了相關(guān)的分析解讀,希望對你有所幫助。
語音用戶界面(VUI)
A?voice-user interface?(VUI)?makes human interaction with computers possible through a voice/speech platform in order to initiate an?automated?service or process.
VUI是任何語音應(yīng)用程序/設(shè)備的接口。從Siri 、Amazon echo Alexa、google home 、小冰、國內(nèi)的叮咚、天貓精力、小愛同學(xué)、你好問問以及各種你聽說過的,沒聽說過的。然而,隨著技術(shù)的進(jìn)步,從DuerOS的 聽清、聽懂、滿足。
以及喚醒萬物,用白話說,聽清靠麥克風(fēng)陣列來拾音;聽懂靠自然語言處理技術(shù);滿足靠數(shù)據(jù);?語音的交互呈現(xiàn)給用戶的主要是說和聽;語音交互,都是瞬態(tài)或不長久存在的信息,用戶聽到了,然后就消失了,用戶沒有可能去回顧設(shè)備的輸出,聽覺界面的這種瞬態(tài)特征對用戶知識有一定的要求。而VUI 設(shè)計(jì)的原則之一就是不要讓用戶有認(rèn)知負(fù)荷,不要挑戰(zhàn)人類短暫的記憶能力。
語音,用戶的直接交互的界面,人類與設(shè)備交互的邏輯會有很大的影響。而好的用戶體驗(yàn)會帶來用戶對設(shè)備的認(rèn)可及多次使用;滿足用戶意圖。“我知道設(shè)備聽清楚了,也聽懂了,還給我提供了幫助,我不會感到迷失與焦慮”。很簡單,我還會在使用它。反之,聽不清,聽不懂,用戶會責(zé)備這個設(shè)備,覺得它很SB ,從而拒絕使用。最早的Siri為什么沒有火起來也是技術(shù)條件不成熟,所以用戶并不買賬。
所以,在這個快的時代,現(xiàn)在的人們喜歡快餐,人們對新的產(chǎn)品沒有耐心,因此,幾乎沒有容錯的余地:VUI需要可靠地響應(yīng)輸入與輸出,否則將被用戶拒絕且拋棄?;锇閭兌际褂眠^10086吧,有沒有覺得一串的按1 按2 再按* 讓你有種砸掉手機(jī)的沖動? 是的這其實(shí)某種程度上來講是單方的語音交互;它一直在挑戰(zhàn)人類的耐心。
VUI設(shè)計(jì)是一個以用戶心理模型為中心的設(shè)計(jì)過程。目的是為了給用戶最優(yōu)的經(jīng)歷。創(chuàng)建有吸引力的交互過程,用用戶習(xí)慣的、情感化的、靈活多樣而有引導(dǎo)性的方式,使用戶樂于使用,幫助用戶解決問題,提高效率,贏得用戶的忠誠。
聲音,最自然的交互形式,但不能取代圖形GUI,而是更好的協(xié)作
語音用戶界面設(shè)計(jì)是一個全新的應(yīng)用領(lǐng)域,通過語音控制來完成任務(wù)。人與人的溝通通常在不同場景與人的面部表情,動作等,能解析出不同的意圖。VUI+GUI 更好的滿足人機(jī)的交互。
GUI層級鮮明,好比俄羅斯套娃,一層一層直到結(jié)果呈現(xiàn),想想你的朋友圈,你應(yīng)該如何發(fā)朋友圈?文字與圖片不同的入口。想想打開手機(jī)上的手電筒,選擇消息應(yīng)用程序,回到主屏幕。所有這些操作都會引用實(shí)際的空間關(guān)系,幫助我們記住并了解他們。GUI可能會考慮你的手指觸摸的位置以及你在屏幕上看到的內(nèi)容。這種相互作用在功能上是肌肉記憶。他們必須是一個聯(lián)動的層級關(guān)系,需要每個步驟才能訪問它們,那么執(zhí)行此操作的認(rèn)知負(fù)荷將高于簡單地使用該應(yīng)用程序。
VUI沒有層級,可以直接獲取結(jié)果,拍照,—-已經(jīng)幫你拍好了,。GUI被動的交互是一種引導(dǎo),傳遞信息。而VUI主動的交互不僅僅包含被動所能表現(xiàn)的,且能夠主動感知或認(rèn)知人來獲取信息,而人還是原來的行為模式。VUI的實(shí)現(xiàn)基于NLP 的技術(shù),傳感器技術(shù),以及不同類型的數(shù)據(jù)交叉處理和判斷,這些處理和判斷又與產(chǎn)品的市場需求,業(yè)務(wù)需求,產(chǎn)品形態(tài)的需求. 息息相關(guān)。——場景革命,語音交互任何時候都是基于場景來做調(diào)用, 場景又叫技能。
服務(wù)器端處理:場景(技能)—— 意圖——具體操作(結(jié)果)
這個技能場景可以是:廚房技能、音樂場景、詩詞場景、APP場景、故事場景、定制業(yè)務(wù)場景、閑聊場景等。 不過閑聊這個場景我個人認(rèn)為是最難做的。它的邊界不好限定。
場景的要素:
- 哪里的用戶?(環(huán)境)(根據(jù)不同場景建立不同業(yè)務(wù)邏輯與規(guī)則)家庭?戶外?閑聊?廚房?音樂?
- 他們要做什么?(目的)
- 他們互動的設(shè)備的類型(媒介)機(jī)器人?Echo ? iPhone?computer?……
- 什么時間?(時間)時間的維度可以更好情感化設(shè)計(jì)。
- 他們正在試圖做什么?(行為)
- 盡量滿足他們的意圖,而不是一個特定的功能。(目的)
- 意圖:需要多個維度去判斷,視覺,聽覺,記憶,用戶習(xí)慣等。
- 哪里是用戶心靈的框架?(用戶模型?)用戶任務(wù)精神模型(根據(jù)不同用戶受眾,進(jìn)行不同的任務(wù)流程)
- 場景多維度屬性(場景屬性)
VUI+GUI
語音與視覺的交互是交叉處理,(多模態(tài)),說白了,一個用戶指令,設(shè)備有多種反饋的方式,可以是聲音,燈光,動作,界面,表情,等各種交叉的反饋。 什么樣的多模態(tài)交互是用戶需要的呢?這就需要基于場景的要素去進(jìn)行交互規(guī)則設(shè)計(jì)。(下圖機(jī)器人語音交互部分流程)
本文由 @?司馬 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Pixabay,基于CC0協(xié)議

編輯段落都給我搞錯了,差評! 換了我的圖,差評! ??