為什么語音交互有個心理學(xué)問題
![](http://image.woshipm.com/wp-files/img/87.jpg)
語音交互一只被認(rèn)為是取代鍵盤交互的新方式,可是要走入尋常百姓家,還是差一點(diǎn)。
如今,Apple有Siri,Google有Google Now,Microsoft有Cortana,Amazon有Echo;國內(nèi)大小互聯(lián)網(wǎng)公司諸如百度、科大訊飛、出門問問也都有自己的語音服務(wù)。語音控制不僅應(yīng)用在手機(jī)屏幕,還同樣用于以下各種使用場景:客廳家居、智能手表、車載系統(tǒng)、PC電腦?;谡Z音的交互方式似乎已經(jīng)到了爆發(fā)的前夜,只差那么一點(diǎn)兒,就可以成為下一個鼠標(biāo)鍵盤式的新交互方式,走入尋常百姓家。
但畢竟還是差了那么一點(diǎn)兒。即便語音控制已經(jīng)成為當(dāng)今智能手機(jī)的標(biāo)配,又有多少人會利用語音向手機(jī)發(fā)出指令呢?少之又少。很大一個原因——正如羅永浩所說——是因?yàn)檎Z音交互面臨著用戶的心理障礙。
羅永浩解釋的第一個原因,是人們無法容忍一個沒有達(dá)到智能水平的設(shè)備跟他耍聰明:
從人的正常角度來講,如果一個軟件在你面前裝聰明,你會想要去戳穿他,于是他馬上就被戳穿了。
第二個原因,是在他人面前使用語音交互的尷尬。
當(dāng)你使用語音軟件時,別人會怎樣看你?
在我看來,這兩個原因其實(shí)說的是一個問題:智能語音不夠智能。
語言是種非常自然的交流方式,它的特性決定了人們一直以來對語言交流的期待。尤其是面對面溝通時,我們渴望立即獲得回應(yīng),并且最好也是聲音反饋。因?yàn)檎Z言本身是多變而復(fù)雜的,理解自然語言也就需要更高的智力。我們期待的是和具有相應(yīng)智力水平的個體進(jìn)行對話。
這樣看來,當(dāng)下的語音交互存在三個主要問題,它們像是橫亙在人們面前的屏障,阻礙人們自然地使用語音來控制設(shè)備。這三個問題可以概括為,現(xiàn)今的智能語音不夠智能,而人們總是習(xí)慣和理解自己話語的人進(jìn)行自然的語言對話。
問題1:智能語音并不能真正理解人的語言,它不具備人類的智力。
現(xiàn)在的智能語音停留在對關(guān)鍵詞的內(nèi)容識別和上下文分析,而機(jī)器是沒有“語感”的,也不懂得什么語法。這樣一來,以人類智力來理解,機(jī)器就顯得很蠢,而試圖和它溝通交流的行為也就顯得很蠢。類似的行為其實(shí)也適用于文字交流,一旦對話的情境被建立起來,人們就希望對話者的智力水平足以和自己相當(dāng)。
現(xiàn)實(shí)生活中,也存在著和智力水平不達(dá)標(biāo)的事物進(jìn)行語言交流的現(xiàn)象,比如和幼童說話、對寵物說話,甚至是對花草樹木說話。但這種情況下,人們是不期待獲得回應(yīng)的,低預(yù)期也就降低了回應(yīng)失敗的尷尬。
但是智能語音往往被塑造為成年人形象(通過音色設(shè)定來塑造形象),讓語音交互變得普及也需要建立起用戶的預(yù)期。而智力水平確實(shí)是語音交互最大的短板。
問題2:當(dāng)人們用語言進(jìn)行交流的時候,通常希望立即獲得回應(yīng)。
與文字書信不同,語言交流在過去往往是面對面,所以交流是即時完成。即便有了電話之后,語言交流仍然保持著即時性。
有兩種形式的語音交流打破了這種即時性:對講機(jī)和即時通訊應(yīng)用。在這兩種場景下,對話者的語言是“互斥”的,不會出現(xiàn)聲音的重疊和打斷,因此對話者也就沒有被置于一個共通的虛擬空間中。它所造成的結(jié)果,是這兩種形式的語音交流無法提供面對面或電話交流時的暢快感和現(xiàn)場感,也就缺少一部分“對話”的體驗(yàn)。
與之同理,語音交互因?yàn)榛コ庑缘奶攸c(diǎn),很難被當(dāng)作是和機(jī)器對話。所以Siri式的仿自然語言交流也會缺少對話的現(xiàn)場感。
問題3:語言交流的即時性還有一個結(jié)果,就是人們期望對聲音的反饋也是聲音。
語言溝通是快節(jié)奏且高效的,文字表達(dá)則有一定的延遲。當(dāng)一個人處在即時狀態(tài)下的高效表達(dá)時,對方以慢速的文字作為回應(yīng)會讓溝通現(xiàn)場顯得不協(xié)調(diào)。這也是為什么語音交互一定要配以聲音反饋,哪怕是你對Siri說“給老爸打電話”,在它完成這一指令之前,也一定要回應(yīng)一句:“正在撥打父親的電話”。
但問題在于,語音合成的技術(shù)實(shí)力還沒有達(dá)到人們的期待。生硬的、機(jī)器化的聲音表達(dá),無時無刻不在提醒著這個對話者是“非我族類”,語音合成的生硬效果也在阻礙著人們將機(jī)器視為同等智力水平的個體。(你也許會想到電影《星際穿越》中的機(jī)器人Tars,生硬的合成語音效果正是為了突出它的機(jī)器身份。)
當(dāng)下的智能語音產(chǎn)品中,比較討巧的辦法是先不追求語言溝通的現(xiàn)場感,而將語音作為對機(jī)器進(jìn)行發(fā)號施令的一種替代性方式。面對語音識別的設(shè)備,人們說出“撥打XX的電話”這樣的語音指令,要比說“你幫我打個電話給XX吧”這樣的交流方式,少一分尷尬。也正是將語音交互的預(yù)期降低,才能讓一些喜歡嘗鮮的極客們放下心理芥蒂,對機(jī)器說出指令。
但如果走在大街上,周圍都是同行的路人,你會對著iPhone大聲說“閱讀我剛剛收到的短信”嗎?顯然不會。因?yàn)檎Z言溝通的特性,導(dǎo)致大眾對語音交互的期待其實(shí)是很難被降低的。
那么語音交互倘若想達(dá)到電影《Her》中以假亂真的狀態(tài),得先解決好以上三個問題才行。
作者:@醬鹵
來源:簡書
這樣看,語音交互方式要普及還很遙遠(yuǎn)
一陣見血!