關(guān)于語(yǔ)音輸出的胡思亂想:語(yǔ)音記錄的弊端和發(fā)展構(gòu)想

0 評(píng)論 5712 瀏覽 6 收藏 12 分鐘

隨著互聯(lián)網(wǎng)在生活中逐步滲透,更多元的交互模式已經(jīng)從幻想中走了出來(lái),出現(xiàn)在了生活中。聽(tīng)覺(jué)相較于視覺(jué)而言,是一種更利于交流的方式。在一番清空大腦的思考后,胡亂分析了語(yǔ)音交互所帶來(lái)的問(wèn)題與發(fā)展。

語(yǔ)音行業(yè)類型分析

我們要了解語(yǔ)音,就需要結(jié)合當(dāng)下的發(fā)展趨勢(shì)去看,一個(gè)交互的手段當(dāng)然不是我們所需求的最終目的,用戶所需求的是手段所實(shí)現(xiàn)的終端是否有價(jià)值,所謂價(jià)值也就是:

  1. 是否提高了生活工作中的效率;
  2. 是否降低了用戶達(dá)到目的的成本;
  3. 是否提升了用戶的體驗(yàn)。

那么簡(jiǎn)單想想,語(yǔ)音出現(xiàn)的價(jià)值是滿足任一條件的,當(dāng)然,目前語(yǔ)音的發(fā)展還很初級(jí),與技術(shù)與環(huán)境的關(guān)系密不可分,而所謂的語(yǔ)音產(chǎn)品也可以大致分為三類:

  • 工具:科大訊飛、siri、Google now等
  • 社交:啪啪、比鄰等
  • 內(nèi)容:喜馬拉雅、荔枝、蜻蜓等

在對(duì)比之下,僅僅是內(nèi)容行業(yè)的發(fā)展迅速,而工具類和社交類并沒(méi)有形成爆發(fā)式的發(fā)展,原因可能是多方面的:

  1. 工具類的科技技術(shù)是高端的,但是呈現(xiàn)形式僅僅停留在技術(shù)層面上,或者說(shuō)僅僅是demo樣式,完整的應(yīng)用并沒(méi)有實(shí)現(xiàn);
  2. 社交類應(yīng)用的門檻較低,用戶范圍較廣,但大多數(shù)用戶暫時(shí)無(wú)法改變圖文式社交模式,加上語(yǔ)音本身就是一個(gè)信息獲取成本較高的方式,所以就造成了用戶使用上的反人類行為,不符合直覺(jué)。但也有例外,低俗或者說(shuō)色情等語(yǔ)音是用戶愿意違反自身直覺(jué)來(lái)獲取的信息之一,因?yàn)樾畔⒈旧砭途邆涓呶?,這就造成了語(yǔ)音社交的低俗性;
  3. 內(nèi)容類應(yīng)用的優(yōu)勢(shì)恰好是建立在語(yǔ)音的優(yōu)勢(shì)上的,語(yǔ)音的優(yōu)勢(shì):1.比文字更為快捷、方便;2.解放了手眼;3.創(chuàng)造出了伴隨性場(chǎng)景;4.聲音本身的“成本”是很高的,名人的聲音更有代表性。而這四點(diǎn)也是語(yǔ)音內(nèi)容應(yīng)用的最大優(yōu)勢(shì)。

關(guān)于語(yǔ)音行業(yè)或者是語(yǔ)音交互的問(wèn)題,有興趣的可以去看看《VR還早呢,互聯(lián)網(wǎng)女皇看好的語(yǔ)音會(huì)是大機(jī)會(huì)嗎?》,寫得很不錯(cuò),我也有很多想法來(lái)源于其中。

語(yǔ)音記錄弊端

最便捷的語(yǔ)音記錄是一站式的,即不需要進(jìn)行任何操作的記錄:錄音。但是我也提到過(guò),語(yǔ)音本身是獲取成本較高的信息,加上語(yǔ)音的分類,辨認(rèn),保存上不如文字,所以才會(huì)出現(xiàn)語(yǔ)音→文字的轉(zhuǎn)換形式。
市面上的筆記APP大多都支持語(yǔ)音錄入,當(dāng)然,準(zhǔn)確率上是有所不同的,準(zhǔn)確率最高的肯定是訊飛所做的訊飛語(yǔ)記訊飛在語(yǔ)音上的準(zhǔn)確率與多元化是全球領(lǐng)先的,無(wú)論是在語(yǔ)音→文字,還是文字→語(yǔ)音上,都是出色的。
不過(guò),實(shí)在不是我雞蛋里挑骨頭,或許英文和中文的語(yǔ)音錄入都會(huì)碰到一些問(wèn)題:

語(yǔ)言的低效性和冗余性的基礎(chǔ)上,記錄會(huì)變得更加的繁瑣

  • 我需要記錄筆記:(1+2+3)*3=?
  • 或許能口述:正括號(hào),一加二加三,反括號(hào),乘以三等于問(wèn)號(hào),甚至這樣的描述都會(huì)出現(xiàn)錯(cuò)誤。

這完全繁瑣了公式,更別說(shuō)上面這是最為簡(jiǎn)單的公式了,并且在語(yǔ)言中,需要隨時(shí)注意切換,比如數(shù)字與漢字之間的判斷切換,記賬時(shí)的漢字大小寫切換(一與壹)等等。

場(chǎng)景的局限性

語(yǔ)言的描述是不存在保存隱私的,普通人在家的時(shí)間大約是12小時(shí),去除7小時(shí)睡眠時(shí)間。也就說(shuō)在封閉環(huán)境中的時(shí)間僅僅為五小時(shí),而存在于發(fā)散環(huán)境的時(shí)間是12小時(shí)甚至更多,基本是封閉環(huán)境的2倍;這就形成了一個(gè)問(wèn)題,用語(yǔ)音時(shí)無(wú)法保證隱私的保護(hù);當(dāng)你在地鐵,公司突然靈光一現(xiàn),看了看身邊的人,還是老老實(shí)實(shí)地打字記錄了下來(lái)。

隨時(shí)隨地的“尷尬感”

這或許不能成為一個(gè)弊端。10年前,家長(zhǎng)教育孩子在飯桌上做其他的事是不禮貌的,而現(xiàn)在的家長(zhǎng)在飯桌上拍照發(fā)朋友圈;10年前,家長(zhǎng)會(huì)教育孩子在路上看東西對(duì)眼睛不好,而現(xiàn)在的家長(zhǎng)在路上刷著微博,看著小說(shuō)。什么改變了?是環(huán)境改變了,我想,當(dāng)語(yǔ)音交互成為了主流,尷尬感也會(huì)隨之消除。

當(dāng)然,并不是說(shuō)語(yǔ)音記錄會(huì)成為了雞肋,在封閉條件下,語(yǔ)言還是會(huì)代替GUI交互,畢竟因?yàn)檎Z(yǔ)音交互的獨(dú)立性大大簡(jiǎn)化了生活中的內(nèi)容。

語(yǔ)音交互問(wèn)題

真正的交互方式,應(yīng)該符合人的直覺(jué),即上手就能用。

目前的語(yǔ)音APP無(wú)論是在工具端,還是在內(nèi)容端,都存在不獨(dú)立的操作,比如之前所說(shuō)的訊飛語(yǔ)記,在語(yǔ)音輸入之后延伸出的更多操作是非語(yǔ)音性質(zhì)的,也就是修改,保存,查看,刪除等,各方面都還是建立在了GUI交互的基礎(chǔ)之上,我們排除了“尷尬感”再來(lái)建立一個(gè)用戶場(chǎng)景:

小明是一個(gè)騎行愛(ài)好者,在戶外騎車的過(guò)程中偶有感觸,想記錄一下心中所想:

 

“嘿,siri,打開訊飛語(yǔ)記”,“開始記錄”,“哇!成都的天好藍(lán)呀!”

 

然后,問(wèn)題來(lái)了,小明需要看看是否寫錯(cuò)了,他停下了車,掏出了手機(jī),發(fā)現(xiàn)語(yǔ)記忘了重要的感嘆號(hào)了,那好,修改,保存。

怎么樣,是不是覺(jué)得在用語(yǔ)音記錄的過(guò)程中步驟的數(shù)量并沒(méi)有減少??jī)H僅是記錄過(guò)程由觸控變?yōu)榱苏Z(yǔ)音?既然是這樣,為什么需要語(yǔ)音記錄?

人類與其他高智商動(dòng)物的最大區(qū)別不在智商,而在語(yǔ)言,語(yǔ)言誕生的一刻,即成為生物聯(lián)系的最重要和最有效的方式。

為什么這么說(shuō)?因?yàn)楝F(xiàn)有人人交互中(不考慮未來(lái)會(huì)有的腦波人人交互),最有效的就是語(yǔ)言:我渴了,幫忙讓人買瓶水;我餓了,幫忙讓人買吃的……這些在現(xiàn)在即使有即時(shí)社交軟件的情況下,還是語(yǔ)言最有效率,這也是為什么我認(rèn)為語(yǔ)音交互會(huì)成為,至少不遠(yuǎn)的未來(lái)會(huì)成為主流交互方式。
Amazon echo就是一款相當(dāng)成功的語(yǔ)音交互產(chǎn)品,無(wú)論是從產(chǎn)品設(shè)計(jì),還是產(chǎn)品定位來(lái)說(shuō)都是相當(dāng)?shù)耐晟啤?/p>

  • echo并沒(méi)有過(guò)多的GUI交互設(shè)計(jì),按鍵少,強(qiáng)制性的使用戶使用語(yǔ)音交互進(jìn)行操作;
  • 發(fā)散式的喇叭也解決了聲音采集所遇到的問(wèn)題;
  • 家居式的產(chǎn)品定位也避免了語(yǔ)音交互的尷尬感。

那,倒過(guò)來(lái)再次考慮一下語(yǔ)音記錄問(wèn)題,有什么辦法可以解決語(yǔ)音記錄的種種劣勢(shì)和弊端呢?

語(yǔ)音記錄發(fā)展構(gòu)想

目前的筆記APP多采用:

GUI交互→語(yǔ)音→GUI交互

偽語(yǔ)音交互所帶來(lái)的就是一次次的差體驗(yàn),所以思考一個(gè)真正的類echo的語(yǔ)音交互過(guò)程才是語(yǔ)音記錄的未來(lái)。

語(yǔ)音→文字→語(yǔ)音:錄入→顯示→確認(rèn)→修改→存儲(chǔ)

上面所寫的是一個(gè)完整的流程記錄:即語(yǔ)音錄入,文字顯示,語(yǔ)音確定,語(yǔ)音修改,自動(dòng)保存
事實(shí)上,這一整套過(guò)程中,最難實(shí)現(xiàn)的是語(yǔ)音修改過(guò)程,如何采用語(yǔ)音來(lái)修改已錄入的文字,這是難點(diǎn),也是重點(diǎn)。解決了這個(gè)問(wèn)題,那上面所描述的場(chǎng)景就不會(huì)成為困難,因?yàn)橐幌盗械倪^(guò)程都是在手機(jī)未被打開的情況下所展開的。

當(dāng)然,我在這兒只是口頭上的解釋產(chǎn)品的改進(jìn),實(shí)際的操作上或許也有很多的難點(diǎn)。例如:語(yǔ)言的準(zhǔn)確性,機(jī)器是否能夠理解;修改位置如何確定;顯示之后的確定如何定時(shí),是一段之后確定?還是一句之后確定?

總結(jié)

總的來(lái)說(shuō),語(yǔ)音的發(fā)展并不完善,但是潛在的用戶是存在的,也是大量的。

訊飛在截止今年11月時(shí),用戶量已經(jīng)超過(guò)千萬(wàn),且并沒(méi)有付費(fèi)宣傳。

單從訊飛的用戶增量上來(lái)看,語(yǔ)音輸出是很多用戶的興趣所在,也是很多用戶所需求的。而這些用戶提供給了語(yǔ)音交互的發(fā)展空間,也提供了語(yǔ)音使用場(chǎng)景的平臺(tái),在不久的未來(lái),語(yǔ)音所能帶來(lái)的或許將和文字的重要性一樣,現(xiàn)在,我們只是將小說(shuō),筆記有聲化;未來(lái),我們或許會(huì)把檔案,資料有聲化。

當(dāng)然,我的一家之言也僅僅建立在語(yǔ)音交互的發(fā)展快于更便捷交互方式的發(fā)展前提下,如果語(yǔ)音交互的利用率不能加快速度,那么說(shuō)再多也是白搭。

至于說(shuō)語(yǔ)音記錄的問(wèn)題,我想也許再過(guò)一兩年,作家們就不用痛苦的坐在電腦前進(jìn)行監(jiān)獄式碼字行為了,能轉(zhuǎn)換為文字的錄音筆,這將是對(duì)作家或者是需要處理文字的工作者來(lái)說(shuō)最大的福音。那么,解放雙手的將是我們的嘴、耳和腦。

 

本文由 @jonathan0627 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!