從0開(kāi)始搭建產(chǎn)品經(jīng)理AI知識(shí)框架:語(yǔ)音識(shí)別與合成
AI PM認(rèn)知系列第三篇,字?jǐn)?shù):2300+,速讀需4分鐘。
從早期蘋(píng)果的Siri,到最近國(guó)內(nèi)的智能音箱大戰(zhàn),越來(lái)越多AI語(yǔ)音產(chǎn)品走入了大家的生活。
?近幾天我也在思考,相比已有更落地方案的計(jì)算機(jī)視覺(jué)技術(shù),AI的語(yǔ)音技術(shù)在產(chǎn)品應(yīng)用中的本質(zhì)是什么?這個(gè)思考我也跟一些語(yǔ)音領(lǐng)域的專(zhuān)家探討過(guò),而其中我個(gè)人的理解是:
AI語(yǔ)音技術(shù)的本質(zhì),通過(guò)效率的提升,場(chǎng)景的便捷,重新定義了用戶(hù)體驗(yàn)。
為什么我這么理解?那我們先來(lái)看看語(yǔ)音有哪些天然屬性:
- 提升效率:一分鐘400字的速度靠打字是無(wú)法超越的,所以特定行業(yè),語(yǔ)音的技術(shù)可以大大的提升人機(jī)的效率。
- 操作便捷:解放了你的雙手,除了一些基本的操作,無(wú)需要每個(gè)字都操作鍵盤(pán)或點(diǎn)擊屏幕了。
- 學(xué)習(xí)成本:對(duì)于不認(rèn)字的老人和小孩,可以用語(yǔ)音來(lái)進(jìn)行檢索和進(jìn)行操作,對(duì)于不會(huì)拼音的人,也可以使用語(yǔ)音識(shí)別。
所以,以下AI語(yǔ)音相關(guān)的分享,會(huì)圍繞兩個(gè)方面:
- 語(yǔ)音技術(shù):語(yǔ)音識(shí)別和語(yǔ)音合成
- 語(yǔ)音技術(shù)應(yīng)用和未來(lái)思考
1.語(yǔ)音技術(shù):語(yǔ)音識(shí)別和語(yǔ)音合成
1.1?語(yǔ)音識(shí)別:ASK
語(yǔ)音識(shí)別(Automatic Speech Recognition)是以語(yǔ)音為研究對(duì)象,通過(guò)語(yǔ)音信號(hào)處理和模式識(shí)別讓計(jì)算機(jī)自動(dòng)識(shí)別人類(lèi)口述語(yǔ)言。
簡(jiǎn)單來(lái)說(shuō),就是讓機(jī)器可以聽(tīng)得懂人話(huà)。
其中比較核心的部分是語(yǔ)音聽(tīng)寫(xiě):就是將語(yǔ)音信息轉(zhuǎn)化為文字信息。
中文語(yǔ)音聽(tīng)寫(xiě)的技術(shù)原理,如下:
- 說(shuō)出一段話(huà),比如:「產(chǎn)品經(jīng)理」,機(jī)器收到只是一段聲波信號(hào)。
- 進(jìn)行信號(hào)的預(yù)處理,如:降噪,消除回音…等。
- 特征提取,如:說(shuō)了幾個(gè)字,音調(diào)是什么…等。
- 通過(guò)聲學(xué)模型匹配,輸出“音”:chan2,pin3,jing1,li3。(拼音舉例)
- 通過(guò)語(yǔ)言模型處理,最終得到文字:產(chǎn)品經(jīng)理。
而這里的特征提取,聲學(xué)模型和語(yǔ)言模型在技術(shù)實(shí)現(xiàn)上,有兩種方法:
- 傳統(tǒng):隱馬爾可夫模型(HMM)
- 端到端:深度神經(jīng)網(wǎng)絡(luò)(DNN)
目前語(yǔ)音識(shí)別技術(shù)主要是通過(guò)DNN實(shí)現(xiàn)的,特定場(chǎng)景下最高可以達(dá)到97%的識(shí)別率。
1.2語(yǔ)音合成:TTS
語(yǔ)音合成(Text-To-Speech)是計(jì)算機(jī)將自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月?tīng)得懂的、流利的漢語(yǔ)口語(yǔ)輸出的技術(shù)。
簡(jiǎn)單來(lái)說(shuō),就是機(jī)器講文字朗讀出來(lái)。
中文的語(yǔ)音合成技術(shù)原理,如下:
- 先通過(guò)規(guī)則把一段文字分詞,如:我|愛(ài)|產(chǎn)品|經(jīng)理。
- 把這段文字進(jìn)行韻律的處理,標(biāo)出是發(fā)什么音。
- 根據(jù)語(yǔ)音庫(kù)的發(fā)音,進(jìn)行單元的拼接。
- 最后就可以播放出這段語(yǔ)音了。
目前主要實(shí)現(xiàn)是兩種方法:
- 拼接法:把錄音的句子切碎成基本單元存儲(chǔ)起來(lái),再根據(jù)需要拼接起來(lái)。
- 參數(shù)法:通過(guò)錄音提取波形的參數(shù)存儲(chǔ)起來(lái),早根據(jù)參數(shù)轉(zhuǎn)化為波形。
拼接法的優(yōu)點(diǎn)就是更自然,但是缺點(diǎn)是需要大量的錄音,和存儲(chǔ)。
參數(shù)法的優(yōu)點(diǎn)就是存儲(chǔ)小,但是缺點(diǎn)就是不夠自然,聽(tīng)起來(lái)就是怪怪的機(jī)器發(fā)音。
另外谷歌發(fā)布的WaveNet是基于語(yǔ)音網(wǎng)絡(luò)使用生成算法制作而成的,相對(duì)于以前的拼接法、參數(shù)法,在聲音表現(xiàn)力上更具優(yōu)勢(shì)。
此外,語(yǔ)音合成的技術(shù)主要體現(xiàn)在四個(gè)方面:
- 表現(xiàn)力:不同年齡,性別特征以及語(yǔ)調(diào),語(yǔ)速的表現(xiàn),個(gè)性化。
- 音質(zhì):聲音的清晰度,無(wú)雜音
- 復(fù)雜度:減少音庫(kù)的體積,降低運(yùn)算量及系統(tǒng)開(kāi)銷(xiāo)。
- 自然度:音律規(guī)則,間隔停頓。
目前的語(yǔ)音合成技術(shù)相對(duì)比較成熟,進(jìn)一步優(yōu)化的同時(shí),大家的重點(diǎn)都放在了表現(xiàn)力上,以符合更多的場(chǎng)景應(yīng)用,滿(mǎn)足不同人對(duì)個(gè)性化的需求。
舉個(gè)例子:
前一段時(shí)間,我打車(chē)時(shí)候看到司機(jī)師傅使用高德的語(yǔ)音導(dǎo)航,語(yǔ)音合成用的是一個(gè)小朋友的聲音,我們就聊了起來(lái),司機(jī)師傅說(shuō)他才剛開(kāi)始拉活,路不熟,他不喜歡郭德綱的聲音,話(huà)忒多,他用小朋友的聲音,一個(gè)是語(yǔ)速慢,另外一個(gè)是吐字清晰,不會(huì)因?yàn)槁?tīng)不清楚走錯(cuò)路。
這個(gè)就是在不同場(chǎng)景下用戶(hù)對(duì)于表現(xiàn)力的個(gè)性化需求,因人而異。
1.3產(chǎn)品應(yīng)用中涉及的語(yǔ)音相關(guān)技術(shù)
目前我們用微信語(yǔ)音或者是Siri時(shí),都屬于近場(chǎng)的識(shí)別,而智能音箱,車(chē)載設(shè)備,機(jī)器人的語(yǔ)音都屬于遠(yuǎn)場(chǎng)識(shí)別,遠(yuǎn)場(chǎng)識(shí)別會(huì)受到,距離,噪音,混響…等問(wèn)題,需要有其他的相關(guān)技術(shù)來(lái)配合完成,提高識(shí)別率。
麥克風(fēng)陣列:由一定數(shù)量的麥克風(fēng)組成,用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。用于在會(huì)議室、戶(hù)外、商場(chǎng)等各種復(fù)雜環(huán)境下,解決噪音、混響、人聲干擾、回聲等各種問(wèn)題。
麥克風(fēng)陣列又分為:2麥克風(fēng)陣列,4麥克風(fēng)陣列,6麥克風(fēng)陣列,6+1麥克風(fēng)陣列。
隨著麥克風(fēng)數(shù)量的增多,拾音的距離,噪聲抑制,聲源定位的角度,以及價(jià)格,都會(huì)上升,所如如何選擇要貼合實(shí)際應(yīng)用的場(chǎng)景,找到最佳的方案。
舉個(gè)例子:
獵豹小雅AI音箱,用的就是6+1麥克風(fēng)陣列,因?yàn)橐槍?duì)360度的3-5米的場(chǎng)景中使用。而很多家電,比如電視機(jī)都是貼墻放置的,2麥克風(fēng)陣列的180度,就足夠使用了。
而兩者麥克風(fēng)陣列技術(shù)要求和價(jià)格相差數(shù)倍。所以對(duì)于產(chǎn)品落地來(lái)講,在提供解決方案的時(shí)候,選擇最優(yōu)的方案。
語(yǔ)音激活檢測(cè):在用微信時(shí)候,你會(huì)點(diǎn)擊語(yǔ)音的按鈕,來(lái)讓語(yǔ)音開(kāi)始識(shí)別。而在遠(yuǎn)場(chǎng)的時(shí)候,沒(méi)有辦法進(jìn)行相關(guān)的操作,所以需要判斷什么時(shí)候有語(yǔ)音,什么時(shí)候沒(méi)有語(yǔ)音。
語(yǔ)音喚醒:通過(guò)關(guān)鍵詞來(lái)喚醒你的語(yǔ)音設(shè)備,比如:嘿~Siri,這時(shí)候語(yǔ)音識(shí)別才開(kāi)始工作。
語(yǔ)音喚醒難點(diǎn)在于,喚醒的響應(yīng)時(shí)間,功耗要低,喚醒的漏報(bào)和誤報(bào)率……等。
2語(yǔ)音技術(shù)應(yīng)用和未來(lái)的思考
目前的語(yǔ)音識(shí)別技術(shù),相對(duì)成熟應(yīng)用還在近場(chǎng)語(yǔ)音:
而語(yǔ)音產(chǎn)品的未來(lái)方向的挑戰(zhàn):
- 遠(yuǎn)場(chǎng)語(yǔ)音:智能家居,車(chē)載語(yǔ)音…等
- 語(yǔ)音理解:與機(jī)器交互更“自然”的溝通
未來(lái)遠(yuǎn)場(chǎng)語(yǔ)音的場(chǎng)景比想象的更為復(fù)雜,雖然語(yǔ)音識(shí)別的相關(guān)技術(shù)在智能音箱的家居場(chǎng)景下表現(xiàn)的還不錯(cuò),但家居環(huán)境畢竟相對(duì)安靜可控,但是其他的遠(yuǎn)場(chǎng)語(yǔ)音就沒(méi)有這么順利了。
例如:
車(chē)載識(shí)別,在開(kāi)車(chē)的環(huán)境下太多噪音,發(fā)動(dòng)機(jī)的聲音,打開(kāi)車(chē)窗的風(fēng)聲,車(chē)胎聲,路面聲音,這些噪音都會(huì)影響到語(yǔ)音的識(shí)別。
而解決的方法,是要在識(shí)別之前,消除掉這些噪音,但這樣就會(huì)產(chǎn)生一個(gè)問(wèn)題,那么多種聲音,機(jī)器怎么知道要消除哪些?保留哪些?
現(xiàn)在的方法是怎么做的? 扛著個(gè)麥克風(fēng),去各個(gè)車(chē)型里面錄噪音,然后把各種車(chē),各種場(chǎng)景下的噪音給機(jī)器去學(xué)習(xí),讓機(jī)器分辨出哪些聲音是要消除的。但不同環(huán)境,路面,不同的汽車(chē)發(fā)出的聲音又都不完全一樣,有大量的工作和太多不可控的情況。
將來(lái)如果想在更多場(chǎng)景,比如酒吧,體育場(chǎng),就會(huì)更復(fù)雜,除了環(huán)境音,還有更多人說(shuō)話(huà),比如“雞尾酒效應(yīng)”,所以未來(lái)的語(yǔ)音之路,會(huì)面臨更多挑戰(zhàn)。
語(yǔ)音的理解就涉及到另外一個(gè)AI技術(shù)了“自然語(yǔ)言處理”,目的是與機(jī)器溝通時(shí)候,它可以更好的理解你的意思,并給出相對(duì)的判斷或反饋,避免像現(xiàn)在的聊天機(jī)器人出現(xiàn)的所答非所問(wèn),上句不接下句的情況,而有關(guān)自然語(yǔ)言處理,是一個(gè)更大的課題,也是AI目前的主要瓶頸之一,會(huì)再下一個(gè)分享中具體進(jìn)行討論。
以上就是我有關(guān)AI語(yǔ)音的分享,是AI PM認(rèn)知系列的第三篇,如果任何的疑問(wèn)或建議,歡迎隨時(shí)溝通探討。
相關(guān)閱讀:
第一篇:從0開(kāi)始搭建產(chǎn)品經(jīng)理的AI認(rèn)知體系
第二篇:產(chǎn)品經(jīng)理的AI知識(shí)框架:計(jì)算機(jī)視覺(jué)
作者:蘭楓,微信公號(hào):藍(lán)風(fēng)GO @LanFengTalk,前騰訊游戲,新浪微博PM,Elex產(chǎn)品總監(jiān),8年的游戲,社交,O2O等產(chǎn)品相關(guān)經(jīng)驗(yàn),連續(xù)創(chuàng)業(yè)者。
本文由 @蘭楓?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Pixabay,基于CC0協(xié)議
你好,閣下真實(shí)大名是?公司急招產(chǎn)品經(jīng)理,可否取得聯(lián)系。深聲科技hrm-windy,公司主營(yíng)人工智能語(yǔ)音識(shí)別與合成。工作地點(diǎn)廣州天河區(qū),如有意向煩請(qǐng)發(fā)簡(jiǎn)歷至郵箱windy@deepsound.cn.或者添加微信weixinzhanlq.也有勞推薦人才。
ASR?