AI時(shí)代的門票——智能語音交互

2 評論 12758 瀏覽 75 收藏 10 分鐘

AI時(shí)代即將到來,而語音識別便是入場券。說出一句話,也許你可以直接聽到想要的結(jié)果,也許機(jī)器會直接執(zhí)行你的命令,也許……這無限延伸的可能性,便是 AI 的魅力。

還記得2年前,度秘剛發(fā)布的時(shí)候,心情激動的我沒怎么思考就洋洋灑灑扯了一通《度秘:你好,521號機(jī)器人為您服務(wù)》。記得那時(shí)才大三,感覺百度發(fā)布的度秘機(jī)器人好牛逼,天文地理無所不知。但那時(shí)的度秘也僅僅是個(gè)加強(qiáng)版的微軟小冰,只不過是連接了更多的服務(wù),因?yàn)榘俣仍谶@方面有著天然的優(yōu)勢。那時(shí)的度秘雖然看起來也很全能,但從未自然的融入實(shí)際生活場景中,因?yàn)榫科浔举|(zhì),它是以擬人對話形式整合線下服務(wù)與功能。

而如今,親身體驗(yàn)了這場技術(shù)變革帶來的改變,不禁感慨,AI時(shí)代即將到來,而語音識別便是入場券。說出一句話,也許你可以直接聽到想要的結(jié)果,也許機(jī)器會直接執(zhí)行你的命令,也許……這無限延伸的可能性,便是 AI 的魅力。

新一代交互形式:語音識別

時(shí)光飛逝,短短兩年,互聯(lián)網(wǎng)行業(yè)日新月異,經(jīng)歷了AR、VR的變革,又見證了阿法狗的崛起。人工智能這個(gè)詞似乎離我們越來越近。通常來講,每一次全新時(shí)代的到來,都是因?yàn)橐粋€(gè)傳統(tǒng)的形式被顛覆。

比如,多年前我們的手機(jī)硬件由非智能機(jī)變?yōu)橹悄軝C(jī),交互方式由物理按鍵變?yōu)槭謩莶僮?。并伴隨著網(wǎng)速的提升,從而由PC互聯(lián)網(wǎng)時(shí)代逐漸進(jìn)入移動互聯(lián)網(wǎng)時(shí)代,而這一次,變革便是從語音識別開始。

艾媒數(shù)據(jù)的調(diào)研結(jié)果

可以看出,語音識別高居第一,其次是智能家居。這兩方面都有一個(gè)共同點(diǎn)在于:它們都是兩種全新的交互形式。

語音識別意味著將無形的聲音轉(zhuǎn)化為有形的執(zhí)行信息,而傳統(tǒng)交互形式是通過文字,或是通過肢體動作來完成命令的執(zhí)行。

智能家居意味著將家庭場景下的電器通過網(wǎng)絡(luò)的構(gòu)建與連接,形成物聯(lián)網(wǎng),將之變得更加自動化,隨用戶的需求而自然切換狀態(tài)。

亞馬遜Echo系列產(chǎn)品

而現(xiàn)在,無論是國外的亞馬遜、谷歌還是國內(nèi)的小米等生產(chǎn)智能硬件的公司,都開始極力打造家庭場景下的人工智能,而語音,便是這種人工智能交互形式的突破口。

完整的語音交互過程應(yīng)該分三個(gè)步驟:聽清、聽懂、滿足。

  • 聽清:當(dāng)用戶的聲音從麥克風(fēng)輸入時(shí),應(yīng)有拾音器記錄用戶聲音,并準(zhǔn)確的進(jìn)行識別,將最終結(jié)果反饋給AI大腦。而在這個(gè)過程中,需要軟硬件以及算法去處理所有聲音,取其精華,棄其糟粕,最終將真正的指令記錄。
  • 聽懂:當(dāng)大腦拿到結(jié)果后,要對其進(jìn)行解析,將語音轉(zhuǎn)為文字,并進(jìn)行語義分析,同樣需要強(qiáng)大的算法和機(jī)器學(xué)習(xí)能力,不斷去糾錯(cuò)。哪些是命令詞,哪些是內(nèi)容詞,要進(jìn)行區(qū)分,最終普通的一句話要被拆分為命令、內(nèi)容等相關(guān)類型詞。
  • 滿足:當(dāng)一句簡單的話被AI大腦理解,接下來的就是滿足用戶,用戶如需要查詢,便去告訴他相應(yīng)內(nèi)容。用戶如需要執(zhí)行動作,便去完成整個(gè)動作流程。

而事實(shí)上,這三個(gè)重要步驟,對于一家普通公司,基本是不可能完成的任務(wù)。

它要求既要有扎實(shí)的語音識別技術(shù),又要有牛逼的語義理解能力,最后還需要有強(qiáng)大的內(nèi)容數(shù)據(jù)去做支撐。

也難過,只有百度這樣的超級大廠,才能充分整合資源,將整個(gè)語音交互過程都涉及到。

家庭場景下的語音交互

在中國,如果想要普及一種變革,最好的場景是家庭環(huán)境,因?yàn)檫@種場景下,用戶的使用習(xí)慣,喜好會徹底的釋放和表達(dá),是一種最自然,無壓力的表現(xiàn)狀態(tài),且這種場景又屬于高頻場景,覆蓋范圍廣。

家庭下的語音喚醒場景請

不僅僅是圖中這些場景,今天在百度的開發(fā)者大會會場上見到了各種家庭場景下的硬件設(shè)施,當(dāng)它們一旦搭載了語音交互的系統(tǒng),便搖身一變,成了具有語音操控的智能家居。

對智能冰箱說:

“宮保雞丁怎么做”,冰箱上的顯示屏開始播放宮保雞丁教學(xué)視頻。

對智能電視說:

“我想看個(gè)賽車類電影”,電視上顯示《速度與激情》系列影片。

對智能音箱說:

“我要開party,放個(gè)激情澎湃的音樂吧”,音箱播放《Sugar》

………….

智能硬件加上語音交互,已經(jīng)構(gòu)建成了物聯(lián)網(wǎng)。相信在不久的將來,搭載了語音交互系統(tǒng)的智能家居,都可以聽你的話,你說所說的每個(gè)指令,都會直接影響到當(dāng)前家居的運(yùn)行狀態(tài)。甚至可以對其動作進(jìn)行組合,形成物聯(lián)網(wǎng)+語音交互。

小米智能硬件生態(tài)圈

在我看來,最有可能率先實(shí)現(xiàn)該場景的就是小米。

小米近幾年基本完成關(guān)于智能硬件生態(tài)圈的布局,覆蓋了家庭場景下大部分高頻使用的硬件設(shè)施,并將其與手機(jī)連接在一起,使用戶通過手機(jī)可以快速的管理。本次小米電視4的發(fā)布,其中一個(gè)亮點(diǎn)便是:將家居中的每一個(gè)智能硬件部分都和電視,手機(jī)控制端進(jìn)行連接。最終實(shí)現(xiàn)最完美的智能家居生活場景:對著電視或遙控器說一聲:關(guān)閉空調(diào)、開啟吸塵器等一切指令,通過語義識別,連接家居,執(zhí)行命令一系列動作,將智能貫徹到底。

開放的AI未來,不止于此

曾經(jīng)VR技術(shù)被鼓吹的神乎其神,最終還是因硬件成本居高不下以及體驗(yàn)難以提升淪為AI的泡影產(chǎn)物。而語音識別不應(yīng)如此,百度的duer OS提供一整套語音識別的解決方案,給了許多硬件公司產(chǎn)品智能化的希望。

這樣一來,智能硬件的成本便可以達(dá)到有效把控。在整個(gè)語音交互部分,百度提供現(xiàn)成的SDK,并可以配套終端應(yīng)用,提供開發(fā)套件。無論事實(shí)如何,宣傳效果確實(shí)達(dá)到了。若如此,接下來,語音交互能力便不再是小公司,小產(chǎn)品可望不可即的能力了。而最終市場上經(jīng)過一批殘酷的淘汰,最終留給用戶的,便是最優(yōu)秀的軟硬件結(jié)合的產(chǎn)物。這無論是對用戶還是整個(gè)行業(yè),都是一個(gè)良好的發(fā)展趨勢。

以一個(gè)開發(fā)的心態(tài)迎接人工智能時(shí)代,科幻電影里的場景,即將到來。這一刻,我想到了《人工智能》,《機(jī)械姬》,《黑客帝國》。

對于未知的好奇心,要遠(yuǎn)遠(yuǎn)大于恐懼。

#專欄作家#

王偉華,微信公眾號:夜漫產(chǎn)品(learnerwwh),一只略帶文藝情懷的產(chǎn)品汪,擅長社交,資訊領(lǐng)域產(chǎn)品,心理學(xué)愛好者,目前正處于知識體系搭建階段。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 簡單來說 就是日常語境中語義的智能拆分…

    來自四川 回復(fù)
    1. 對,算是其中一個(gè)步驟

      回復(fù)