語音對(duì)話系統(tǒng)的設(shè)計(jì)要點(diǎn)與多輪對(duì)話的重要性

8 評(píng)論 12054 瀏覽 65 收藏 13 分鐘

當(dāng)今,ASR與TTS技術(shù)相對(duì)來將已經(jīng)成熟,自然語言的表示和理解已經(jīng)取得了很大的進(jìn)展,在行業(yè)的競(jìng)爭(zhēng)壁壘中也逐步削弱,未來智能對(duì)話機(jī)器人的核心競(jìng)爭(zhēng)力在于理解了用戶的意圖之后所提供的差異化服務(wù)。

就從最近短視頻平臺(tái)的大媽與機(jī)器人快寶的聊天說起吧。

001.jpg

某銀行內(nèi),一位阿姨因等待辦理業(yè)務(wù)的時(shí)間太長(zhǎng),與快寶機(jī)器人展開了一場(chǎng)來自靈魂的對(duì)話。對(duì)于銀行工作人員的不滿,大媽向快寶說道:“你們的工作人員在里面哄孩子,怎么不出來辦業(yè)務(wù)?”

快寶答:“我們柜臺(tái)里的哥哥姐姐也在很努力的辦業(yè)務(wù)呢?!甭牭竭@個(gè)回答,阿姨試圖將快寶的身體轉(zhuǎn)向柜臺(tái)方向,說:“你往里瞅瞅,是不是在哄孩子?”快寶嚶嚶嚶的好委屈:“你不要觸碰我了,跟我說話就可以了”。

“快寶”說話的語速和聲音非常清晰,邏輯性連貫,跟普通人說話的方式簡(jiǎn)直一模一樣,比蘋果的 SIRI強(qiáng)太多,有網(wǎng)友甚至懷疑快寶“背后”是專門的人通過攝像頭在和人對(duì)話。

隨著人工智能相關(guān)技術(shù)的更新迭代,如今,ASR與TTS技術(shù)相對(duì)來將已經(jīng)成熟,自然語言的表示和理解已經(jīng)取得了很大的進(jìn)展,在行業(yè)的競(jìng)爭(zhēng)壁壘中也逐步削弱,未來智能對(duì)話機(jī)器人的核心競(jìng)爭(zhēng)力在于理解了用戶的意圖之后所提供的差異化服務(wù)。

下面我就在產(chǎn)品角度聊聊語音對(duì)話機(jī)器人的相關(guān)知識(shí)點(diǎn),希望帶給各位一些思考。

一、智能語音對(duì)話系統(tǒng)的組成

智能語音對(duì)話系統(tǒng)大致可分為五個(gè)基本模塊:語音識(shí)別(ASR)、自然語音理解(NLU)、對(duì)話管理(DM)、自然語言生成(NLG)、語音合成(TTS)。

002.jpg

語音識(shí)別將語音轉(zhuǎn)化文字,讓機(jī)器讀取用戶再說什么,自然語言理解是理解用戶說的話是什么意思,分析用戶說話的意圖,和對(duì)用戶語言中核心詞槽的解析。

而對(duì)話管理(Dialog Management,DM)就是人機(jī)對(duì)話中的CPU,控制著整個(gè)人機(jī)對(duì)話的過程。

對(duì)話管理的任務(wù)主要有下四點(diǎn):

  1. 對(duì)話狀態(tài)維護(hù)(dialog state tracing,DST)
  2. 生成系統(tǒng)決策(dialog policy)
  3. 作為接口與后端/任務(wù)模型進(jìn)行交互
  4. 提供語義表達(dá)的期望值(expections for interpretation)

由對(duì)話管理分析出用戶的意圖之后并做出相關(guān)行為,自然語言生成對(duì)用戶任務(wù)的處理結(jié)果以文字形式生成,然后語音合成將此結(jié)果合成為語音說出來。就形成了人機(jī)對(duì)話的整個(gè)過程。

二、人機(jī)對(duì)話的分類

個(gè)人將常見的人機(jī)對(duì)話分為日常撩撥型和任務(wù)驅(qū)動(dòng)型。

最常見的就是任務(wù)驅(qū)動(dòng)的多輪對(duì)話,用戶是帶著明確的目的如訂餐、訂票、叫車等比較復(fù)雜的需求來,而這中間有很多限制條件,用戶并不能一次將任務(wù)所需的關(guān)鍵信息一次性說完、說清楚,因此就要分多輪進(jìn)行QA問答。

一方面,用戶在對(duì)話過程中,可以不斷修正和完善自己的需求;另一方方面,當(dāng)用戶在陳述需求不夠具體和明確時(shí),機(jī)器人可以通過詢問、澄清和確認(rèn)來幫助用戶尋找滿意的結(jié)果,并且在任務(wù)的驅(qū)動(dòng)下與用戶完成日常的交互,以此不斷完善對(duì)于用戶需求的滿足。

而日常撩撥型對(duì)話中的關(guān)鍵,是要根據(jù)用戶喚醒機(jī)器人時(shí)和喚醒之后第一句話的日期時(shí)間和語氣來判斷用戶當(dāng)前的情緒,比如:周五晚上9點(diǎn)下班回家,而喚醒時(shí)語氣中帶著些許匹配疲憊與不開心,此時(shí)就需要機(jī)器人的安慰和鼓勵(lì),以此滿足用戶的情感需求。

當(dāng)用戶心情愉悅時(shí),對(duì)話中還可以偶爾“皮一下”,對(duì)話中一定要有讓用戶驚艷的句子和當(dāng)下比較流行的詞語,有趣和好玩是日常撩撥對(duì)話中的剛需,而這需要訓(xùn)練師不斷更新語料庫,以此來持續(xù)性對(duì)智能語音設(shè)備的依戀。

003.png

三、對(duì)話管理的重要性

對(duì)話管理對(duì)于多輪對(duì)話又異常重要,因?yàn)閱卧~對(duì)話每次聊天都需要用戶去喚醒語音對(duì)話機(jī)器人,用戶必須每次將需求完成的說出,否則幾次對(duì)話下來用戶將會(huì)產(chǎn)生煩躁的情緒,語音對(duì)話機(jī)器人將會(huì)變得雞肋。

下面我們來分解下對(duì)話管理的大致任務(wù):

1. 對(duì)話狀態(tài)維護(hù)(DST)

維護(hù)和更新對(duì)話狀態(tài),t+1時(shí)刻的對(duì)話狀態(tài)St+1,依賴于前一時(shí)刻t的對(duì)話狀態(tài)St,和之前時(shí)刻t的系統(tǒng)行為at,以及當(dāng)前時(shí)刻t+1對(duì)應(yīng)的用戶行為Ot+1。

因此整個(gè)依賴關(guān)系就是:

010.png

2. 生成系統(tǒng)決策(dialog policy)

根據(jù)DST中的對(duì)話狀態(tài),產(chǎn)生系統(tǒng)行為,決定下一步做什么可以監(jiān)測(cè)到用戶的輸入,就是NLU的過程,以及系統(tǒng)對(duì)于NLU的反饋行為,就是NLG。

3. 作為接口與后端/任務(wù)模型進(jìn)行交互

作為應(yīng)用程序接口與服務(wù)器端或任務(wù)模型進(jìn)行請(qǐng)求交互,獲取反饋結(jié)果,生成文字結(jié)果。

4. 提供語義表達(dá)的期望值

根據(jù)用戶輸入的表達(dá),包括語言表達(dá)和語義解析,做出滿足用戶期望的語義表達(dá),滿足用戶需求。

多輪對(duì)話中為了清晰明確的理解用戶的意圖和需求,將對(duì)話建模過程中缺少的信息形成一個(gè)填槽的過程,槽就是多輪對(duì)話當(dāng)中將初步用戶意圖轉(zhuǎn)化為明確用戶指令所需要補(bǔ)全的信息。一個(gè)槽與任務(wù)處理中所需要獲取的一種信息相對(duì)應(yīng)。槽沒有順序,缺什么槽就向用戶詢問什么信息。

基于框架式的對(duì)話管理(Frame-based DM)需要如下要點(diǎn):

  1. 框架:槽位的集合,定義了需要由用戶提供哪些信息;
  2. 對(duì)話狀態(tài):記錄了哪些槽位已經(jīng)被填充,那些槽位待填充;
  3. 行為選擇:下一步該向用戶詢問哪些信息,填充哪些槽位,進(jìn)行何種操作,對(duì)哪些槽位進(jìn)行加權(quán)填充。

基于框架的系統(tǒng)本質(zhì)上是一個(gè)生成系統(tǒng),不同類型的輸入觸發(fā)不同的生成規(guī)則,每個(gè)生成靈活的填入相應(yīng)的模板,這些模型的和框架的設(shè)計(jì)只為在滿足用戶需求的前提下,盡快的完成必要信息的獲取。

5. 語音對(duì)話系統(tǒng)的設(shè)計(jì)要點(diǎn)

設(shè)計(jì)語音對(duì)話系統(tǒng)需要注意的5個(gè)要點(diǎn):

行為模式的設(shè)計(jì)、交互過程的設(shè)計(jì)、知識(shí)結(jié)構(gòu)的設(shè)計(jì)、人格情緒的設(shè)計(jì)、熟悉過程的設(shè)計(jì),我們又可以將這5中設(shè)計(jì)要點(diǎn)進(jìn)行情景細(xì)分:

004.png

在整體架構(gòu)設(shè)計(jì)當(dāng)中,加入這些細(xì)分情景的收集,透過用戶與機(jī)器對(duì)話的行為細(xì)分模式,包括知識(shí)結(jié)構(gòu)和人格情緒的收集,來出一個(gè)虛擬人格。此模式就相當(dāng)于某寶或某東商城根據(jù)用戶的點(diǎn)擊、搜索和瀏覽行為結(jié)合大數(shù)據(jù)生成的千人千面,通過語音交互的使用過程,了解用戶習(xí)慣進(jìn)而達(dá)到更好的體驗(yàn)。

語音對(duì)話體驗(yàn)可分為三個(gè)方向:聲音形象、對(duì)話交互模式和對(duì)話內(nèi)容,它們分別對(duì)應(yīng)GUI時(shí)代的品牌設(shè)計(jì)、交互設(shè)計(jì)、服務(wù)設(shè)計(jì),產(chǎn)品經(jīng)理需要把握好機(jī)器人與人的平衡點(diǎn),不要過度人性化,以免某些點(diǎn)不能滿足用戶的過渡預(yù)期,而產(chǎn)生的失望。

人類的大腦依賴所學(xué)的知識(shí)進(jìn)行思考、邏輯推理和語言理解。而機(jī)器人則是依賴數(shù)據(jù)的訓(xùn)練,互聯(lián)網(wǎng)時(shí)代積累的大量的數(shù)據(jù)能為訓(xùn)練機(jī)器人提供的強(qiáng)有力的保障。

對(duì)話機(jī)器人以數(shù)據(jù)為基礎(chǔ),利用深度學(xué)習(xí)模型和算法,對(duì)人類世界進(jìn)行感知、識(shí)別和判斷,并通過知識(shí)圖譜對(duì)人類的知識(shí)進(jìn)行梳理、整合、推理,變成有智慧的AI。

005.png

四、對(duì)話機(jī)器人所面臨的問題

人的復(fù)雜性(complex)、隨機(jī)性(random)、和非理性化(illogica)的特點(diǎn)導(dǎo)致人機(jī)對(duì)話在應(yīng)用場(chǎng)景下面臨者各種各樣的問題,包括但不限于如下問題:

  1. 模型描述能力與業(yè)務(wù)復(fù)雜度的權(quán)衡。
  2. 用戶對(duì)話偏離業(yè)務(wù)涉及的路徑及邊界;如:系統(tǒng)問用戶導(dǎo)航的目的地時(shí),用戶反問了一句某地天氣情況。
  3. 多輪對(duì)話的容錯(cuò)性;如:3輪對(duì)話的場(chǎng)景,用戶已經(jīng)完成2輪,第3輪由于ASR或NLU錯(cuò)誤,導(dǎo)致前功盡棄,如此用戶體驗(yàn)就非常差。
  4. 多場(chǎng)景的的切換和回復(fù)。
  5. 降低交互變更難度,適應(yīng)業(yè)務(wù)迅速變化。
  6. 跨場(chǎng)景信息繼承。

五、結(jié)束語

未來對(duì)話機(jī)器人除了被動(dòng)回復(fù)用戶的請(qǐng)求外,主動(dòng)預(yù)測(cè)用戶需求并提供即時(shí)方案成為必然的發(fā)展方向,當(dāng)用戶沒有給出明確的需求情況下,提醒即將發(fā)生的事件或推薦有用的服務(wù),人們會(huì)逐漸依靠他們來管理自己的工作生活,提高生活效率及幸福感。

對(duì)話機(jī)器人的目標(biāo)不一定是解決用戶面臨的所有問題,而是成為用戶的虛擬助理。通過與用戶建立情感鏈接,理解用戶,長(zhǎng)期范圍內(nèi)幫助他們,與用戶建立多種形式的交流,包括文本、語音和圖像以及視頻功能。

 

作者:阿拉丁大神燈(簡(jiǎn)書ID:阿拉丁大神燈)歡迎交流。

本文由 @阿拉丁大神燈 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 感謝作者的分享,文中圖片看不了哎,求分享 ?

    來自浙江 回復(fù)
  2. 我也在做這塊,對(duì)話機(jī)器人,感覺很多東西還是不清晰

    來自江蘇 回復(fù)
  3. 文章寫得很好,邏輯清晰。對(duì)于具體概念的解釋也很到位。
    “智能語音對(duì)話系統(tǒng)大致可分為五個(gè)基本模塊:語音識(shí)別(ASR)、自然語音理解(NLU)、對(duì)話管理(DM)、自然語言生成(NLG)、語音合成(TTS)?!边@個(gè)模塊概括的很到位,對(duì)于像我這樣的剛剛接觸智能語音的PM有很大的幫助,可以幫助我們更好的理解產(chǎn)品的底層邏輯。如果作者方便的話,希望有更多的交流。本人微信:alizhangquan

    來自北京 回復(fù)
  4. 作者對(duì)語音對(duì)話還是有很系統(tǒng)性認(rèn)知的,如果能更好的把用戶畫像描繪出來,智能音箱就有了更多的想象空間。希望與作者有更多交流,本人微信:17600186726

    來自北京 回復(fù)
    1. 已加。

      回復(fù)
  5. 666

    來自北京 回復(fù)
  6. 很有幫助,多謝!

    來自廣東 回復(fù)
    1. 你的鼓勵(lì),我的動(dòng)力 ??

      來自北京 回復(fù)
专题
16963人已学习14篇文章
图标是用户页面不可缺少的元素,本专题的文章分享了图标设计指南。
专题
18023人已学习15篇文章
促销的规则多样,对提高客单价和客单量有很大帮助。本专题的文章提供了促销系统设计指南。
专题
12471人已学习13篇文章
发票是财务中必不可少的物品,那发票系统该如何设计呢?本专题的文章分享了发票系统设计指南。
专题
76515人已学习25篇文章
APP设计是一位优秀产品经理的基本功。
专题
12641人已学习12篇文章
运营分很多类,流量运营、用户运营、内容运营…每一个环节都有特别关注的数据和指标。本专题的文章分享了互联网运营,应该分析哪些数据和指标。
专题
35722人已学习18篇文章
好的数据分析可以使我们的产品不断优化,而做好数据分析的第一步就是做好数据埋点。