如何評(píng)測(cè)一個(gè)智能對(duì)話系統(tǒng)(四)

單贏
0 評(píng)論 9778 瀏覽 19 收藏 11 分鐘
🔗 B端产品需要更多地依赖销售团队和渠道合作来推广产品,而C端产品需要更多地利用网络营销和口碑传播来推广产品..

編輯導(dǎo)語:隨著科技的不斷發(fā)展,智能設(shè)備逐漸深入我們的生活中;在上一篇文章中作者介紹了智能對(duì)話系統(tǒng)標(biāo)注數(shù)據(jù)的采樣,標(biāo)注問題的設(shè)計(jì)以及問題背后的技術(shù)原理;本文作者將帶我們繼續(xù)了解對(duì)話系統(tǒng)的特征,我們一起來看一下。

在上一章中我們介紹了分布式對(duì)話系統(tǒng)評(píng)測(cè)方法的具體實(shí)現(xiàn)細(xì)節(jié),包括數(shù)據(jù)的分類和采樣,標(biāo)注問題的設(shè)計(jì)與其背后的技術(shù)原理;我們?cè)敿?xì)闡述了獲取標(biāo)注數(shù)據(jù),以及制定語言數(shù)據(jù)話題類型的方法;同時(shí),我們還介紹了基于6個(gè)維度的信息特征而分解出來的12個(gè)封閉式問題;我們將數(shù)據(jù)與問題相互對(duì)應(yīng),就形成一份可操作,可統(tǒng)計(jì)的對(duì)話評(píng)測(cè)標(biāo)注任務(wù)。

接下來,我將介紹如何通過分布式對(duì)話評(píng)測(cè)方法對(duì)一個(gè)對(duì)話系統(tǒng)進(jìn)行評(píng)估;基于智能對(duì)話系統(tǒng)的特征,我們將評(píng)測(cè)任務(wù)分為兩大類:單輪對(duì)話評(píng)測(cè)任務(wù);多輪對(duì)話評(píng)測(cè)任務(wù)。

我們先來對(duì)這兩個(gè)概念做一個(gè)定義:

單輪對(duì)話:

在單輪對(duì)話的場(chǎng)景中,我們向被測(cè)試的對(duì)話系統(tǒng)發(fā)送一組自然語言語句,該對(duì)話系統(tǒng)將針對(duì)每一個(gè)輸入語句進(jìn)行理解,并給出相應(yīng)的輸出內(nèi)容;這里我們期待對(duì)話系統(tǒng)能夠還原真實(shí)人類的對(duì)話場(chǎng)景,較好的理解每一個(gè)輸入語句,并給出合理且得體的回復(fù)。

多輪對(duì)話:

在多輪對(duì)話的場(chǎng)景中,我們圍繞一個(gè)固定的話題,向?qū)υ捪到y(tǒng)發(fā)送一連串的自然語言內(nèi)容;對(duì)話系統(tǒng)需要結(jié)合上下文內(nèi)容,在設(shè)定話題的范圍內(nèi),連續(xù)的給出相關(guān)聯(lián)的回復(fù)內(nèi)容,并將話題不斷的延續(xù)下去。

為什么要對(duì)單輪對(duì)話場(chǎng)景和多輪對(duì)話場(chǎng)景分別做評(píng)測(cè)呢?

這就涉及到智能對(duì)話系統(tǒng)的自身的特性與技術(shù)瓶頸。我們?cè)谥暗奈恼轮薪榻B過,智能對(duì)話系統(tǒng)共分為三個(gè)類型,即問答型,任務(wù)型,以及開放型(閑聊型);每一類型的對(duì)話系統(tǒng)都有自己獨(dú)特的實(shí)現(xiàn)方式,同時(shí)也存在著特定的優(yōu)勢(shì)與短板,不同的對(duì)話系統(tǒng)會(huì)根據(jù)其目標(biāo)場(chǎng)景和服務(wù)對(duì)象進(jìn)行差異化的設(shè)計(jì)。

因此,為了確保評(píng)測(cè)任務(wù)的客觀性和有效性,我們將單輪對(duì)話場(chǎng)景與多輪對(duì)話場(chǎng)景分離開來,分別制定了不同的評(píng)測(cè)任務(wù)。

具體的評(píng)測(cè)任務(wù)如下:

一、單輪對(duì)話評(píng)測(cè)

首先,我們將預(yù)設(shè)數(shù)據(jù)集中的1500條數(shù)據(jù)逐一輸入被測(cè)試的問答系統(tǒng)當(dāng)中,并將系統(tǒng)所輸出的答案記錄下來,從而生成1500組問答對(duì);我們將在這1500組問答對(duì)中隨機(jī)抽取500組作為評(píng)測(cè)任務(wù)數(shù)據(jù)集。

接下來,我們將前一篇文章所總結(jié)的6個(gè)評(píng)測(cè)維度與12個(gè)評(píng)測(cè)問題進(jìn)行分類,目的是便于人工標(biāo)注和統(tǒng)計(jì)。

我們將“回復(fù)是不是符合正確的語法”和“回復(fù)內(nèi)容是不是不可以被接受(色情,暴力,消極、辱罵,政治等)”這兩個(gè)問題單獨(dú)挑選出來作為一組獨(dú)立的評(píng)判標(biāo)準(zhǔn);我們把這組評(píng)判標(biāo)準(zhǔn)定義為“一級(jí)評(píng)判標(biāo)準(zhǔn)”。

我們將「內(nèi)容關(guān)聯(lián)度」和「邏輯關(guān)聯(lián)度」合并成「關(guān)聯(lián)度」。這樣一來,6個(gè)評(píng)測(cè)維度就整合成5個(gè)大類的指標(biāo),每類指標(biāo)下包含2個(gè)是否類型的判斷題(共10道題);我們把這組評(píng)判標(biāo)準(zhǔn)定義為“二級(jí)評(píng)判標(biāo)準(zhǔn)”。

評(píng)測(cè)人員需要對(duì)500組評(píng)測(cè)數(shù)據(jù)分別進(jìn)行人工評(píng)判,并將判斷的結(jié)果記錄下來,評(píng)測(cè)順序?yàn)橄茸鲆患?jí)評(píng)判,再做二級(jí)評(píng)判。

下圖為參考范例:

當(dāng)評(píng)測(cè)人員完成評(píng)判后,會(huì)對(duì)每組數(shù)據(jù)的評(píng)測(cè)結(jié)果進(jìn)行打分,打分方法如下圖所示:

為了確保評(píng)測(cè)的客觀性,每組評(píng)測(cè)數(shù)據(jù)需要由至少3名測(cè)試人員依照同樣的標(biāo)準(zhǔn),分別進(jìn)行打分,對(duì)話系統(tǒng)的最終評(píng)測(cè)得分將會(huì)權(quán)衡多個(gè)測(cè)試人員的得分情況。

評(píng)測(cè)的最終分?jǐn)?shù)為所有500組問答數(shù)據(jù)評(píng)判結(jié)果的分?jǐn)?shù)總和,即滿分 = 總測(cè)試題數(shù) 500 * 評(píng)測(cè)維度 5 * 判斷指標(biāo) 2 * 參與評(píng)測(cè)人數(shù) 3 = 15000;我們可以將被評(píng)測(cè)對(duì)話系統(tǒng)的實(shí)際分?jǐn)?shù)(介于0到15000之間)線性轉(zhuǎn)換成滿分為100的分?jǐn)?shù),就得出了被評(píng)測(cè)對(duì)話系統(tǒng)的量化表現(xiàn)分?jǐn)?shù)(單輪)。

二、多輪對(duì)話評(píng)測(cè)

相較于單輪對(duì)話場(chǎng)景,多輪對(duì)話評(píng)測(cè)任務(wù)主要考核的是一個(gè)智能對(duì)話系統(tǒng)的持續(xù)對(duì)話能力,而不僅僅是其在每一輪對(duì)話的表現(xiàn);這次,我們從數(shù)據(jù)集中的1500條數(shù)據(jù)中選取20條對(duì)系統(tǒng)行評(píng)測(cè);這里需要注意的是,被選的20條數(shù)據(jù)需要覆蓋數(shù)據(jù)集中全部的16個(gè)話題。

接下來,我們將選取出來的20條數(shù)據(jù)作為起始內(nèi)容(首個(gè)問題)輸入到被測(cè)試的對(duì)話系統(tǒng)當(dāng)中,從而展開對(duì)話內(nèi)容;測(cè)試人員將嘗試與對(duì)話系統(tǒng)進(jìn)行實(shí)時(shí)的多輪次對(duì)話交互,并在每次系統(tǒng)返回內(nèi)容后,針對(duì)所返回的內(nèi)容進(jìn)行評(píng)測(cè);當(dāng)評(píng)測(cè)人員認(rèn)為對(duì)話內(nèi)容無法繼續(xù)進(jìn)行下去時(shí),則測(cè)試結(jié)束。

多輪對(duì)話的評(píng)測(cè)主要分為兩個(gè)部分,對(duì)話質(zhì)量,以及對(duì)話數(shù)量。對(duì)話質(zhì)量和對(duì)話數(shù)量的評(píng)測(cè)方式又分別包括每一輪的表現(xiàn)情況和總體的表現(xiàn)情況;這里,我們只關(guān)心系統(tǒng)的「關(guān)聯(lián)度」和「發(fā)散性」這兩個(gè)核心維度指標(biāo)。

考慮到多輪對(duì)話場(chǎng)景的復(fù)雜性和主觀性,我們將多輪對(duì)話評(píng)測(cè)的最大次數(shù)鎖定在5次,同時(shí)建議至少5名測(cè)試人員參與測(cè)試。

評(píng)測(cè)標(biāo)準(zhǔn)與計(jì)分方式如下表所示:

當(dāng)被測(cè)試對(duì)話系統(tǒng)能夠圍繞同一個(gè)話題進(jìn)行等于或多于5輪對(duì)話,且在每一輪對(duì)話都滿足規(guī)定的評(píng)測(cè)指標(biāo)時(shí),我們則認(rèn)為該對(duì)話系統(tǒng)在多輪對(duì)話的場(chǎng)景中獲得了滿分;即滿分 =總測(cè)試題數(shù)20 * 評(píng)測(cè)類別 2 * 評(píng)測(cè)指標(biāo) 4 * 最大對(duì)話輪次 5 *? 參與評(píng)測(cè)人數(shù) 5 = 4000。

同樣的,我們將被評(píng)測(cè)對(duì)話系統(tǒng)的實(shí)際分?jǐn)?shù)(介于0到4000之間)線性轉(zhuǎn)換成滿分為100的分?jǐn)?shù),就得出了被評(píng)測(cè)對(duì)話系統(tǒng)的量化表現(xiàn)分?jǐn)?shù)。(多輪)

至此,我們就將一整套開放領(lǐng)域的智能對(duì)話系統(tǒng)評(píng)測(cè)任務(wù)介紹完了。為了確保評(píng)測(cè)任務(wù)的合理性和嚴(yán)謹(jǐn)性,我們還針對(duì)評(píng)測(cè)任務(wù)中的判斷題進(jìn)行了inter-rater reliability(評(píng)分者信度)的分析,采取了Free Marginal Kappa(Randolph, J. J. 2005)的計(jì)算方式,得到了不錯(cuò)的結(jié)果。

另外,我們還將任務(wù)的評(píng)測(cè)結(jié)果與傳統(tǒng)Liker Questionnaire(里克特量表)的統(tǒng)計(jì)結(jié)果進(jìn)行了詳細(xì)的對(duì)比;對(duì)比結(jié)果顯示,我們提出的評(píng)測(cè)方法在少數(shù)據(jù)、少人力投入的情況下,依然能夠獲得較好的結(jié)果。

歡迎有興趣的讀者嘗試用不同的方式對(duì)本評(píng)測(cè)任務(wù)進(jìn)行驗(yàn)證,這部分內(nèi)容我就不在這里展開了。

三、總結(jié)

這套評(píng)測(cè)方法的目標(biāo)并不是實(shí)現(xiàn)完全自動(dòng)化的智能對(duì)話評(píng)測(cè),而是嘗試提出一個(gè)更高效、更可靠的人工評(píng)測(cè)方法。

本評(píng)測(cè)方法最大的特點(diǎn)就是采取了多維度分布式的方式,嘗試將原本抽象的自然語言能力進(jìn)行了量化拆解;圍繞客觀性,合理性,和易操作性的原則,將原本需要海量人力標(biāo)柱且難以評(píng)估的難題,優(yōu)化成一個(gè)需要較少人力和時(shí)間即可完成的任務(wù);此外,我們還專門為這套評(píng)測(cè)方法量身打造了一組測(cè)試數(shù)據(jù)集,從而最大程度的保障評(píng)測(cè)的系統(tǒng)性和科學(xué)性。

當(dāng)然,這套智能對(duì)話評(píng)測(cè)方法還有很多的不足之處。

首先,我們依然是以人工標(biāo)柱為主要方式進(jìn)行評(píng)測(cè),這就導(dǎo)致我們無法完全避免評(píng)測(cè)的主觀性;另外,我們并不認(rèn)為這套評(píng)測(cè)方法可以通用于所有的智能對(duì)話場(chǎng)景。

我們的評(píng)測(cè)方法并沒有較強(qiáng)的學(xué)術(shù)權(quán)威性,更多的是希望能夠幫助企業(yè)級(jí)的智能對(duì)話產(chǎn)品進(jìn)行表現(xiàn)能力的分析、評(píng)估和比較。

我們鼓勵(lì)大家使用同樣的評(píng)測(cè)標(biāo)準(zhǔn)、統(tǒng)一的測(cè)試數(shù)據(jù)集、同樣的標(biāo)柱方式,針對(duì)不同對(duì)話系統(tǒng)的評(píng)測(cè)結(jié)果進(jìn)行橫向?qū)Ρ?,從而獲得有意義的參考數(shù)據(jù)和有價(jià)值的評(píng)測(cè)結(jié)果。

 

本文由 @單師傅?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash ,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!
专题
80081人已学习19篇文章
当AI已然成为新的焦点和风口,产品经理该如何抓住这个风口顺势飞起?
专题
87970人已学习12篇文章
世间万物皆有套路,面试更是如此,多拿几个靠谱offer。
专题
46033人已学习20篇文章
这些APP设计的细节和规范你都掌握了吗?
专题
15511人已学习12篇文章
本专题的文章分享了交互设计文档的撰写指南。
专题
12870人已学习11篇文章
在工作中我们会跟客户/boss/用户等人对接需求,并把需求交付给设计师/开发等人,那么应该怎么做呢,本专题的文章分享了如何对接和交付需求。
专题
13371人已学习13篇文章
情绪板由能代表用户情绪的文本、元素、图片拼贴而成,能够很好地帮助我们定义设计的方向。本专题的文章分享了如何应用情绪板。