互聯(lián)網(wǎng)廣告內(nèi)容審核專題(二)——機器審核
導(dǎo)語:在上一篇文章《審核業(yè)務(wù)機制基本認知》中,作者為我們分析了審核維度主要分為準(zhǔn)入環(huán)節(jié)的客戶主體審核和推廣環(huán)節(jié)的內(nèi)容審核。在本篇文章中,作者將重點介紹推廣內(nèi)容的機器審核方式,不僅限于商業(yè)推廣的內(nèi)容,同樣適用于流量內(nèi)容審核。
互聯(lián)網(wǎng)上每日發(fā)布海量內(nèi)容,單單微博的評論日均可達億級以上。同時,隨著時代發(fā)展,在傳統(tǒng)的圖文內(nèi)容以上,音視頻、直播、彈幕等內(nèi)容形式的興起,對于內(nèi)容審核的挑戰(zhàn)日益增大。
很明顯,在風(fēng)險和用戶體驗雙重重壓之下,僅依賴人工審核是不現(xiàn)實的,使用機器審核并初步過濾風(fēng)險內(nèi)容才是最優(yōu)的選擇。
機器審核是什么?
簡言之,機器審核是通過AI算法對劣質(zhì)內(nèi)容進行識別、過濾的一種審核模式,通過提取海量數(shù)據(jù)樣本的特征,輸入機器學(xué)習(xí)形成的機器算法。
機器審核通常可以區(qū)分為機審規(guī)則和機審模型,機審規(guī)則是最簡單的機器審核方式,僅支持識別文本類內(nèi)容。機審模型則能力更加強大,可支持文本、圖片、音視頻的審核,一起來看看機器審核是如何識別風(fēng)險內(nèi)容的?
一、機審規(guī)則
機審規(guī)則即風(fēng)險詞表,由海量的風(fēng)險詞和匹配規(guī)則構(gòu)成,簡單理解為根據(jù)匹配規(guī)則,識別待檢測文本中是否存在風(fēng)險詞表中的詞,下面來具體說說匹配規(guī)則:
1. 場景1:針對單個風(fēng)險詞的匹配規(guī)則
- 精準(zhǔn)包含匹配:待檢測文本中精準(zhǔn)包含風(fēng)險詞才能夠命中機審規(guī)則。如風(fēng)險詞為【真人荷官】,待檢測文本中內(nèi)容為【真%人。荷/官】,詞中間加入了特殊符號,即無法識別;
- 強過濾匹配:能夠?qū)ⅲ?)中的特殊符合自動過濾后進行匹配,即將【真%人。荷/官】轉(zhuǎn)化為【真人荷官】,再進行識別;
- 拼音匹配:能夠?qū)ⅰ緕henrenheguan】、【真人heguan】轉(zhuǎn)化為【真人荷官】進行識別;
- 字母大小寫轉(zhuǎn)換:如風(fēng)險詞為【coco】,可以將【COCO】、【Coco】轉(zhuǎn)化為【coco】進行識別。
2. 場景2:針對多個風(fēng)險詞的匹配規(guī)則
- 多模匹配:通過識別固定詞間距內(nèi)是否同時出現(xiàn)了多個風(fēng)險詞(通常不超過3個),如同時出現(xiàn)即命中機審規(guī)則。舉例:如機審規(guī)則中,風(fēng)險詞為【真人】和【荷官】,設(shè)置識別的固定詞間距為60字。當(dāng)待檢測文本中出現(xiàn)【真人XXXX荷官】,且兩個詞間距不超過60字時,機審規(guī)則可以識別;
- 置換匹配:對于多模匹配,需要按順序先出現(xiàn)【真人】,再出現(xiàn)【荷官】,才能識別;而置換匹配,可以將兩個詞倒序排布后識別,即可以識別【荷官XXXX真人】。
3. 場景3:豁免規(guī)則
為防止正常合規(guī)的詞語被誤殺,通常會人為添加豁免規(guī)則。
舉個例子:如機審規(guī)則中風(fēng)險詞為【人流】,豁免規(guī)則為【人流量】。那么當(dāng)出現(xiàn)【人流量】時,即會命中豁免規(guī)則,允許該詞語正常使用。
除了上述基本的匹配規(guī)則外,在商業(yè)推廣中通常還會增加【白名單機制】。白名單機制的出現(xiàn),是基于品牌保護的目的,即白名單內(nèi)的客戶或賬戶允許使用詞【coco】,其他客戶不允許使用,來保證品牌主體的正當(dāng)權(quán)益。
大家可能有疑問,海量的風(fēng)險詞是怎么來的?如何判斷一個詞屬于低俗風(fēng)險?
這些都是專業(yè)的審核人員或風(fēng)控規(guī)則運營人員基于工作經(jīng)驗、審核case以及互聯(lián)網(wǎng)的海量數(shù)據(jù)進行人工整理的??上攵?,工作量極大。
隨著機審能力的發(fā)展,目前也可以借助一些詞擴展工具,通過一個基礎(chǔ)詞,基于繁體轉(zhuǎn)換、拼音轉(zhuǎn)換、同義轉(zhuǎn)化等邏輯,自動擴展出變體詞,輔助人工收集。
二、機審模型
機審模型能夠?qū)崿F(xiàn)對文本、圖片、音頻、視頻各種形態(tài)產(chǎn)品的識別,對于不同形態(tài)的產(chǎn)品如何識別呢?
1. 文本識別
相較于機審規(guī)則,模型能夠?qū)崿F(xiàn)的識別場景更多。通過語義分析構(gòu)建智能學(xué)習(xí)算法,結(jié)合場景對風(fēng)險文本進行識別。
以下面一段文本為例【韓國電影/迷人的保姆/男主經(jīng)不住漂亮保姆誘惑】,這段話拆開每個詞都不涉及敏感問題,但整體的場景描述下卻是低俗導(dǎo)向,不適宜發(fā)布。
對于這類情況,機審規(guī)則無法生效,只能靠模型來識別。通過樣本輸入和機器學(xué)習(xí),讓模型具備這類場景的識別能力。
2. 圖片識別
通常區(qū)分為圖片中的文字和圖像識別:
文字識別采用ocr識別技術(shù),即對圖片進行掃描,將圖片中的文本輸出,再使用文本規(guī)則或模型進行風(fēng)險識別;圖像識別基于海量的圖片數(shù)據(jù),獲取圖片的信息并進行預(yù)處理,比如去噪、平滑、變換等,然后抽取圖片特征進行分類處理存儲至索引庫,計算并存儲圖片的風(fēng)險標(biāo)簽。
那在面對一張新圖片時,索引庫中如有與之相似的特征,即可以進行識別判斷。作者對于圖像識別研究并不深入,不作更多妄論。
3. 音頻識別
asr語音識別技術(shù),將音頻轉(zhuǎn)換為文字后進行識別。
首先對音頻進行預(yù)處理,提取音頻的特征。特征提取出來后,建立索引庫存放特征。在面對一段待識別的語音時,將其與索引庫中特征進行匹配,輸出識別的結(jié)果。
音頻識別與同為多媒體元素的圖片識別,基本的原理是一樣的,都是提取特征、建立索引庫存儲、特征匹配這三大過程。
4. 視頻識別
視頻審核目前主要以視頻切幀的方式,將視頻切成一張張的圖片,再按照圖片識別的方式進行審核。
三、總結(jié)
可以看到,相較于機審規(guī)則,模型的識別范圍更加廣泛,識別能力更加強大。但在實際機器審核中,通常是規(guī)則和模型組合拳的方式使用。
原因在于,模型的研發(fā)需要更加海量的數(shù)據(jù)和極細粒度的標(biāo)準(zhǔn),并經(jīng)過嚴格的線上測試,準(zhǔn)召率達標(biāo)后才能夠上線使用。而機審規(guī)則不需要研發(fā),通常配置即可生效,是一種實時服務(wù)。
對于緊急風(fēng)險來說,最合適的辦法是使用機審規(guī)則應(yīng)急,同時進行模型研發(fā),以最大程度降低風(fēng)險影響。
當(dāng)然機器算法的識別能力也是有限的,除了準(zhǔn)召率的問題外,對于某些場景幾乎不適用。
比如直播的審核,對時效性要求極高。如使用視頻切幀、音頻識別的方式,直播畫面結(jié)束還沒審核完成,遠遠達不到風(fēng)險管控的目的。因此通常使用人工審核,盯在直播間前防止風(fēng)險突發(fā)。
本篇文章的內(nèi)容就到這里,關(guān)于更多的審核模式、審核機制、審核業(yè)務(wù)管理方式等會在后續(xù)文章中繼續(xù)和大家分享!歡迎大家一起探討!
本文由 @聲生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
機審
測試