AI應用實例(三):音頻審核

森焱
4 評論 6866 瀏覽 31 收藏 10 分鐘
🔗 B端产品经理需要更多地关注客户的商业需求、痛点、预算、决策流程等,而C端产品经理需要更多地关注用户的个人需求

編輯導語:在互聯(lián)網(wǎng)時代,各種各樣的內(nèi)容類產(chǎn)品層出不窮,那么相關監(jiān)管部門對內(nèi)容的審核環(huán)節(jié)就顯得十分重要,各方面都需要審核到位,本篇文章講述了AI技術在音頻審核方面的應用,一起來看一下。

音頻審核作為內(nèi)容安全產(chǎn)品的一個模塊,在內(nèi)容審核中既需要支持視頻中的音頻審核,還需要能支持單獨的音頻審核,本節(jié)將跟大家一起討論關于音頻審核的產(chǎn)品設計與應用。

一、背景

隨著各種各樣的內(nèi)容類產(chǎn)品發(fā)展,當內(nèi)容管理不到位時,就容易觸犯到國家對內(nèi)容監(jiān)管的的政策。

如何避免違規(guī)內(nèi)容的傳播可以說是各大內(nèi)容廠商最關注的環(huán)節(jié)之一。

因此,對內(nèi)容的管理,都需要進行審核到位,但是如果純靠人工審核,估計像頭條號這樣的資訊平臺,一天得有上萬人審核了。

目前各家對內(nèi)容都會接入內(nèi)容審核平臺,基于人工智能技術實現(xiàn)內(nèi)容審核,其中根據(jù)素材維度可以分為視頻審核、文本審核、圖片審核和音頻審核。

從審核內(nèi)容角度看又包括色情、涉政、圖文違規(guī)、暴恐、違禁、廣告等。

本文將選擇音頻審核的維度展開討論。

二、關鍵技術

關于音頻審核中的關鍵技術,我們可以從兩個方面進行理解,分別是“有語義”和“無語義”。

1. 有語義類型

有語義類型是指待審核的內(nèi)容中有明確的語義信息。

這里文本審核一般可以先經(jīng)過ASR識別后,轉成文本信息進行審核,所以會涉及到以下技術。

  1. 語音識別:通過ASR技術將音頻轉換為文本信息;
  2. 語種識別:針對部分小語種或者方言進行判別,識別后,再經(jīng)過語音識別轉換為文字信息;
  3. NLP技術:針對語音識別后的文字信息進行處理,識別違規(guī)內(nèi)容;具體的可以包括廣告詞文本識別、違禁詞識別、辱罵詞匯識別等。

2. 無語音類型

無語義類型識別是指音頻內(nèi)容中不含語義信息,所以無法通過ASR+NLP進行識別處理。

主要包括嬌喘、呻吟、ASMR 等沒有明確語言含義的音頻內(nèi)容。

直接提供提取音頻的聲紋特征進行分類識別,判斷是否違規(guī)。

3. 特殊的類型

這里主要是指違禁歌曲識別,一般這樣的違規(guī)內(nèi)容雖然包含了語義信息,但是可能直接從內(nèi)容信息上是無法判斷的。

所以需要結合聲紋識別+音頻檢索的技術進行來識別,首先構建違禁歌曲庫,然后再根據(jù)音頻聲紋特征進行識別并檢索。

如果出現(xiàn)在曲庫中則判斷違規(guī),否則放過。

三、產(chǎn)品設計

1. 應用場景

(1)場景:常見的需要應用到音頻審核的場景有語音聊天室、視頻直播間、語音廣場、FM電臺、音頻文學等都需要采用音頻審核保證內(nèi)容的安全性。

(2)審核內(nèi)容

  • 涉黃審核:色情、低俗、污穢、嬌喘等識別;
  • 廣告審核:手機號等商業(yè)推廣內(nèi)容識別;
  • 涉政審核:涉政人物、反動分裂、恐怖主義等違規(guī)音頻;
  • 違禁審核:毒品,賭博,違禁品等違禁內(nèi)容。

注:其實音頻只是一個載體,以上審核的內(nèi)容實際上視頻審核也會涉及。

(3)場景發(fā)散

這里多發(fā)散下思維,由于目前各個內(nèi)容審核廠商已經(jīng)基本是同質化競爭了,所以產(chǎn)品的后續(xù)要想繼續(xù)保持競爭力。

一方面是技術能力的迭代加強,另一方面也是需要進一步拓展場景。

比如是否支持AR內(nèi)容的審核,又或者跟當前元宇宙結合,是否開始研究將來元宇宙內(nèi)的信息審核呢。

2. 業(yè)務流程

這里從宏觀點的角度陳述產(chǎn)品的業(yè)務流程,具體的細節(jié)可以交流,不在文章中贅述,業(yè)務流程中主要包括三塊。

  1. 源數(shù)據(jù)+預處理:通過接入待審核的內(nèi)容,再進一步做預處理,包括分段等操作;
  2. 模型處理:審核的核心,通過輸入預處理后的數(shù)據(jù),進行AI分析,輸出機器審核結果,包括確認違規(guī)、疑似違規(guī)和未違規(guī);
  3. 人工復審:對疑似違規(guī)內(nèi)容進行復審,同時也對違規(guī)和未違規(guī)的內(nèi)容抽樣審核,盡量確認判斷的準確性,同時在這一步也可以將人工復審出來的badcase做數(shù)據(jù)回流用于算法升級迭代。

注:在實際業(yè)務場景中,一般會考慮是先審核再內(nèi)容發(fā)布還是先發(fā)布再內(nèi)容審核。

這里就需要根據(jù)業(yè)務進行判斷,因為這同時涉及到內(nèi)容時間(希望搶占熱點)和風險的制約。

一般可以考慮將違規(guī)風險很低的內(nèi)容做先發(fā)后審(但是要提供及時下架的能力,避免出現(xiàn)擴散風險),比如PGC內(nèi)容。

3. 產(chǎn)品功能設計

本節(jié)的產(chǎn)品功能設計主要從能力平臺角度出發(fā)進行講解,至于業(yè)務結果輸出后涉及到的業(yè)務系統(tǒng)這邊不做分析。

一個比較完備的音頻審核產(chǎn)品可以從以下幾個角度進行設計。

(1)功能接口:提供好用的API和SDK能力,包括數(shù)據(jù)請求分析、數(shù)據(jù)結果查詢、規(guī)則定義接口(比如添加違規(guī)詞等)等接口。

在設計時,需要設定好字段的支持力度,比如對于請求時要支持URL,同時是否需要支持音頻審核模板(模板這里是指一段音頻全部審核,還是根據(jù)模板中選定的審核維度進行審核,比如只審核涉黃)。

(2)可視化界面:建議同步提供可視化界面便于接入的用戶進行數(shù)據(jù)查看,可視化界面不僅可以提高用戶體驗,也可以輔助用戶進行產(chǎn)品使用。

一般可視化界面可以包括以下幾點。

  1. 音頻分析:除了接口外,用戶可以在可視化界面上傳音頻文件進行分析,分析后可以查看分析結果
  2. 規(guī)則設定:支持用戶自定義設定違規(guī)的內(nèi)容,比如設定違規(guī)廣告詞、涉政敏感詞等;
  3. 數(shù)據(jù)統(tǒng)計:可以包括兩個部分,一部分是統(tǒng)計數(shù)據(jù)分析的量級,以及分析成功失敗的次數(shù)等;另一方面以違規(guī)類型進行統(tǒng)計違規(guī)次數(shù),比如某段時間內(nèi)廣告違規(guī)發(fā)生了多少,涉黃內(nèi)容發(fā)生了多少等;

注:除了上述三點,還可以支持用戶管理,比如用戶可以在系統(tǒng)中創(chuàng)建用戶賬號,支持不同業(yè)務系統(tǒng)使用等。

4. 評估指標

評估指標需要考核兩個方面。

  1. 違規(guī)識別準確率:統(tǒng)計機器識別為違規(guī)并且人工復核確認違規(guī)的數(shù)據(jù)量/機器識別違規(guī)的數(shù)據(jù)總量;
  2. 違規(guī)識別召回率:統(tǒng)計機器識別為違規(guī)并且人工復核確認違規(guī)的數(shù)據(jù)量/實際存在的違規(guī)數(shù)量。

音頻審核的發(fā)展對音頻市場擴大可以起到很好的輔助作用,對內(nèi)容發(fā)布的監(jiān)管可以實現(xiàn)降本增效。

但是在實際使用過程中,我們還需要思考業(yè)務應用場景,針對場景進一步迭代優(yōu)化技術,比如車載場景的音頻內(nèi)容是否可以很好審核呢。

目前還存在很大的難度,因為車載場景的音頻容易受到很多噪聲的影響,所以不利于識別。

因此,總的來說,對于產(chǎn)品,需要能夠結合業(yè)務做到場景可控,讓AI真正發(fā)揮作用。

 

本文由@Eric_d 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自 Unsplash,基于CC0協(xié)議。

專欄作家

Eric_d,人人都是產(chǎn)品經(jīng)理專欄作家。關注AI、大數(shù)據(jù)等領域,擅長需求分析、產(chǎn)品流程和架構設計等,日常喜歡徒步。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 請教一下,違規(guī)識別召回率分母是如何確定的?如何發(fā)現(xiàn)實際存在的違規(guī)數(shù)量呢

    來自北京 回復
    1. 您好,闊以看下一條評論,重點是看驗證階段~

      來自江蘇 回復
  2. 違規(guī)識別準確率:統(tǒng)計機器識別為違規(guī)并且人工復核確認違規(guī)的數(shù)據(jù)量/機器識別違規(guī)的數(shù)據(jù)總量;
    違規(guī)識別召回率:統(tǒng)計機器識別為違規(guī)并且人工復核確認違規(guī)的數(shù)據(jù)量/實際存在的違規(guī)數(shù)量。
    ————————
    想問下實際存在的違規(guī)數(shù)量怎么看,怎么來定義這個分母

    來自上海 回復
    1. 分兩個階段,測試驗證階段數(shù)據(jù)集是提前準備的,此時實際存在的違規(guī)數(shù)量是人為控制的,比如故意收集違規(guī)的數(shù)據(jù)
      到了實際驗證階段,通??梢灾豢礈蚀_率,如果有些客戶非要看召回率,那實際違規(guī)數(shù)量也只有人工判斷了

      來自江蘇 回復
专题
13181人已学习12篇文章
本专题的文章分享了金融产品经理需要知道的金融基础知识和产品观。
专题
16175人已学习13篇文章
在互联网时代,把网站的服务封装成一系列计算机易识别的数据接口开放出去,供第三方开发者使用,这种行为就叫做Open API。 而提供开放API的平台本身就被称为开放平台。本专题的文章分享了开放平台的搭建思路。
专题
13914人已学习12篇文章
本专题的文章分享了供应链系统设计指南。
专题
14498人已学习12篇文章
排行榜在帮助用户做决定的同时,引导用户购买目标产品,极大降低了用户的选择成本。本专题的文章分享了对于排行榜的设计思考。
专题
13680人已学习12篇文章
作者B端的产品经理,要基于这个行业理解的大背景下去了解公司的业务全局。本专题的文章分享了B端产品经理如何了解业务全局。
专题
43509人已学习16篇文章
设计库存、财务、退换货流程时不用一个头两个大了。