以微信為例,聊聊在內(nèi)容推薦上AI的一些應(yīng)用實(shí)踐

A.D.
0 評(píng)論 6840 瀏覽 17 收藏 37 分鐘
🔗 B端产品经理需要更多地关注客户的商业需求、痛点、预算、决策流程等,而C端产品经理需要更多地关注用户的个人需求

編輯導(dǎo)語(yǔ):AI與產(chǎn)品的融合早已經(jīng)不是什么新鮮事,微信作為內(nèi)容產(chǎn)品服務(wù)的一大提供者,自然也離不開內(nèi)容推薦。而內(nèi)容推薦與AI的結(jié)合,對(duì)微信來說是一大機(jī)遇和挑戰(zhàn)。本文作者以微信為例,和我們聊一聊在內(nèi)容推薦上,AI都有哪些應(yīng)用實(shí)踐。

內(nèi)容推薦一直是流量分發(fā)中十分常見的應(yīng)用方向,如頭條的資訊、抖音的短視頻、網(wǎng)易云音樂等等。而微信也從去年開始逐漸推出更多內(nèi)容產(chǎn)品服務(wù),包括視頻號(hào)、直播、看一看等等,對(duì)于微信而言既是機(jī)會(huì)也是挑戰(zhàn)。

機(jī)會(huì)意味微信已經(jīng)開始探索出屬于自己的內(nèi)容成長(zhǎng)方向,挑戰(zhàn)則是在如何在龐大的流量上,管好內(nèi)容的質(zhì)量輸出、推薦服務(wù)體驗(yàn)。

而本文也將基于微信當(dāng)前的內(nèi)容產(chǎn)品服務(wù),聊一聊微信將在多個(gè)場(chǎng)景服務(wù)上,都可能會(huì)進(jìn)行哪些AI能力實(shí)踐(值得說明一下的是,本文無意從技術(shù)角度探究AI原理,更多從應(yīng)用場(chǎng)景出發(fā)了解當(dāng)前的實(shí)踐情況)。

1. 到底什么是內(nèi)容推薦?

在當(dāng)下娛樂高度消費(fèi)的社會(huì),每個(gè)人幾乎每天都在接觸不同的內(nèi)容產(chǎn)品服務(wù)。尤其是現(xiàn)在推薦算法越發(fā)成熟,對(duì)用戶和內(nèi)容的理解越發(fā)深刻。

諸如頭條的資訊、抖音的短視頻或網(wǎng)易云音樂等等,但這些都是只是用戶能接觸最表層的“事物”,要想提供這樣的服務(wù),背后有著一套成熟的體系。所以在這里也先簡(jiǎn)單科普下,什么叫內(nèi)容推薦服務(wù)。

以上就是一套典型的內(nèi)容推薦服務(wù)體系,具體可以劃分3部分:基礎(chǔ)服務(wù)>內(nèi)容識(shí)別+用戶畫像>推薦引擎。

1.1 基礎(chǔ)服務(wù)

所謂基礎(chǔ)服務(wù),即搭建整個(gè)系統(tǒng)服務(wù)所需的一些基礎(chǔ)能力?;趦?nèi)容、用戶及推薦引擎環(huán)節(jié),這樣的基礎(chǔ)服務(wù)需要涉及內(nèi)容源、工程、數(shù)據(jù)等方面的能力支撐。

  • 內(nèi)容源:主要包含內(nèi)容的引入存儲(chǔ)、處理管理,把眾多非結(jié)構(gòu)化的數(shù)據(jù),或者不同形態(tài)格式的內(nèi)容數(shù)據(jù),以統(tǒng)一結(jié)構(gòu)化的形式管理,便于為后續(xù)內(nèi)容識(shí)別提供統(tǒng)一的方案;
  • 工程:對(duì)于這樣的能力,需要工程端給予性能優(yōu)、高可用的研發(fā)能力支撐,對(duì)服務(wù)的計(jì)算效能、算法模型的推理服務(wù)等都需要較強(qiáng)的支撐;
  • 數(shù)據(jù):在整套服務(wù)中,數(shù)據(jù)是不可或缺的,對(duì)于內(nèi)容的數(shù)據(jù)、用戶的數(shù)據(jù)等等,都構(gòu)筑了以“用戶”維度的畫像特征,本質(zhì)上推薦服務(wù)把合適的內(nèi)容分發(fā)給合適的用戶,那么從數(shù)據(jù)維度識(shí)別用戶,就必不可少,而關(guān)鍵的數(shù)據(jù)就包含用戶信息數(shù)據(jù)(頭像、昵稱、身份信息等)、行為數(shù)據(jù)(如當(dāng)前位置、操作偏好等等)。

1.2 內(nèi)容識(shí)別

這是本文的重點(diǎn)探討內(nèi)容,在推薦服務(wù)中,我們要把“內(nèi)容”這一具體物品給到用戶手上,在此前提上是要對(duì)內(nèi)容進(jìn)行恰當(dāng)?shù)睦斫庾R(shí)別,來支撐更好的推薦。

而這道工序就涉及內(nèi)容安全、內(nèi)容質(zhì)量及內(nèi)容體驗(yàn)等關(guān)鍵應(yīng)用場(chǎng)景,而這部分就涉及大量AI能力的輸出。下文也將重點(diǎn)探索微信是如何在這一環(huán)節(jié)進(jìn)行AI能力實(shí)踐,這里也簡(jiǎn)單介紹幾個(gè)關(guān)鍵的算法技術(shù)方向:

  • NLP:Natural Language Processing,即自然語(yǔ)言處理,通俗來講就是研究計(jì)算機(jī)如何理解人類語(yǔ)言并能進(jìn)行相關(guān)的意圖思考。而時(shí)下文本識(shí)別、關(guān)鍵詞抽取等能力輸出,主要就是立足于這一技術(shù);
  • CV:Computer Vision,即計(jì)算機(jī)視覺,任何關(guān)于圖片、視頻等形式,都主要應(yīng)用這一技術(shù)能力;
  • ASR:Automatic Speech Recognition,即自動(dòng)語(yǔ)言識(shí)別技術(shù),是一種將人的語(yǔ)音轉(zhuǎn)換為文本的技術(shù),例如把視頻中的音頻轉(zhuǎn)譯為文本,從而通過文本識(shí)別方式進(jìn)行處理。而這一技術(shù)難度主要在于環(huán)境干擾程度、語(yǔ)言種類及詞匯表豐富性等等。

1.3 用戶畫像

前面也提到,對(duì)內(nèi)容識(shí)別的同時(shí),也需要對(duì)“用戶”進(jìn)行刻畫識(shí)別,只有對(duì)兩方面都進(jìn)行充分識(shí)別,那么推薦引擎?zhèn)炔拍苓M(jìn)行更好的分發(fā)。

而用戶畫像本質(zhì)上也是對(duì)用戶打標(biāo)簽,至于需要打什么標(biāo)簽,就依賴推薦策略的制定,但基本的身份信息、生理特征、興趣偏好等等都是需要具備的。

1.4 推薦引擎

一個(gè)推薦模型的部署,依賴標(biāo)簽數(shù)據(jù)、推薦策略等形式的組合,其中標(biāo)簽數(shù)據(jù)即來源于對(duì)內(nèi)容、對(duì)用戶的識(shí)別數(shù)據(jù),而推薦策略則基于業(yè)務(wù)目標(biāo)等方式制定,比如基于內(nèi)容排序推薦、基于協(xié)同過濾排序推薦、基于用戶行為偏好等等。

以上就是一套完整的內(nèi)容推薦服務(wù),其中本文重點(diǎn)探討的就是“內(nèi)容識(shí)別”這一環(huán)節(jié)。

2.?微信的內(nèi)容產(chǎn)品矩陣

此前微信的內(nèi)容產(chǎn)品更多的是提供多入口的流量曝光,而在推出視頻號(hào)和直播之后,都開始嘗試以“推薦”為形式的內(nèi)容分發(fā)。

而這樣的推薦,已經(jīng)不僅僅是社交好友間的推薦,更多需要“平臺(tái)”去介入。但是由于推出了較多內(nèi)容產(chǎn)品,不同的內(nèi)容服務(wù)其內(nèi)容源是不一樣的,這就意味著微信需要更多去理解它們當(dāng)前的“內(nèi)容畫像”。

從上圖可以看出,搭建目前已有的內(nèi)容產(chǎn)品服務(wù)涉及3個(gè)關(guān)鍵環(huán)節(jié):

2.1 基礎(chǔ)平臺(tái)

搭建這樣的內(nèi)容生態(tài)服務(wù),少不了底層服務(wù)支撐相應(yīng)的“內(nèi)容消費(fèi)品”,像微信公眾號(hào)提供內(nèi)容推文,微信廣告管理廣告素材的上傳、審核及投放,又或者微信應(yīng)用本身可以發(fā)布相應(yīng)的長(zhǎng)短視頻、社交信息(文本、圖片、視頻、語(yǔ)音等)。

2.2 內(nèi)容信息

通過基礎(chǔ)平臺(tái)所提供的能力,支撐了當(dāng)前大家所熟知的各類內(nèi)容形態(tài)的生產(chǎn)。如文本方面,社交聊天的文字信息、廣告素材的標(biāo)題文案、公眾號(hào)的推文等等。

而這些將積累成為微信一大價(jià)值資源,即原創(chuàng)內(nèi)容源,而微信也可以借助巨大的流量再結(jié)合這些內(nèi)容資源,打造相應(yīng)的內(nèi)容服務(wù)。

2.3 內(nèi)容產(chǎn)品

對(duì)于大眾用戶而言,最終能夠接觸和消費(fèi)體驗(yàn)的內(nèi)容服務(wù),就是應(yīng)用表層。而微信在相繼推出完視頻號(hào)和直播后,已經(jīng)基本形成內(nèi)容產(chǎn)品的應(yīng)用雛形。

即推薦、廣告及搜索于一體的內(nèi)容產(chǎn)品服務(wù),如推薦中的公眾號(hào)推文、視頻號(hào)、直播等等,廣告中的朋友圈廣告、公眾號(hào)廣告?;旧弦呀?jīng)延伸了大眾用戶日常場(chǎng)景中所能觸達(dá)的地方。

3. 一些常見的算法評(píng)估指標(biāo)

為方便理解,這里也簡(jiǎn)單介紹下AI算法能力的常見評(píng)估指標(biāo):準(zhǔn)確率、精確率、召回率、漏報(bào)率、誤報(bào)率。

以微信為例,聊聊在內(nèi)容推薦上AI的一些應(yīng)用實(shí)踐

假設(shè)當(dāng)前有100個(gè)視頻樣本集(已去重),其中是電影類視頻(正樣本)的為70個(gè),非電影類視頻(負(fù)樣本)的為30個(gè)。而針對(duì)這一批樣本集,算法識(shí)別為電影類的視頻為80個(gè),非電影類20個(gè)。

其中人工驗(yàn)證發(fā)現(xiàn)算法識(shí)別為電影類80個(gè)中實(shí)際正確為65個(gè)(正樣例),剩下15個(gè)實(shí)際為非電影類(負(fù)樣例)。識(shí)別為非電影類20個(gè)中實(shí)際正確為15個(gè)(負(fù)樣例),剩下5個(gè)為電影類樣本(正樣例)。

3.1 準(zhǔn)確率

即算法準(zhǔn)確識(shí)別正樣本為正樣例和負(fù)樣本為負(fù)樣例的總個(gè)數(shù),在所有樣本的占比,公式為:

準(zhǔn)確率=(算法預(yù)測(cè)正確的正負(fù)樣本內(nèi)容/所有樣本內(nèi)容)*100%

假設(shè)算法識(shí)別100個(gè)視頻中為電影類視頻有80個(gè),其中65個(gè)是正確的電影類內(nèi)容(正樣例),剩余20個(gè)非電影類視頻中15個(gè)正確的非電影類內(nèi)容(負(fù)樣例),則為:(65+15)/100*100%=80.00%。

3.2 精確率

即算法正確識(shí)別正樣本為正樣例的對(duì)象,在所有識(shí)別對(duì)象(包含負(fù)樣例錯(cuò)誤認(rèn)為正樣例)的占比,公式為:

精確率=(算法預(yù)測(cè)正確的內(nèi)容/算法預(yù)測(cè)的所有內(nèi)容)*100%

假設(shè)算法識(shí)別100個(gè)視頻中為電影類視頻有80個(gè),其中在數(shù)據(jù)驗(yàn)證中發(fā)現(xiàn)80個(gè)里面有65個(gè)是正確的,則為:65/80*100%=81.25%。

3.3 召回率

即算法正確識(shí)別正樣本為正樣例的對(duì)象,在所有內(nèi)容池中實(shí)際正樣本的占比,公式為:

召回率=(算法預(yù)測(cè)正確的內(nèi)容/所有正確的內(nèi)容)*100%

假設(shè)算法識(shí)別100個(gè)視頻中為電影類視頻有80個(gè),其中在數(shù)據(jù)驗(yàn)證中發(fā)現(xiàn)80個(gè)里面有65個(gè)是正確的,而100個(gè)視頻中真正為電影類的70個(gè),則為:65/70*100%=92.85%。

3.4 漏報(bào)率

即算法識(shí)別為正樣例但實(shí)際為負(fù)樣例的對(duì)象,在所有內(nèi)容池中正樣本的占比,公式為:

漏殺率=(算法預(yù)測(cè)錯(cuò)誤的正確內(nèi)容數(shù)/所有實(shí)際的正確內(nèi)容數(shù))*100%

假設(shè)算法識(shí)別100個(gè)視頻中為電影類視頻有80個(gè),即認(rèn)為剩下20個(gè)為非電影類,而在數(shù)據(jù)驗(yàn)證下發(fā)現(xiàn)20個(gè)中有5個(gè)實(shí)際是正確的(即算法未識(shí)別到),則為:5/70*100%=7.14%。

3.5 錯(cuò)報(bào)率

即算法識(shí)別為負(fù)樣例但實(shí)際為正樣例的對(duì)象,在所有內(nèi)容池中負(fù)樣本的占比,公式為:

錯(cuò)報(bào)率=(算法預(yù)測(cè)正確的錯(cuò)誤內(nèi)容數(shù)/所有實(shí)際的錯(cuò)誤內(nèi)容數(shù))*100%

假設(shè)算法識(shí)別100個(gè)視頻中為電影類視頻有80個(gè),其中在數(shù)據(jù)驗(yàn)證中發(fā)現(xiàn)80個(gè)里面有15個(gè)實(shí)際是錯(cuò)誤的,而100個(gè)視頻中實(shí)際為非電影類的有30個(gè),則為:15/30*100%=50.00%。

以上就是算法常規(guī)的效果驗(yàn)證指標(biāo),而通常精確率、召回越高即代表效果越好。

但是不同的業(yè)務(wù)場(chǎng)景不同,標(biāo)準(zhǔn)是不一樣的,有些可能要求高精確低召回,也可能是高精確高召回,所以指標(biāo)效果基準(zhǔn)看業(yè)務(wù)需求而定。但整體重要性依次為:準(zhǔn)確率>精確率>召回率。

4.?內(nèi)容推薦上的一些AI實(shí)踐

大家所接觸被”推薦“的內(nèi)容,其實(shí)是被加工處理過,是一個(gè)近乎合適正確的內(nèi)容給到用戶手上。但是要做到這個(gè)地步,就需要不少的“潛在”工作。在內(nèi)容推薦服務(wù)中,其實(shí)還具備“內(nèi)容安全”、“內(nèi)容質(zhì)量”和“內(nèi)容體驗(yàn)”等3個(gè)環(huán)節(jié)的場(chǎng)景需求。

而在斯洛五層次需求里,對(duì)應(yīng)的便是“生理安全需求”及“尊重需求”。那么接下來,將進(jìn)一步研究在這3個(gè)環(huán)節(jié)上,微信是如何發(fā)揮AI技術(shù)能力的價(jià)值輸出。

4.1 內(nèi)容安全

以微信為例,聊聊在內(nèi)容推薦上AI的一些應(yīng)用實(shí)踐

上圖是微信公眾號(hào)平臺(tái)官方規(guī)范,包含了諸多方面。實(shí)際上內(nèi)容安全是內(nèi)容推薦中的第一步,也是最基礎(chǔ)的一步。

而這里的安全指所推薦的內(nèi)容服務(wù)符合國(guó)家、行業(yè)、平臺(tái)及用戶自身等權(quán)利義務(wù)和法律法規(guī)要求的規(guī)則。廣義上包括了平臺(tái)內(nèi)外的“合規(guī)安全”,平臺(tái)外指國(guó)家規(guī)定、行業(yè)法律等,平臺(tái)內(nèi)則指平臺(tái)規(guī)則、權(quán)利義務(wù)等。

具體來說:

  • 平臺(tái)外:國(guó)家層面是否涉恐、涉政、黃賭毒等,行業(yè)層面是否侵犯版權(quán)(原創(chuàng)聲明)、是否冒認(rèn)等;
  • 平臺(tái)內(nèi):基于平臺(tái)的產(chǎn)品服務(wù)和特性,進(jìn)行平臺(tái)產(chǎn)品的使用規(guī)范,如禁止辱罵、廣告、低俗、灌水等。

針對(duì)以上的敏感內(nèi)容,作為一個(gè)內(nèi)容平臺(tái)是要對(duì)其進(jìn)行安全審核。這里的審核通常是機(jī)器審核和人工審核并行,而AI就是做的機(jī)器審核。

4.1.1 場(chǎng)景價(jià)值

安全是產(chǎn)品是否能持久發(fā)展的生命線,如果一旦觸碰底線,對(duì)網(wǎng)絡(luò)公共環(huán)境、文化傳播都有較大的負(fù)面影響。一旦平臺(tái)出現(xiàn)觸碰底線的內(nèi)容,輕則舉報(bào)投訴或下線整改,重則可能直接被關(guān)停。

大家可以留意為什么會(huì)經(jīng)常有”談話“,以及為什么時(shí)不時(shí)會(huì)有些“產(chǎn)品”被點(diǎn)名并要求各應(yīng)用商店下架,其中一部分原因就是產(chǎn)品服務(wù)在傳播有損公共利益,造成不良影響的內(nèi)容。所以不管是哪家公司產(chǎn)品,這都是需要十分關(guān)注的。

4.1.2 能力輸出

當(dāng)前行業(yè)內(nèi),對(duì)內(nèi)容安全審核這一環(huán)都有各自成熟的產(chǎn)品能力輸出。譬如百度、騰訊、阿里和網(wǎng)易(易盾)等。通常對(duì)于這塊的AI能力輸出,對(duì)于微信而言,存在以下的應(yīng)用實(shí)踐:

4.1.2.1 能力類型

以微信為例,聊聊在內(nèi)容推薦上AI的一些應(yīng)用實(shí)踐

由于微信的內(nèi)容形式較多,但有些是單一的內(nèi)容形態(tài),如純文本的聊天信息、朋友圈動(dòng)態(tài)等等。但也有多形態(tài)集合的內(nèi)容服務(wù),譬如公眾號(hào)推文、視頻號(hào)的視頻內(nèi)容等等。

不同的形態(tài),所采用的AI能力也是有差異的(在算法規(guī)則上):

  • 單一內(nèi)容服務(wù):?jiǎn)我坏膬?nèi)容形式,只要做采用直接對(duì)應(yīng)的AI算法能力即可。比如文字則依據(jù)NLP能力進(jìn)行文本檢測(cè)審核,圖片則用CV中的圖片檢測(cè)審核。
  • 多內(nèi)容服務(wù):多個(gè)形態(tài)集合的內(nèi)容服務(wù),舉個(gè)例子像公眾號(hào)推文就涉及標(biāo)題文本(30個(gè)字符內(nèi))、圖片、視頻、摘要、正文(字符不限)。由于這里涉及較多形態(tài),這里的算法能力輸出會(huì)更為復(fù)雜。

a. 文本檢測(cè)審核

主要采用NLP方向的算法能力,針對(duì)文本進(jìn)行安全規(guī)則審核。

而這些規(guī)則d主要結(jié)合國(guó)家法律法規(guī)、平臺(tái)規(guī)范等方面而開發(fā)相應(yīng)的算法模型。譬如可以識(shí)別辱罵、廣告、涉政等內(nèi)容。而這里的文本檢測(cè)除了考驗(yàn)詞庫(kù)數(shù)據(jù)豐富性,還有考驗(yàn)不同語(yǔ)言的復(fù)雜性。

b. 圖像檢測(cè)審核

主要采用CV方向的算法能力,這里的圖像檢測(cè)包含純圖片及視頻內(nèi)容的審核,實(shí)際上視頻是由多張圖片(即一幀幀)組合而成,所以本質(zhì)上兩者都?xì)w屬在圖像檢測(cè)審核。

但是由于視頻較長(zhǎng),基于技術(shù)限制不可能把每一幀都進(jìn)行檢測(cè),通常會(huì)基于一定策略(隨機(jī)、按比例抽取等)進(jìn)行截幀檢測(cè)。同時(shí)圖像的檢測(cè)會(huì)混合多種技術(shù)進(jìn)行支撐,譬如OCR檢測(cè)識(shí)別文本內(nèi)容、NER實(shí)體識(shí)別具體內(nèi)容(如人物、商品)。

c. 語(yǔ)音檢測(cè)審核

語(yǔ)音檢測(cè)從另外一種方式,就是把語(yǔ)音轉(zhuǎn)譯成文本,既而采用文本的方式進(jìn)行檢測(cè)審核。所以可以把其當(dāng)作另一種文本檢測(cè)方式,但這里關(guān)鍵在于保證語(yǔ)音變成文本后的準(zhǔn)確性。

  • 難點(diǎn)1:多個(gè)形態(tài)及形態(tài)不一的算法能力檢測(cè),對(duì)算法的技術(shù)指標(biāo)有更高要求。比如標(biāo)題文本字符有限,檢測(cè)對(duì)象的難度較低,但推文的正文卻是字符數(shù)不確定,詞句之間也有更復(fù)雜的語(yǔ)言變化,那么同樣做文本審核就更為困難;
  • 難點(diǎn)2:多內(nèi)容之間存在語(yǔ)義關(guān)聯(lián)(即多模態(tài)分析)。再譬如視頻號(hào)的視頻從標(biāo)題、封面、摘要都沒有問題,都含有某一政治人物,但是在視頻中出現(xiàn)了一個(gè)文字特效,這個(gè)文本內(nèi)容同樣表達(dá)辱罵性質(zhì)的,那么這樣關(guān)聯(lián)起來也是有問題的。

4.1.2.2 審核范圍

大體而言,兩種主要的審核類型,以上為其支持檢測(cè)范圍內(nèi)。那么基于這些情況,微信會(huì)基于不同的產(chǎn)品服務(wù)進(jìn)行相應(yīng)的安全檢測(cè)。直觀地看,其實(shí)可以從下圖可以看出。

  • 圖中左側(cè)的2張圖,是典型的文本檢測(cè)審核案例,從這里可以看出這是不同文本做出了是否正常及問題點(diǎn)的安全檢測(cè);
  • 圖中右側(cè)的2張圖,尤其是“已停止訪問該網(wǎng)頁(yè)”圖,這是大家常見微信的一種的異常處理方式,顯然這是一個(gè)垃圾廣告營(yíng)銷性質(zhì)的推文而被封禁。而最后一張圖則是正常的一篇推文,對(duì)標(biāo)題、視頻中的文本、水印等其實(shí)也會(huì)進(jìn)行相關(guān)檢測(cè),完成安全審核。

4.1.2.3 小結(jié)

大家日常在微信所能看到的內(nèi)容,其實(shí)是做了一定內(nèi)容安全而審核過濾的。

但是通常平臺(tái)不會(huì)百分比交給AI來實(shí)現(xiàn),因?yàn)橛行┳R(shí)別存在邊界模糊的情況,而這些內(nèi)容本身存在極高敏感性。所以通常在內(nèi)容安全場(chǎng)景,都會(huì)進(jìn)行“機(jī)審“和”人審“的結(jié)合,最大程度保證安全。

所以在安全審核場(chǎng)景下所涉及的AI算法,諸如文本圖片的高敏、低俗等,會(huì)相對(duì)關(guān)注“漏報(bào)率”和“誤報(bào)率”,簡(jiǎn)單來說,對(duì)于平臺(tái)而言審核錯(cuò)了,重新開放即可。

但是一旦安全審核漏了,最終呈現(xiàn)給用戶,如果內(nèi)容惡劣程度十分之高,那么將會(huì)造成極大的負(fù)面影響。所以這兩個(gè)指標(biāo)也是該場(chǎng)景的各類算法尤其關(guān)注。

4.2 內(nèi)容質(zhì)量

內(nèi)容質(zhì)量是內(nèi)容推薦過程中是否高優(yōu)推薦的一個(gè)標(biāo)準(zhǔn)。而所謂內(nèi)容質(zhì)量,除了內(nèi)容合規(guī)、社交好友推薦以外,單看這一內(nèi)容本身是否為原創(chuàng)、篇幅(視頻時(shí)長(zhǎng))長(zhǎng)度、內(nèi)容結(jié)構(gòu)是否清晰簡(jiǎn)潔(標(biāo)題黨、圖文不符)、視頻圖片是否清晰等等。

但由于這一類型內(nèi)容本身有著復(fù)雜的語(yǔ)義關(guān)系,如果要通過AI完全判斷是否高質(zhì)量其實(shí)是很難的,因?yàn)楸旧頉]有一個(gè)常規(guī)的標(biāo)準(zhǔn)。但是一些基礎(chǔ)的判斷是可以做到的,譬如圖片質(zhì)量、文章質(zhì)量等等。

4.2.1 場(chǎng)景價(jià)值

對(duì)于很多內(nèi)容創(chuàng)作者而言,可能也都清楚當(dāng)內(nèi)容的“質(zhì)量”達(dá)到一定水平,一般官方平臺(tái)都會(huì)加大推薦力度。

因?yàn)榧偃鐑?nèi)容作品質(zhì)量欠佳,過多推薦一是影響平臺(tái)的調(diào)性,二是消耗用戶的興趣度,長(zhǎng)期以往只會(huì)造成更大的損失的。因?yàn)楹玫膬?nèi)容,才能真正挽留及打動(dòng)用戶。

4.2.2 能力輸出

從上圖可以看出,左1顯示微信直播游戲垂類下,動(dòng)物封面和品類風(fēng)格推薦不一致的情況。而右側(cè)的2張圖,則是高清晰和模糊畫質(zhì)視頻的對(duì)比。而這些都是內(nèi)容推薦上,常遇到的質(zhì)量問題。

那么針對(duì)在質(zhì)量檢測(cè)上,同樣有諸多場(chǎng)景將可以值得探索。而在微信內(nèi),主要可以有2大維度“內(nèi)容結(jié)構(gòu)、素材質(zhì)量”進(jìn)行實(shí)踐。

4.2.1.1 內(nèi)容結(jié)構(gòu)

常見包括標(biāo)題黨、圖文不符(即文中插圖、封面插圖與內(nèi)容無關(guān))、聲畫不符(即視頻內(nèi)容和音頻內(nèi)容不一致)等場(chǎng)景。

4.2.1.2 素材質(zhì)量

包括清晰度(圖片、視頻等)、音頻質(zhì)量(如卡頓、無聲、噪音等)、聲畫不同步(如延遲)等場(chǎng)景。

  • 清晰度:有時(shí)候視頻或者圖片的清晰度,會(huì)影響用戶感官感受。清晰度的識(shí)別也是當(dāng)前內(nèi)容分發(fā)中常見的應(yīng)用場(chǎng)景。而這一能力主要能夠識(shí)別當(dāng)前圖片或圖像是正?;蚴悄:辱b別,那么這里就依賴多個(gè)技術(shù)集合,如人臉檢測(cè)(人物主體是否清晰)、分辨率識(shí)別(圖片截幀識(shí)別分辨率或像素)、OCR等等;
  • 音頻質(zhì)量:如果是視頻內(nèi)容或者是音樂內(nèi)容,那么就需要注意當(dāng)前分發(fā)的音頻是否出現(xiàn)卡頓、無聲或噪音等等,如果能從AI上進(jìn)行這樣的支撐,則能在分發(fā)時(shí)就規(guī)避這些低質(zhì)量?jī)?nèi)容;
  • 聲畫不同步:實(shí)際這也是存在的場(chǎng)景之一,即視頻在播放過程中,音頻會(huì)出現(xiàn)延遲或提早,與視頻當(dāng)前播放內(nèi)容出現(xiàn)不一致,其實(shí)這樣也會(huì)影響體驗(yàn)效果。

4.2.1.3 技術(shù)支撐

針對(duì)以上的場(chǎng)景,輸出相應(yīng)的AI能力前提也是需要依賴更多的技術(shù)手段作為支撐。

其中有幾個(gè)有些比較抽象,無法理解。那么這里舉個(gè)例子,來介紹一下。假設(shè)需要判斷圖中中間的視頻內(nèi)容,確實(shí)與主題內(nèi)容相關(guān),需要分別進(jìn)行哪些能力支撐。

  • OCR檢測(cè):因?yàn)槭且曨l,需要通過OCR來識(shí)別其中的文本,如彈幕、水印等,來收集數(shù)據(jù);
  • 關(guān)鍵詞抽?。和ㄟ^OCR識(shí)別的文本,視頻本身的標(biāo)題等,進(jìn)行一系列的“關(guān)鍵詞”抽取,可以識(shí)別出諸如“電影”、“海報(bào)”、“愛樂之城”、“高司令”等關(guān)鍵詞。但是這些關(guān)鍵詞都是獨(dú)立個(gè)體數(shù)據(jù),沒有關(guān)系,那么接下來就需要知識(shí)圖譜及NER來進(jìn)行進(jìn)一步的“聯(lián)結(jié)”;
  • 知識(shí)圖譜:結(jié)合NER實(shí)體識(shí)別以及上述的關(guān)鍵詞,基于知識(shí)圖譜關(guān)系來梳理出“電影-愛樂之城-男主角高司令”等這一系列有序的數(shù)據(jù);

內(nèi)容分類:實(shí)質(zhì)為分類標(biāo)簽,即對(duì)內(nèi)容打標(biāo)進(jìn)行各級(jí)分類,從以上的數(shù)據(jù)可以看出它是屬于電影類(一級(jí)分類)-歐美電影(二級(jí)分類)這樣的關(guān)系。分類的全面性及細(xì)粒度體驗(yàn)當(dāng)前平臺(tái)的分類標(biāo)簽?zāi)芰?。如果平臺(tái)足夠儲(chǔ)備這樣的分類數(shù)據(jù),結(jié)合以上的數(shù)據(jù),就可以快速識(shí)別該內(nèi)容是一致的,可以進(jìn)行推薦池基于推薦規(guī)則進(jìn)行分發(fā)。

4.3 內(nèi)容體驗(yàn)

在做了內(nèi)容安全、內(nèi)容質(zhì)量的環(huán)節(jié)后,內(nèi)容在推薦過程中已經(jīng)得到了一定的分發(fā)。但是此前都是針對(duì)單一內(nèi)容作品進(jìn)行AI能力支撐,而在推薦過程中,以及多內(nèi)容分發(fā)時(shí),遇到的又是另一重問題。

而內(nèi)容體驗(yàn)指的是內(nèi)容在推薦過程中,所給用戶帶來的體驗(yàn)感受。基于這樣服務(wù)場(chǎng)景,AI同樣可以進(jìn)行一些能力輸出探索。

4.3.1 場(chǎng)景價(jià)值

大家在體驗(yàn)信息流推薦時(shí),譬如抖音或者當(dāng)前微信視頻號(hào)的推薦頻道,大多基于用戶偏好、行為偏好等方面進(jìn)行策略推薦,這樣就有一系列體驗(yàn)問題:

  • 假設(shè)作為消費(fèi)型用戶,我喜歡體育及科比球星,那么是否推薦都給我推薦科比的視頻?
  • 假設(shè)作為內(nèi)容生產(chǎn)型用戶,大家都創(chuàng)作了科比的視頻,你一個(gè)我一個(gè)都這樣推薦給用戶,看著對(duì)內(nèi)容生產(chǎn)者有利益,但對(duì)于普通用戶而言是否就有幫助?
  • 假設(shè)作為內(nèi)容生產(chǎn)型用戶,我手上有幾個(gè)視頻號(hào)自媒體矩陣(以及都有較高的粉絲量),但是這幾個(gè)賬號(hào)里面有些作品內(nèi)容是幾乎重復(fù)的。那么作為平臺(tái)方,該如何規(guī)避這些不同賬號(hào)但旗下內(nèi)容重復(fù)的分發(fā)?
  • 假設(shè)有一個(gè)地域性的新聞視頻,所報(bào)道的內(nèi)容是跟深圳本地強(qiáng)相關(guān)的,但是在沒有做分類及位置信息的前提下,怎么最大化地把這個(gè)內(nèi)容合適推薦給本地信息流里面去?
  • 單看某一條內(nèi)容從安全、質(zhì)量?jī)蓚€(gè)層面來看都是ok的,但是僅僅考慮這兩點(diǎn)是完全不夠的,關(guān)注用戶在內(nèi)容推薦中的體驗(yàn)情況,并持續(xù)優(yōu)化,最終反哺平臺(tái)發(fā)展(譬如因?yàn)轶w驗(yàn)更好增加停留時(shí)長(zhǎng)、互動(dòng)次數(shù)頻繁等等)。

4.3.2 能力輸出

在已經(jīng)完成了安全和質(zhì)量檢測(cè)后,內(nèi)容已經(jīng)具備一定的可觀賞性。

那么想要進(jìn)一步改善用戶體驗(yàn),主要在于推薦的內(nèi)容是否準(zhǔn)確和契合用戶喜好,而這部分更多是推薦策略的工作。那么剩下的就是使用體驗(yàn)上盡可能得到提升。那么在此環(huán)節(jié),算法所能服務(wù)的應(yīng)用場(chǎng)景主要涉及3個(gè)方向。

4.3.1.1 內(nèi)容重復(fù)

這類問題場(chǎng)景,是時(shí)下內(nèi)容推薦業(yè)務(wù)最常見的問題。

一個(gè)原因在于創(chuàng)作者本身是多媒體矩陣,可能不同的賬號(hào)會(huì)進(jìn)行同內(nèi)容的發(fā)布。其二是內(nèi)容平臺(tái)本身也會(huì)從第三方平臺(tái)引入內(nèi)容,本身內(nèi)容的來源歸屬就不可控,所以也不可避免引入的內(nèi)容會(huì)和其他第三方平臺(tái)內(nèi)容存在重復(fù)。

包括短視頻推薦、新聞資訊推薦、直播推薦等等,大家可能在日常中都會(huì)偶然刷到重復(fù)內(nèi)容,這里重復(fù)的情況主要分為2種:

  1. 純內(nèi)容重復(fù):即內(nèi)容完全或接近一致。這種可能存在同一賬戶下多條內(nèi)容重合,或不同賬戶下同一條相似內(nèi)容重合。從上圖中的左側(cè)1、2可以看出,這是同一時(shí)段內(nèi)(23點(diǎn)34-35分間),同一條相似內(nèi)容在不同的賬戶下發(fā)生重復(fù)現(xiàn)象。明顯微信在這方面其實(shí)還沒做到精細(xì)化的管理,但是AI能力上,其實(shí)是可以進(jìn)行“重復(fù)”判斷及置信度的反饋,獲取這樣的算法標(biāo)簽時(shí),在內(nèi)容推薦分發(fā)上就可以一定程度上規(guī)避這樣的情況。即假設(shè)用戶已在頭一條成功曝光和觀看內(nèi)容,則在相似的下一條基于已有重復(fù)標(biāo)簽,在去重時(shí)間窗口內(nèi)(如3個(gè)月內(nèi))進(jìn)行過濾分發(fā)。
  2. 主題性重復(fù):即在內(nèi)容推薦過程中,主題分類或話題性十分相似。譬如前面提到科比視頻,如果在視頻推薦中前10條中7條都是科比的(盡管具體內(nèi)容不同),但是基于偏好不能直接分發(fā)給用戶,因?yàn)檫@樣看似迎合了用戶喜好,但實(shí)際反而造成用戶觀賞疲勞,相似性內(nèi)容太多缺乏好奇性和新鮮性,最終影響對(duì)平臺(tái)的感官感受。這里的支撐,依賴于主題分類的規(guī)則制定。

4.3.1.2 內(nèi)容分類

垂直分類是內(nèi)容推薦的一個(gè)重要支撐點(diǎn),因?yàn)橛脩舯旧碛袑?duì)某些特定的領(lǐng)域會(huì)有強(qiáng)偏好表現(xiàn),那么在推薦上就要有所側(cè)重。但是用戶主動(dòng)選擇主題分類發(fā)布本身是一個(gè)不確定性行為,甚至有些還選不正確(有邊界模糊)。

所以這時(shí)候AI算法就可以協(xié)同進(jìn)行“分類打標(biāo)”,但是技術(shù)側(cè)能把海量的視頻進(jìn)行準(zhǔn)確分類打標(biāo),也是行業(yè)常見的一個(gè)困難點(diǎn)。

并且分類不僅僅是一級(jí)分類,還要盡可能做到更細(xì)粒度的分類,即多級(jí)分類,如電影、電影_紀(jì)錄片、電影_紀(jì)錄片_人物傳記。分類是否科學(xué)、標(biāo)簽是否準(zhǔn)確,都極具考驗(yàn)。

舉個(gè)例子,仍舊以科比視頻而言:左側(cè)為科技的紀(jì)錄片視頻,右側(cè)是關(guān)于科比體育比賽視頻,本身都帶有體育、科比、競(jìng)技性質(zhì)內(nèi)容,但兩者卻屬于不同的視頻類別,這對(duì)AI而言,需要建立全面和準(zhǔn)確的分類標(biāo)簽體系,這就需要大量的AI技術(shù)做支撐。

4.3.1.3 地域識(shí)別

基于地理位置增加內(nèi)容分發(fā)曝光的機(jī)率,是當(dāng)前各大內(nèi)容產(chǎn)品基本都會(huì)采用手段。從微信的視頻發(fā)布及直播中支持“添加位置”以及同城視頻分發(fā)的功能,就可見其重要性。

那么假如當(dāng)前內(nèi)容沒有標(biāo)記地理位置信息,又該如何去識(shí)別內(nèi)容對(duì)應(yīng)的地域?qū)傩??不同的?nèi)容形態(tài),采用不同的方式。

像圖文資訊(類似公眾號(hào)推文),則可從文本中切割關(guān)鍵詞進(jìn)行地域信息提取,以及加工處理組合成結(jié)構(gòu)化的地域?qū)傩浴6曨l內(nèi)容也是類似,只是因?yàn)閳D片算法檢測(cè),需先通過OCR識(shí)別或各類物品識(shí)別提取文本數(shù)據(jù),繼而進(jìn)行相應(yīng)的地域?qū)傩宰R(shí)別。

5.?總結(jié)

以上就是結(jié)合當(dāng)前內(nèi)容推薦業(yè)務(wù)和微信的內(nèi)容生態(tài)狀況,作出了AI所能應(yīng)用實(shí)踐的探索研究。但文中提及的應(yīng)用實(shí)踐也許只是冰山一角,畢竟整個(gè)生態(tài)服務(wù)十分之龐大,能夠做到各類的精細(xì)化服務(wù)是長(zhǎng)期的工作。

此外,關(guān)于微信在這方面的內(nèi)容推薦實(shí)踐上,未來仍舊還有不少工作需要落地:

  1. 微信的內(nèi)容推薦業(yè)務(wù)還處于起步階段,尤其是視頻推薦,未來的質(zhì)量和效果體驗(yàn)將會(huì)有較大的提升,而AI在其中的實(shí)踐也將有較大的空間進(jìn)行發(fā)揮;
  2. 整體而言,微信已經(jīng)搭建了基本的內(nèi)容推薦服務(wù)產(chǎn)品體系,但是在功能完備上,當(dāng)前還是比較克制。尤其是新推出的視頻號(hào)、直播,對(duì)比同類型競(jìng)品,所能實(shí)現(xiàn)的能力還是偏少。但個(gè)人認(rèn)為微信更多在探索屬于自己特性的內(nèi)容發(fā)展方向,無意成為另一個(gè)常規(guī)的推薦系統(tǒng)、直播系統(tǒng);
  3. 當(dāng)前微信的內(nèi)容推薦業(yè)務(wù)更多的只是發(fā)揮流量分發(fā)作用,即引入外部?jī)?nèi)容源到微信生態(tài)中進(jìn)行消費(fèi),實(shí)際還缺少了標(biāo)準(zhǔn)統(tǒng)一的“內(nèi)容生產(chǎn)”環(huán)節(jié)。一個(gè)內(nèi)容產(chǎn)品服務(wù)除了推薦側(cè)做得足夠好,在內(nèi)容源也是至關(guān)重要,所以在構(gòu)建自身的內(nèi)容庫(kù)方面,微信還有很長(zhǎng)的路要走;
  4. 內(nèi)容本質(zhì)上依賴創(chuàng)作者的輸出,即PGC和UGC的共生,但是基于內(nèi)容賬戶體系的建立,尚未形成集合賬號(hào)、內(nèi)容于一體的賬戶等級(jí)服務(wù)體系。同時(shí)“原創(chuàng)”作品在一個(gè)平臺(tái)的價(jià)值是十分大的,參考當(dāng)前各大內(nèi)容廠商,都在推出創(chuàng)作者計(jì)劃并扶持各自優(yōu)質(zhì)的內(nèi)容創(chuàng)作者。

最后,如果大家想要對(duì)AI技術(shù)有進(jìn)一步的了解,不妨多關(guān)注騰訊云、阿里云、百度大腦及網(wǎng)易等多個(gè)平臺(tái),在人工智能領(lǐng)域的一些技術(shù)探索。

#專欄作家#

A.D,公眾號(hào):吾某,人人都是產(chǎn)品經(jīng)理專欄作家。大數(shù)據(jù)分析產(chǎn)品經(jīng)理,專注數(shù)據(jù)挖掘工作。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自圖蟲

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!
专题
14735人已学习14篇文章
用户生命周期是每个产品经理都必须要注意的一个点,它能够衡量用户对产品产生的价值,也是运营手段的最终衡量指标。本专题的文章分享了如何做好用户生命周期管理。
专题
37679人已学习20篇文章
“搜索功能”拆解:小功能,大细节。
专题
14991人已学习13篇文章
在产品的商业模式中,广告变现占据了很大的比重,那么广告功能就是产品里面非常重要的功能之一。本专题的文章分享了如何搭建广告投放系统。
专题
14735人已学习15篇文章
智能硬件产品经理需要做什么工作内容呢?与互联网产品经理有什么区别呢?本专题为刚入行的智能硬件产品经理分享了入门指南。
专题
12916人已学习17篇文章
在一些老系统可能会有流程复杂、扩展性不强的问题,此时便需要进行重构。本专题的文章分享了产品重构指南。
专题
35723人已学习18篇文章
好的数据分析可以使我们的产品不断优化,而做好数据分析的第一步就是做好数据埋点。