AI產(chǎn)品經(jīng)理的入門必修課(4)——知識(shí)圖譜

3 評(píng)論 13310 瀏覽 50 收藏 17 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

編輯導(dǎo)語(yǔ):通過(guò)知識(shí)圖譜,不僅可以將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式;本文作者分享了關(guān)于AI產(chǎn)品經(jīng)理的知識(shí)圖譜簡(jiǎn)介以及利用,我們一起來(lái)了解一下。

01 為什么要了解知識(shí)圖譜

AI核心要研究的是如何讓計(jì)算機(jī)去完成以往需要人的智力才能勝任的工作,而人的智能性核心體現(xiàn)在對(duì)不同事物的感知能力、推理能力、決策能力;因此要想做出AI產(chǎn)品就離不開(kāi)對(duì)感知的研究,推理機(jī)制的研究以及智能決策方向的研究。

對(duì)感知智能而言,AI已經(jīng)做了很多突破,例如機(jī)器對(duì)聽(tīng)覺(jué)、視覺(jué)、觸覺(jué)的感知能力,通過(guò)攝像頭、麥克風(fēng)或者其他的傳感設(shè)備,借助語(yǔ)音識(shí)別、圖像識(shí)別的一些算法模型,能夠進(jìn)行識(shí)別和理解。

感知智能的發(fā)展能夠采集到海量的不同來(lái)源及不同存儲(chǔ)方式的數(shù)據(jù),如果想要用這些數(shù)據(jù)做出具體場(chǎng)景化的應(yīng)用,目前市面上常用的方式有兩種:

  • 統(tǒng)計(jì)分析,也就是在業(yè)務(wù)中做的最多的數(shù)據(jù)理解和分析,包括了語(yǔ)義分析、情感分析,及各種指標(biāo)分析的數(shù)據(jù)可視化。
  • 決策,基于收集或者產(chǎn)生的數(shù)據(jù)去做自動(dòng)化決策,或者智能推薦、智能問(wèn)答等。而在做這些內(nèi)容時(shí)依賴的核心技術(shù)就是知識(shí)圖譜相關(guān)的技術(shù)。

02 知識(shí)圖譜是什么

了解知識(shí)圖譜是什么之前,先了解數(shù)據(jù)、信息、知識(shí)之間的關(guān)系。

  • 數(shù)據(jù)是指聲音、圖像、符號(hào),通常指最原始的記錄,數(shù)據(jù)間彼此孤立,沒(méi)有經(jīng)過(guò)加工和解釋。
  • 信息是指數(shù)據(jù)經(jīng)過(guò)加工處理后,建立了某種聯(lián)系或增加了某些屬性;信息可以經(jīng)過(guò)加工和處理轉(zhuǎn)化為數(shù)據(jù)進(jìn)行存儲(chǔ),數(shù)據(jù)是信息的表現(xiàn)形式。
  • 知識(shí)是通過(guò)實(shí)踐獲得的認(rèn)識(shí)或經(jīng)驗(yàn)的總和,可以是已經(jīng)文本化的知識(shí),也可以是存儲(chǔ)在大腦中的認(rèn)知。

eg:

「38.5」這是一條數(shù)據(jù),不具有任何意義。

「小明測(cè)量體溫為38.5度」這是一條信息,并且38.5是一個(gè)關(guān)鍵指標(biāo)。

「正常人體的溫度為36-37度,當(dāng)體溫超過(guò)基礎(chǔ)體溫1度及以上時(shí),即認(rèn)為發(fā)熱,而不同的溫度范圍又可分為低熱、高熱…」這是一條知識(shí),是通過(guò)許多病例、實(shí)驗(yàn)總結(jié)出的公認(rèn)正確的。

「小明發(fā)熱了,因?yàn)樗w溫為38.5度」這個(gè)結(jié)果是由知識(shí)推理而來(lái)的。

知識(shí)圖譜是基于圖模型來(lái)描述知識(shí)以及構(gòu)建關(guān)聯(lián)關(guān)系模型的技術(shù)手段,現(xiàn)實(shí)世界中常用到的知識(shí),或者我們腦海中記住的知識(shí),通常是一段描述性的話;而知識(shí)圖譜就是將某段描述知識(shí)的話抽象成主體、屬性、關(guān)系的三元組,并利用圖譜的形式呈現(xiàn)出來(lái)。

如下圖即是一個(gè)簡(jiǎn)單的知識(shí)圖譜,「張柏芝」、「謝霆鋒」、「王菲」是人物主體;「出生年月」、「性別」、「年齡」為主體屬性;「前妻」、「現(xiàn)任女友」、「情敵」為知識(shí)抽象出的關(guān)系。

AI產(chǎn)品經(jīng)理的入門必修課(4)——知識(shí)圖譜

知識(shí)推理過(guò)程

“前妻”知識(shí):

男女雙方在法律上曾經(jīng)成立過(guò)婚姻,后通過(guò)協(xié)議或訴訟的方式解除了婚姻,終止了夫妻間權(quán)利和義務(wù),對(duì)男方而言稱呼女方為前妻。

推理過(guò)程:

張柏芝和謝霆鋒之間在法律上曾經(jīng)成立過(guò)婚姻,后解除了婚姻,且張柏芝是女性,因此張柏芝是謝霆鋒的前妻。

在知識(shí)圖譜技術(shù)中,「張柏芝」、「謝霆鋒」、「王菲」被稱為節(jié)點(diǎn),節(jié)點(diǎn)可以是實(shí)體也可以是抽象出的概念;加粗的黑線稱為邊,表現(xiàn)實(shí)體或概念之間的關(guān)系,如「張柏芝」和「謝霆鋒」的關(guān)系是「前妻」。

圖中每一個(gè)圓都是一個(gè)節(jié)點(diǎn),連接圓的直線都是邊,可以看出知識(shí)圖譜是由節(jié)點(diǎn)和邊組成;而節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊,可以是屬性、也可以是關(guān)系,例如「張柏芝」、「謝霆鋒」之間的邊代表的是關(guān)系,「張柏芝」、「性別:女」之間的邊代表的是屬性。

可以用來(lái)做什么?

最早知識(shí)圖譜的應(yīng)用是用來(lái)提升搜索引擎的能力,早期的搜索,是依賴網(wǎng)頁(yè)間的超鏈接、搜索關(guān)鍵詞與網(wǎng)頁(yè)包含關(guān)鍵詞的匹配關(guān)系進(jìn)行精確或模糊搜索。

但互聯(lián)網(wǎng)終極形態(tài)是萬(wàn)物的互聯(lián),搜索的終極目的也是對(duì)萬(wàn)物的直接搜索,因此僅依靠關(guān)鍵詞之間的匹配不足以滿足日益豐富的搜索需求。

在傳統(tǒng)的搜索模式下,當(dāng)我們搜索「謝霆鋒的前妻是誰(shuí)?」,檢索結(jié)果可能是某個(gè)網(wǎng)頁(yè)中包含了「謝霆鋒的前妻是張柏芝」這句話,我們才能找到網(wǎng)頁(yè),在從網(wǎng)頁(yè)中的信息中得知謝霆鋒的前妻是張柏芝這個(gè)結(jié)論。

AI產(chǎn)品經(jīng)理的入門必修課(4)——知識(shí)圖譜

而上圖知識(shí)圖譜的建立,當(dāng)搜索需求產(chǎn)生時(shí)會(huì)快速的返回「張柏芝」及個(gè)人信息。

AI產(chǎn)品經(jīng)理的入門必修課(4)——知識(shí)圖譜

知識(shí)圖譜的構(gòu)建原理及流程?

知識(shí)圖譜的構(gòu)建通常分為兩類,一類是開(kāi)放域的知識(shí)圖譜、一類是垂直領(lǐng)域的知識(shí)圖譜;像google、百度搜索等搜索引擎建立的知識(shí)圖譜屬于開(kāi)放域的,像某個(gè)領(lǐng)域,電商、金融、圖情、生活?yuàn)蕵?lè)等基于具體領(lǐng)域和場(chǎng)景構(gòu)建的知識(shí)圖譜為垂直領(lǐng)域的知識(shí)圖譜。

兩種圖譜的場(chǎng)景應(yīng)用不太一樣,但涉及的底層邏輯和構(gòu)建流程是相似的。

知識(shí)圖譜的構(gòu)建涉及了知識(shí)表示、知識(shí)獲取、知識(shí)處理和知識(shí)利用等多方面。

知識(shí)表示:

簡(jiǎn)單理解就是設(shè)計(jì)者把得到的知識(shí),針對(duì)各種問(wèn)題的類型和場(chǎng)景,設(shè)計(jì)成多種表現(xiàn)形式,而使用者可以直接使用這種設(shè)計(jì)好的表示方法來(lái)代表這類知識(shí)信息。

例如我作為系統(tǒng)設(shè)計(jì)者,我定義了“V”為“或”的意思,其它使用者均可用“V”代表“或”。

知識(shí)獲?。?/p>

指人通過(guò)設(shè)計(jì)、程序編碼、人機(jī)交互使機(jī)器獲取知識(shí);例如人為建立知識(shí)庫(kù),讓專家系統(tǒng)來(lái)獲取知識(shí),大部分都是通過(guò)人工的方式將人類的知識(shí)存儲(chǔ)到機(jī)器中,這個(gè)過(guò)程就是知識(shí)獲取的過(guò)程。

  • 知識(shí)庫(kù)是相互關(guān)聯(lián)的事實(shí)及數(shù)據(jù)的集合,常被用來(lái)支持專家系統(tǒng),是專業(yè)領(lǐng)域內(nèi)規(guī)則的集合,包含了規(guī)則所聯(lián)系的所有關(guān)系和數(shù)據(jù)。
  • 專家系統(tǒng)是人工智能研究方向之一,是指利用人類某個(gè)領(lǐng)域?qū)<医鉀Q問(wèn)題的知識(shí)或者方法來(lái)進(jìn)行程序化,依賴知識(shí)庫(kù)中的知識(shí)體系來(lái)進(jìn)行決策。

知識(shí)處理:

包含了知識(shí)的加工、邏輯判斷、推理、知識(shí)輸出的過(guò)程。

nlp自然語(yǔ)言處理是知識(shí)處理的核心。

知識(shí)利用:

將規(guī)范的知識(shí)結(jié)構(gòu)應(yīng)用到具體的場(chǎng)景之中,創(chuàng)造價(jià)值。

在構(gòu)建技術(shù)上,數(shù)據(jù)和算法是知識(shí)圖譜的底層支持,包含了信息表示、信息抽取、信息融合、信息推理和信息決策等多個(gè)階段。

信息來(lái)源:

通常可以通過(guò)多個(gè)渠道或者來(lái)源來(lái)獲取知識(shí)圖譜的數(shù)據(jù),包含了文本、結(jié)構(gòu)化數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)、傳感器數(shù)據(jù)、人工眾包數(shù)據(jù)等。

信息表示:

利用計(jì)算機(jī)語(yǔ)言來(lái)描述人腦或者文本中的知識(shí),來(lái)幫助進(jìn)行下一步推理。

應(yīng)用到的技術(shù)手段,例如文本數(shù)據(jù),通常會(huì)使用nlp自然語(yǔ)言處理技術(shù),進(jìn)行實(shí)體識(shí)別、實(shí)體鏈接、關(guān)系抽取、事件抽取等從文本中抽取出知識(shí),在利用RDF把三元組作為基本的數(shù)據(jù)模型。

基本邏輯包含了實(shí)體、實(shí)體屬性、實(shí)體之間的關(guān)系。

信息抽?。?/p>

結(jié)構(gòu)化和文本化的數(shù)據(jù)是目前主要使用的數(shù)據(jù)形式,從結(jié)構(gòu)化數(shù)據(jù)中抽取信息一般使用現(xiàn)有的D2R工具,如D2RServer。

從文本中抽取信息主要經(jīng)歷實(shí)體識(shí)別和關(guān)系抽取兩部分,關(guān)系抽取一般可以使用基于特征模版的方法(人工打標(biāo)簽),或者機(jī)器學(xué)習(xí)的方式進(jìn)行抽取。

信息融合:

通常自己的數(shù)據(jù)源或者知識(shí)庫(kù)不足以構(gòu)建解決實(shí)際問(wèn)題時(shí),會(huì)去從第三方的知識(shí)庫(kù)或者收集其他渠道的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合;主要包含了模式層的融合和數(shù)據(jù)層的融合,核心解決的問(wèn)題是避免實(shí)體與關(guān)系的沖突,或者相同實(shí)體含義但使用的不同的數(shù)據(jù)標(biāo)識(shí)符,造成了不必要冗余。

知識(shí)圖譜補(bǔ)全與推理:

此環(huán)節(jié)核心是依賴于補(bǔ)全算法去實(shí)現(xiàn),一種方法是基于本體推理的補(bǔ)全方法,另一種是基于圖結(jié)構(gòu)和關(guān)系路徑進(jìn)行補(bǔ)全。

通常推理和補(bǔ)全是一個(gè)相互協(xié)作的過(guò)程,通過(guò)推理發(fā)現(xiàn)有問(wèn)題的地方,進(jìn)行補(bǔ)全。

應(yīng)用與決策:

語(yǔ)義檢索、智能問(wèn)答、智能決策系統(tǒng)、推薦系統(tǒng)。

下面通過(guò)具體示例來(lái)理解知識(shí)圖譜的構(gòu)建流程:

03 應(yīng)用實(shí)例:電商知識(shí)圖譜的構(gòu)建

在目前電商的交易場(chǎng)景中,交易規(guī)模巨大,不僅涉及了線上、線下交易場(chǎng)景,還有各種新零售、多語(yǔ)言平臺(tái)、線上線下相結(jié)合的各種復(fù)雜的購(gòu)物場(chǎng)景,企業(yè)對(duì)數(shù)據(jù)的聯(lián)通需求越來(lái)越強(qiáng)烈,因此電商的知識(shí)圖譜對(duì)于行業(yè)而言變得很重要。

電商的知識(shí)圖譜主要是圍繞商品構(gòu)建的,基于人、貨、場(chǎng)的主要框架進(jìn)行拆解。

在電商這個(gè)領(lǐng)域下進(jìn)行知識(shí)表示時(shí),首先需要確認(rèn)共涉及多少個(gè)一級(jí)本體、二級(jí)本體,電商知識(shí)主要的獲取來(lái)源是知識(shí)眾包,核心涉及了本體的設(shè)計(jì),圍繞商品本身的屬性、消費(fèi)者的需求、平臺(tái)運(yùn)營(yíng)管理的機(jī)制。

在不同平臺(tái)和渠道的數(shù)據(jù)采集工具不一樣,采集上來(lái)的數(shù)據(jù)的存儲(chǔ)形式也會(huì)略有差異;例如電商的賣點(diǎn)、詳情、圖片、評(píng)價(jià),輿情信息中的品牌和口碑,涉及了大量的文本數(shù)據(jù)、圖像數(shù)據(jù)。

在進(jìn)行知識(shí)表示時(shí)涉及了各種NLP、CNN技術(shù);要求知識(shí)命名識(shí)別系統(tǒng)具有大規(guī)模實(shí)體類型識(shí)別的能力,并且把識(shí)別出的主體與知識(shí)圖譜進(jìn)行鏈接。

以阿里電商認(rèn)知圖譜的示例主要包括:

商品域:型號(hào)、尺碼、大小、顏色、口感、材質(zhì)..

用戶域:

性別、年齡、風(fēng)格、品牌、購(gòu)買力…

LBS域:購(gòu)物場(chǎng)景、群體、泛品類……

AI產(chǎn)品經(jīng)理的入門必修課(4)——知識(shí)圖譜

然后需要對(duì)實(shí)體進(jìn)行描述,除了基礎(chǔ)的屬性及屬性值以外,需要通過(guò)實(shí)體標(biāo)簽進(jìn)行實(shí)現(xiàn),大部分實(shí)體標(biāo)簽變化比較快,通常是通過(guò)知識(shí)推理獲取的;例如商品的標(biāo)簽中,可以通過(guò)材料的配比或者國(guó)家行業(yè)標(biāo)準(zhǔn)進(jìn)行處理。

例如:

  • 低糖:食品每100克或100毫升的糖含量不能超過(guò)5克;
  • 無(wú)糖:食品每100克或100毫升糖含量不能超過(guò)0.5克;

通過(guò)知識(shí)推理,可以根據(jù)商品配料表中的數(shù)據(jù)轉(zhuǎn)化為「無(wú)糖」、「低糖」的知識(shí)點(diǎn),從而將數(shù)據(jù)轉(zhuǎn)化為知識(shí)標(biāo)簽;大部分信息在提取之后會(huì)比較零散,需要將已建立好關(guān)系的知識(shí)庫(kù)中或者第三方的知識(shí)庫(kù)來(lái)源的信息做融合,以及實(shí)體對(duì)齊、實(shí)體消歧義的技術(shù)操作。

實(shí)體對(duì)齊:

例如迪奧是一個(gè)品牌名,DIOR為同一個(gè)品牌的英文名,雖然是同一個(gè)品牌由于文本不一樣,會(huì)被計(jì)算機(jī)識(shí)別為兩個(gè)實(shí)體,因此我們需要將類似的內(nèi)容對(duì)齊和統(tǒng)一化。

實(shí)體消歧:

例如蘋果是一種水果,在某些上下文中它可能表達(dá)蘋果手機(jī),這時(shí)需要根據(jù)上下文進(jìn)行實(shí)體消歧。

完成上述操作后,才會(huì)進(jìn)行實(shí)體的抽取,實(shí)體抽取的過(guò)程中會(huì)利用算法進(jìn)行實(shí)體間的相似性計(jì)算,主要依賴于本體庫(kù)中建立的本體之間的關(guān)系,進(jìn)行推理和補(bǔ)齊;例如不同人買了同一件商品,或買了相似商品,該以怎樣的節(jié)點(diǎn)進(jìn)行知識(shí)圖譜的關(guān)聯(lián);可以采用自動(dòng)化抽取或者人工抽取的方式進(jìn)行實(shí)現(xiàn),自動(dòng)化抽取可以大批量任務(wù),以及在多源異構(gòu)的數(shù)據(jù)處理中具有極大優(yōu)勢(shì)。

但對(duì)于復(fù)雜場(chǎng)景的抽取和識(shí)別依舊需要人工的介入。

在初步的知識(shí)圖譜構(gòu)建成功之后,需要進(jìn)行知識(shí)庫(kù)的質(zhì)量評(píng)估,當(dāng)部分關(guān)系無(wú)法通過(guò)知識(shí)庫(kù)進(jìn)行抽取時(shí),需要進(jìn)行知識(shí)推理算法及知識(shí)圖譜補(bǔ)全算法進(jìn)行關(guān)系鏈路的優(yōu)化;目前市面上已有部分技術(shù)上的解決方案,感興趣童鞋可以查閱更多資料進(jìn)行擴(kuò)展。

#專欄作家#

大鵬,公眾號(hào):一個(gè)數(shù)據(jù)人的自留地。人人都是產(chǎn)品經(jīng)理專欄作家,《數(shù)據(jù)產(chǎn)品經(jīng)理修煉手冊(cè)》作者。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 感覺(jué)知識(shí)圖譜的構(gòu)建 沒(méi)有運(yùn)營(yíng)啥事兒

    來(lái)自廣東 回復(fù)
  2. 花這么大力氣去構(gòu)建實(shí)體關(guān)系,加數(shù)據(jù)清洗,訓(xùn)練模型,能落地的應(yīng)用帶來(lái)的實(shí)際效用也是褒貶不一,目前沒(méi)什么卵用

    來(lái)自北京 回復(fù)
    1. 哈哈。能舉例的商業(yè)化場(chǎng)景不多哇?

      來(lái)自四川 回復(fù)
专题
15145人已学习12篇文章
用户体验五要素包括战略层、范围层、框架层、结构层、表现层五个方面,本专题的文章分享了用户体验五要素的看法。
专题
14287人已学习13篇文章
如果做小红书运营?本专题的文章分享了小红书流量密码。
专题
15374人已学习12篇文章
本专题的文章分享了数据产品经理的通用技能。
专题
13888人已学习13篇文章
用户体验是用户在使用产品过程中建立起来的一种纯主观感受。本专题的文章分享了如何撰写用户体验报告。
专题
12521人已学习13篇文章
AI技术的出现给各行各业都带来了重塑的机会,那么,当AI与社交赛道碰撞时,会讲述出怎样的故事?各家产品的表现如何?
专题
15635人已学习11篇文章
采用IPD开发流程,在初期能把各种工作问题识别出来并扼杀在摇篮中。本专题的文章分享了什么是IPD开发流程?如何应用IPD开发流程?