AI應(yīng)用實(shí)例分析——圖像檢索

森焱
6 評論 6263 瀏覽 19 收藏 12 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

編輯導(dǎo)語:在人工智能技術(shù)方面,圖像視覺應(yīng)該是被應(yīng)用最廣泛的技術(shù)之一。本文作者從關(guān)鍵技術(shù)和產(chǎn)品設(shè)計(jì)兩大方面,圍繞圖像檢索技術(shù)的應(yīng)用進(jìn)行了產(chǎn)品介紹,推薦想了解圖像檢索的童鞋看看。

前一節(jié)主要跟大家討論了文本糾錯(cuò)技術(shù)的應(yīng)用,本節(jié)將跟大家討論分享關(guān)于圖像視覺方面的應(yīng)用——圖像檢索。

在人工智能技術(shù)應(yīng)用方面,圖像視覺應(yīng)該是被應(yīng)用最廣泛的技術(shù)之一,從最早的安防監(jiān)控,到后面落地最多的人臉識別,都是圖像技術(shù)的應(yīng)用,本文想圍繞圖像檢索技術(shù)的應(yīng)用進(jìn)行產(chǎn)品介紹。

圖像檢索技術(shù)在實(shí)際應(yīng)用中包括了檢索+識別(相似度度量)兩個(gè)部分,目前重點(diǎn)應(yīng)用于泛搜索引擎中,百度搜索、谷歌搜索、淘寶拍立淘等都可以支持通過圖片檢索實(shí)現(xiàn)信息查找。

相對于文字搜索而言,圖像檢索更直觀,更易操作,尤其是對于陌生信息的檢索,可以直接通過拍照實(shí)現(xiàn)信息的檢索。

一、關(guān)鍵技術(shù)

圖像檢索包括了基于文本的圖像檢索和基于內(nèi)容的圖像檢索?;谖谋镜膱D像檢索主要通過對圖像進(jìn)行文本描述,提煉關(guān)鍵詞等標(biāo)簽信息,后續(xù)在進(jìn)行檢索時(shí),可以通過檢索關(guān)鍵詞的方式查找對應(yīng)的圖片,這種方式跟用百度查找“胡歌”返回胡歌的照片是一致的;

基于內(nèi)容的圖像檢索是通過提取圖像的紋理、顏色、梯度或者其他高層語義特征等作為圖像特征來計(jì)算圖像間的相似度,實(shí)現(xiàn)圖像檢索。

1. 基于文本的圖像檢索

如果需要高查準(zhǔn)率,就需要精確的標(biāo)簽數(shù)據(jù),而精確的標(biāo)簽數(shù)據(jù)對于人工標(biāo)注來說是耗時(shí)耗力的,甚至有些圖像很難用有限的關(guān)鍵詞能描述清楚。目前通常情況下會(huì)先基于圖像內(nèi)容分析進(jìn)行自動(dòng)標(biāo)注,然后只要存儲(chǔ)圖像和文本標(biāo)簽即可,雖然會(huì)降低查準(zhǔn)率,但是仍然可以保證文本檢索。

2. 基于內(nèi)容的圖像檢索

雖然搜索精度不一定如文本搜索,并且容易受到圖像質(zhì)量(光照、遮擋、背景復(fù)雜度等)的影響,但是對用戶而言,搜索難度將降低,可以實(shí)現(xiàn)所見即所得,只要拍照出發(fā)搜索即可。因此,可應(yīng)用范圍將更加廣闊。

3. 分布式存儲(chǔ)技術(shù)

除了關(guān)鍵的算法技術(shù),還需要跟工程相關(guān)的分布式存儲(chǔ)技術(shù),因?yàn)樵趯?shí)際工程應(yīng)用中,涉及到的索引結(jié)構(gòu)需要支持到10億量級的,所以如何構(gòu)建并存儲(chǔ)圖片的特征索引信息,需要工程上進(jìn)行優(yōu)化(ps:由于過于技術(shù)化,筆者也不敢班門弄斧了)。

在實(shí)際應(yīng)用中,基于文本和基于內(nèi)容的圖像檢索一般是解耦的,產(chǎn)品設(shè)計(jì)可以選擇兩者并存,或者獨(dú)立使用。

比如在電商中,淘寶通過知識圖譜技術(shù)構(gòu)建了大量的商品畫像,所以用戶可以通過文本搜索,同時(shí)拍立淘也支持圖像搜商品;而某些識花等小軟件則是單純通過以圖搜圖實(shí)現(xiàn)。具體的還是需要產(chǎn)品根據(jù)實(shí)際應(yīng)用場景來決定。

本文下面將重點(diǎn)介紹的是基于內(nèi)容的圖像檢索,其中基于內(nèi)容的圖像檢索,從產(chǎn)品的輸入角度又可以分為以圖搜、以視頻搜和以音頻搜,列舉出來的話是圖搜圖、圖搜視頻、視頻搜視頻。

二、產(chǎn)品設(shè)計(jì)

1. 應(yīng)用場景

(1)目前常見的圖像搜索應(yīng)用場景有以下幾種:

  1. 拍立淘的電商應(yīng)用場景,通過拍照識圖,實(shí)現(xiàn)快速購物,提高購物體驗(yàn)。
  2. 視覺中國的圖片庫類的圖片查找應(yīng)用場景,實(shí)現(xiàn)圖片查找應(yīng)用,和版權(quán)鑒定。
  3. 阿里在工業(yè)場景中提供的布料紡織品的圖像檢索技術(shù),快速了解布料的供應(yīng)信息。
  4. 醫(yī)療診斷方面,可以通過圖像檢索在醫(yī)學(xué)影像庫找到相似醫(yī)學(xué)病灶的案例,從而協(xié)助病情的診斷的應(yīng)用場景。

(2)本文選擇圖片庫類的圖片檢索為應(yīng)用場景,講述產(chǎn)品設(shè)計(jì)中的業(yè)務(wù)流程和需要支持的產(chǎn)品能力,其中圖片庫類的圖片檢索應(yīng)用場景有以下兩個(gè):

  1. 供稿人上傳圖片,為保證圖片版權(quán),會(huì)對供稿人圖片與現(xiàn)有圖片庫進(jìn)行查重,避免侵權(quán)行為。
  2. 用戶查找并下載圖片,為了滿足用戶的圖片需求,一般會(huì)進(jìn)行相似圖片推薦。

2. 檢索技巧

先確定應(yīng)用場景不僅是為了便于產(chǎn)品設(shè)計(jì),也是為了檢索技術(shù)的選擇,從圖像檢索的特征來看一般包括兩種類型:

  1. 相同圖搜索:是指返回與查詢圖片包含相同主體的圖片,一般是完全相同或具備相同主體的圖片,主要適用于重復(fù)圖片檢測、圖片精確查找等場景。
  2. 相似圖搜索:是指返回與查詢圖片內(nèi)容語義相似的圖片,內(nèi)容語義相似包括在圖片類型、顏色、布局、內(nèi)容、風(fēng)格和紋理等特征方面的相似,主要應(yīng)用于相似圖片素材搜索、相似圖片推薦等場景;

在圖片庫的圖片檢索應(yīng)用場景中,這兩個(gè)場景都是要支持的,因此相同圖檢索,和相似圖檢索都需要包含的。

但是實(shí)際上相似圖的結(jié)果通常情況下是包含相同圖的,相同圖是相似圖的一個(gè)子集。之所以區(qū)分開來,是為了便于產(chǎn)品設(shè)計(jì),因?yàn)樵趯?shí)際過程中,需要設(shè)定一個(gè)閾值來決定返回結(jié)果,但是如果想讓相似圖都能包含相同圖,則很難指定一個(gè)通用的閾值,因此,可以根據(jù)實(shí)際場景分別調(diào)用兩個(gè)模型。

3. 產(chǎn)品功能設(shè)計(jì)

(1)業(yè)務(wù)流程

產(chǎn)品的核心業(yè)務(wù)流程主要包括三點(diǎn):

  1. 歷史圖片入庫,建立圖片庫和圖片特征索引庫。
  2. 查詢圖片,基于相似圖的特征提取和檢索引擎在歷史圖片庫中查找相似圖片。
  3. 供稿新圖片,基于相同圖的特征提取和檢索引擎在歷史圖片庫中查重,若不重復(fù),則允許圖片入庫;若有主體重復(fù)的圖片,則提醒供稿人,圖片存在侵權(quán)風(fēng)險(xiǎn),并拒絕入庫。


ps:相同圖和相似圖的特征提取是不一樣的,這里為了簡化流程,因此畫在了一起。

(2)產(chǎn)品功能

這里將列舉描述產(chǎn)品的主要功能,涉及工作因素,無法提供頁面交互功能細(xì)節(jié)。

  • 圖片底庫管理:用于管理圖片數(shù)據(jù),可以根據(jù)圖片類型、時(shí)間、用途等分類,功能包括:新建底庫、刪除底庫、編輯底庫名稱。
  • 圖片新增:用于在底庫中新增圖片,比如上述的供稿圖片審核通過,就需要調(diào)用圖片新增入庫操作,功能包括:單張圖片新增、批量圖片新增。

(注意點(diǎn):圖片的大小、圖片的分辨率、批量上傳的圖片數(shù)量等限制條件。)

  • 圖片刪除:用于刪除底庫中過期或者臟的數(shù)據(jù),同樣支持單張刪除或者批量刪除。
  • 圖片檢索:用于查詢與上傳圖片相似或者相同的圖片,這里可以根據(jù)實(shí)際場景進(jìn)行設(shè)計(jì),增加參數(shù)是否做主體識別,如果做主體識別,則調(diào)用相同圖檢索;如果不做主體識別,則調(diào)用相似圖檢索。
  • 索引庫更新機(jī)制:圖片新增或者刪除后,如何更新圖片的特征索引庫,以新增為例,是在新增后實(shí)時(shí)更新索引庫還是定時(shí)更新,這個(gè)需要產(chǎn)品根據(jù)場景判斷。一般當(dāng)?shù)讕燧^小,且日常并發(fā)檢索較小時(shí),可以考慮實(shí)時(shí)更新;當(dāng)?shù)讕烊萘枯^大,且頻繁發(fā)生檢索時(shí),建議可以選擇定時(shí)更新,如選取閑時(shí)更新。

4. 產(chǎn)品評估

產(chǎn)品設(shè)計(jì)中,還需要對產(chǎn)品性能進(jìn)行評估,包括算法和工程兩個(gè)方面:

  1. 算法側(cè):計(jì)算查詢結(jié)果top k的精確率和召回率,再根據(jù)實(shí)際應(yīng)用場景判斷是保召回還是保精確。
  2. 工程側(cè):計(jì)算檢索多并發(fā)時(shí)的處理速度和存儲(chǔ)資源消耗,力求降低存儲(chǔ)成本并提高檢索響應(yīng)速度。

三、結(jié)論

隨著AI技術(shù)和互聯(lián)網(wǎng)應(yīng)用的發(fā)展,圖搜這樣的智能化檢索方式將會(huì)有更多的落地場景,但是對于產(chǎn)品設(shè)計(jì)而言,需要根據(jù)實(shí)際場景結(jié)合技術(shù)現(xiàn)狀考慮。

比如在推薦場景中,為了更多能留住客戶,在盡可能保證高精確率的情況下,k的上限就會(huì)取得較大,這樣就能給用戶更多的返回結(jié)果。因此為了能滿足檢索業(yè)務(wù)的需要,同時(shí)提高用戶體驗(yàn),就需要產(chǎn)品能多思考實(shí)際業(yè)務(wù)場景。

 

本文由@Eric_d 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

專欄作家

Eric_d,人人都是產(chǎn)品經(jīng)理專欄作家。關(guān)注AI、大數(shù)據(jù)等領(lǐng)域,擅長需求分析、產(chǎn)品流程和架構(gòu)設(shè)計(jì)等,日常喜歡徒步。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 感謝作者,奇怪的知識又增長了~~

    來自湖南 回復(fù)
    1. 是的呢,用的比較多了,一起交流哈~~

      來自江蘇 回復(fù)
  2. 科技發(fā)達(dá)的讓我感覺自己有時(shí)候是個(gè)廢物,不過還是要多加學(xué)習(xí)提升自己

    來自北京 回復(fù)
    1. 嗯嗯,我們可以一起學(xué)習(xí)討論~~

      回復(fù)
  3. 感謝作者分享!圖像檢索的功能在生活中確實(shí)很經(jīng)常使用,而且逐漸變得重要了

    來自廣東 回復(fù)
    1. 是的啊,畢竟現(xiàn)在視頻時(shí)代,光靠文字檢索有些不夠了,圖像檢索也更直觀些~

      來自上海 回復(fù)