大模型掀了傳統(tǒng)搜索引擎的飯桌?

1 評論 454 瀏覽 3 收藏 16 分鐘

隨著大模型技術(shù)的飛速發(fā)展,傳統(tǒng)搜索引擎的搜索體驗正面臨前所未有的挑戰(zhàn)。本文深入探討了傳統(tǒng)搜索引擎在搜索前、搜索中和搜索后三個階段的策略、算法以及潛在問題,并分析了大模型如何通過生成和推理能力優(yōu)化搜索結(jié)果。

不知道是否有人跟我一樣有過這樣的抓狂時刻?打開搜索引擎輸入關(guān)鍵詞,廣告和標(biāo)題黨撲面而來;搜索長句翻了好幾頁也找不到想找的內(nèi)容,好不容易找到一篇攻略,點開是十年前的古早帖……傳統(tǒng)搜索引擎消磨著人們的耐心。相比之下DeepSeek好像更能在模糊問題描述中找到要搜索的真實意圖,也能條理清晰的給出答案,省去了很多人適應(yīng)機器去試關(guān)鍵詞的過程。也有很多想買搜索廣告的商家會擔(dān)心,未來買不了關(guān)鍵字,是不是也影響了自己的獲客?

傳統(tǒng)搜索簡單介紹

傳統(tǒng)搜索引擎為什么“不好用”了?從大多數(shù)的搜索產(chǎn)品共性上做簡單介紹。

搜索前(還沒搜詞)

目的:引導(dǎo)用戶使用搜索

功能:搜索框,含滾動的底紋詞;內(nèi)容描述標(biāo)簽、話題引導(dǎo);瀏覽后推薦關(guān)鍵詞;語音搜索;拍照上傳搜索

策略:

  1. 擴大入口,在產(chǎn)品上其他模塊增加搜索入口。
  2. 降低難度,不打字就語音或圖片。
  3. 意圖引導(dǎo),會提煉用戶在站內(nèi)有過交互行為的內(nèi)容,轉(zhuǎn)成關(guān)鍵詞再露給用戶。

算法簡述

  1. 熱度排行榜,選出普世高熱詞。按單一或多維度排序,如a*搜次數(shù)+b*播放次數(shù)+…,并通過牛頓冷卻定律等對詞熱度衰減。
  2. 關(guān)聯(lián)推薦,選出與用戶行為相關(guān)的詞,比如用戶剛看了李誕的視頻,搜索底紋會出現(xiàn)“李誕小賣部”。通常會使用同時看了這個視頻的人還看了什么視頻,或者還搜了什么詞等頻繁項集來得出。(要舉例的話就經(jīng)典的那個啤酒和尿布濕)

潛在問題:搜索入口很多為 如#邊牧#此類標(biāo)簽引導(dǎo),對應(yīng)的是一個名詞還是一個話題,或傾向于哪個,多是產(chǎn)品規(guī)則。

診斷指標(biāo):標(biāo)簽引導(dǎo)詞對應(yīng)搜索結(jié)果點擊量、有點比。

搜索中(正在搜詞)

目的:標(biāo)準(zhǔn)化搜索詞和挽留用戶

功能:搜索聯(lián)想,熱門搜索詞推薦,猜你想搜,歷史搜索詞,分模塊搜索詞。

策略:

  1. 標(biāo)準(zhǔn)化。拼音聯(lián)想、關(guān)鍵詞補齊、關(guān)聯(lián)詞推薦等,都是為了把用戶可能要輸入的詞轉(zhuǎn)化成可對應(yīng)產(chǎn)生搜索結(jié)果的標(biāo)準(zhǔn)化詞;
  2. 明確意圖。比如搜“奧本海默”是想看書還是電影,會引導(dǎo)用戶到對應(yīng)模塊,縮小搜索結(jié)果范圍。同時會根據(jù)詞本身是名詞實詞、品牌詞、形容詞等識別和拆分;
  3. 留住用戶。當(dāng)用戶不知道搜什么的時候,有熱詞引導(dǎo)用戶試一試功能。

算法簡述:

  1. 排行榜和猜你喜歡等原理同前。
  2. 對搜索詞補全、糾錯改寫、候選詞關(guān)聯(lián),一般使用前綴樹、編輯距離、n-gram模型等解決相關(guān)語義詞。舉例來說,當(dāng)用戶輸入”googl”,前綴樹返回”googlie”, “googler”, “google”,如果輸入的是”googel”會由編輯距離更改為”google”,之后會根據(jù)常出現(xiàn)的詞匯組合關(guān)聯(lián)出”google map”等短語。

潛在問題

  1. 意圖識別困境:比如“藍(lán)海豚”對應(yīng)的是比亞迪海豚型號車、藍(lán)海豚牌玻璃水、藍(lán)色的海豚動物、藍(lán)色的海豚玩具等等,當(dāng)有多重含義時會出現(xiàn)理解差別,所對應(yīng)搜索結(jié)果會千差萬別。
  2. 策略不能兼顧:在實詞比如“邊牧”搜之后,關(guān)聯(lián)搜索詞出“薩摩耶”、還是細(xì)化搜索詞“邊牧拆家”,在關(guān)聯(lián)詞和詞匯補全上需要做平衡。
  3. 診斷指標(biāo):換query率,有點比。

搜索后(搜索結(jié)果)

目的:準(zhǔn)確命中用戶期待搜索結(jié)果

功能:搜索結(jié)果(多種承載形式混排),搜索導(dǎo)航欄,搜索篩選項,相關(guān)搜索詞推薦

策略:

  1. 相關(guān)和準(zhǔn)確。最基本要求,搜索詞和搜索結(jié)果是高度相關(guān)的;
  2. 權(quán)威性。官方或者質(zhì)量高內(nèi)容排在前邊;
  3. 多樣化。形式、來源、品牌、封面等等交替出現(xiàn),避免一眼看去全相同;
  4. 個性化。根據(jù)用戶歷史偏好展示結(jié)果,把用戶最可能點擊的內(nèi)容排前面。

算法簡述

  1. 結(jié)果頁排序算法通常是平衡多目標(biāo)的加權(quán)結(jié)果,比如,排序得分=相關(guān)性得分×0.5 + 點擊率×0.3 + 時效性×0.1+權(quán)威性*0.1(示例),但最基本保證是最相關(guān)內(nèi)容排在前邊;
  2. 相關(guān)算法包含從TF-IDF到BM25再到PageRank,主要依賴的是搜索詞與結(jié)果候選集(標(biāo)題、正文)的詞相關(guān)性;
  3. 點擊率排序算法如LambdaMART,會根據(jù)一個搜索詞對應(yīng)的返回內(nèi)容的點擊反饋找到點擊率較高的,同樣一個搜索詞會根據(jù)用戶瀏覽、收藏等內(nèi)容的不同,給出每個人個性化的排序。

潛在問題

  1. 多種形式混排:比如“藍(lán)海豚”對應(yīng)結(jié)果是商品、卡通圖片、海豚百科等交叉出現(xiàn);
  2. 長尾詞對應(yīng)結(jié)果偏差大。比如“十和田溫泉”出現(xiàn)旅游攻略,但關(guān)聯(lián)搜索詞確是“長春溫泉排名第一”,“吉林省溫泉那里最好”等和地名無關(guān)內(nèi)容;
  3. 復(fù)雜意圖難理解:比如搜索“給孩子買既能學(xué)編程又能防止沉迷的手機”,其結(jié)果會對應(yīng)“孩子或?qū)W生手機”和“防沉迷”和“小孩編程”這些詞,從而會有學(xué)習(xí)機、防沉迷攻略、編程課程等對應(yīng)結(jié)果。

診斷指標(biāo):換query率,無結(jié)果率,有點比,CTR,CVR,OPMs。

由于搜索引擎基于分詞召回排序,有個性化但搜索詞和對應(yīng)內(nèi)容相關(guān)性權(quán)重更高。有趣的是,當(dāng)我問Deep Seek如何搜索才能更準(zhǔn)確時,得到反饋:”核心概念 + 對比維度 + 數(shù)據(jù)載體關(guān)鍵詞 + 時效限定”,從另一個角度能解釋大模型是如何來思考的,以及為什么它給的反饋會驚艷(大多時候)。

如果更容易被搜到

基于此,傳統(tǒng)搜索可以通過優(yōu)化關(guān)鍵詞以及內(nèi)容對應(yīng)關(guān)鍵詞組的方式優(yōu)化排名。從兩個角度優(yōu)化搜索:

關(guān)鍵詞優(yōu)化

希望達(dá)到:

①用戶可以主動去搜;

②關(guān)鍵詞完整度優(yōu)化。

可行方法:

  • 垂直。積少成多地將標(biāo)簽、標(biāo)題、文章段落中都帶有關(guān)鍵字,讓內(nèi)容更垂直。由于搜索詞是用戶主動輸入,因此搜索詞里存在大量長尾詞,若是一個非熱門詞,不買量情況下很難在底紋或者熱搜推薦中出來。(所以才會有買熱搜詞的操作)
  • 關(guān)鍵詞細(xì)化。上文說過搜索詞會根據(jù)前綴樹聯(lián)想補齊后邊的詞,因此可就此優(yōu)化,比如“酒店” ,就可以補充“地點+酒店+特色”,舉例來說:在某書上,搜“三亞酒店推薦”52w+筆記,搜“三亞酒店親子”39w+筆記,搜“三亞酒店沖浪”8w+筆記,這時根據(jù)不同酒店功能和風(fēng)格來補齊詞匯更容易在準(zhǔn)確的候選范圍內(nèi)脫穎而出,假如標(biāo)簽都打上“三亞酒店推薦”,就相當(dāng)于同52w+的候選集競爭,雖然詞是個熱搜詞匯,但能否真的在前幾屏出現(xiàn)就不得而知了。
  • 關(guān)聯(lián)詞匯。在猜你想搜里經(jīng)常會出現(xiàn)關(guān)聯(lián)詞匯,比如搜過“海豚”,那猜你想搜可能出現(xiàn)“海豹”。
  • 生成專屬詞。這里就需要提到互動反饋了。比如“綠恐龍”原本是一個“形容詞+名詞”的詞組,搜索時會語義找到最相近的內(nèi)容,但如果每次在搜索后該詞后,都點“綠色恐龍玩偶”這個商品,再加上有購買,那么該關(guān)鍵詞再搜索時會把綠色恐龍玩偶排在前邊。這也就可以理解為什么很多護膚品都“黑繃帶”,“小白瓶”這類外號,一方面好傳播,另外也構(gòu)建了這個商品的獨特性。

優(yōu)化關(guān)鍵詞和正文內(nèi)容匹配

希望達(dá)到:

①盡可能被準(zhǔn)確關(guān)鍵詞快速搜出來;

②覆蓋面更廣可獲得更多流量。

可行方法:

  • 內(nèi)容優(yōu)質(zhì)。不管再怎么對標(biāo)簽標(biāo)題等優(yōu)化,最核心的還是內(nèi)容質(zhì)量高。一方面權(quán)威性考慮品牌詞對應(yīng)的官網(wǎng)內(nèi)容會排在前邊,另一方面要注意內(nèi)容垂直度和統(tǒng)一性,舉例來說,假如一篇親子教育的文章或視頻為了蹭熱度打上”山東大雪“這類熱詞,題文不符是不會被推出來的。
  • 有效突出關(guān)鍵詞。不管是寫筆記還是拍視頻都會對內(nèi)容構(gòu)思拆解,包括主題詞、對主題的界定和描述、要解決的問題、作用功效、優(yōu)缺點等等。這些就可以簡單提煉為”形容詞&主題詞“、”主題詞&作用“,”主題詞&目的“,或者上卷一層”大分類&主題詞“等。當(dāng)然這也是基于全文總結(jié)的標(biāo)簽,而不是生加上的無關(guān)詞匯。
  • 互動反饋。優(yōu)質(zhì)內(nèi)容通常會獲得較好的瀏覽閱讀、點贊、收藏、評論、分享、購買等,搜索排序時會參考ctr、cvr等互動反饋結(jié)果。

以上是對搜索引擎有了一定了解后,對哪些內(nèi)容容易被搜出來做了一些說明(其實也只是皮毛,實際比這復(fù)雜得多)。而回到文章最開頭,既然有了Deep Seek,且回答的內(nèi)容完整驚艷,是不是可以解決搜索“不好用”的困境?

那再從大模型的兩個核心作用來看:生成和推理

因此可知,當(dāng)我們想問一個封閉且需要準(zhǔn)確邏輯支撐的問題,比如解一道數(shù)學(xué)題,大模型先推理再生成答案;當(dāng)我們問一個探索性創(chuàng)意的問題,比如如何生成一段文案,是先生成,再推理驗證其品牌調(diào)性、侵權(quán)風(fēng)險、調(diào)整關(guān)鍵詞等;如果更復(fù)雜的,進行一個法律合同審核,會是如下過程:

A[原始合同] –生成候選修改–> B{{是否存在條款沖突?}}

B –是–> C[推理沖突來源] –生成修正建議–> D[更新條款]

B –否–> E[生成最終版本]

D –> A

(此處生成和推理的解釋由Deep Seek返回內(nèi)容整理而成)

有大模型加持下的搜索

如果把大模型的生成和推理結(jié)合搜索來看(其實大模型在搜索推薦里已有廣泛的應(yīng)用):

  • 可為文章、視頻、圖片等生成標(biāo)簽、標(biāo)題,可能比自己打的標(biāo)簽更加精準(zhǔn),比如一張貓咪打哈欠的照片,自動匹配的標(biāo)簽為”貓咪日常” “憨憨的小貓咪”,理想情況下都不需要人工去找熱詞標(biāo)簽,會自動匹配熱搜增長快的標(biāo)簽,同樣對搜索”貓咪日?!皝碚f,也會計算找到最匹配的內(nèi)容。
  • 多模態(tài)搜索結(jié)果形式優(yōu)化。大模型也可幫助解決傳統(tǒng)文字、圖片、視頻、直播不同內(nèi)容形式定坑位出現(xiàn)在搜索結(jié)果??赏ㄟ^意圖識別明確是想搜索科普解釋還是購物,對應(yīng)給出更適合的結(jié)果形式。
  • 增強實時反饋。過往是基于用戶歷史瀏覽收藏等映射到內(nèi)容的標(biāo)簽,再加上用戶自身的人口屬性標(biāo)簽進行個性化結(jié)果反饋。大模型下可先識別用戶歷史瀏覽過的內(nèi)容,再根據(jù)所有內(nèi)容推斷出用戶感興趣主題和形式,可能還會生成用戶更期待的新的內(nèi)容,再去找到對應(yīng)候選,而這些候選集在傳統(tǒng)檢索里有可能都不被找回,或者因為別的理由召回排序不能靠前。

如果進一步思考:

  • 如果一個人搜索“推薦山西旅游攻略”,之后搜索詞可推薦“山西適合親子游的酒店”,推理和生成用戶接下來可能會查找的詞。
  • 搜索完之后,甚至直接可展現(xiàn)通過機票酒店的API接入的訂票功能。
  • 在選擇酒店有的人喜歡官方視角的視頻、有些人喜歡用戶視角的體驗視頻、也有些人不喜歡看視頻而習(xí)慣看圖片,都可根據(jù)用戶偏好生成。

其實,未來搜索更可能是一個私人助手,夠聰明、夠高效地解決問題,把人花在檢索和選擇決策上的無用時間縮短。這時人可能會有更多時間找到真正的生活意義。

作者:小王子和小企鵝,公眾號:小王子和小企鵝 ?

本文由@小王子和小企鵝 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 我最近體驗了一下pc端豆包,感覺就是在AI下去托管傳統(tǒng)搜索引擎,比較方便的功能有一個自動整理網(wǎng)頁內(nèi)容輸出,但是目前功能還是比較局限

    來自湖北 回復(fù)
专题
15643人已学习12篇文章
本专题的文章分享了如何从0-1搭建A/B Test。
专题
12274人已学习14篇文章
近年来,盲盒大量出现在公众视野,引起了一波又一波消费热潮。本专题的文章分享了解读盲盒营销。
专题
11720人已学习13篇文章
激活是指用户通过完成关键行为,真正成为产品的用户,而提升新用户激活则是留存用户的第一步。本专题的文章分享了如何做好新用户激活。
专题
12028人已学习11篇文章
本专题的文章分享了消息通知系统设计指南。
专题
13450人已学习13篇文章
广告是互联网的最大的商业模式,已经逐步形成一个巨大的行业,整个互联网广告也在持续增长中。本专题的文章分享了关于对互联网广告的思考与分析
专题
19929人已学习14篇文章
好的用户成长体系可以促进用户活跃、增强用户粘性、留住用户和帮助企业更好地了解用户对产品的使用情况。本专题的文章提供了搭建用户成长体系的思路。