大語言模型時代來臨,交互式對話搜索如何落地
傳統(tǒng)的搜索模式有諸多受限,隨著互聯(lián)網(wǎng)的發(fā)展進步,帶來了AI對話式搜索,這一搜索模式為用戶帶來了更好的搜索體驗,其發(fā)展機遇是可見的,但是在未來AI對話將面臨什么挑戰(zhàn)呢?讓我們看看作者的觀點。
2022年11月30日:OpenAI發(fā)布ChatGPT,短短兩個月時間月活過億 ,預示著大模型時代的來臨!
2023年2月8日:微軟宣布上線 New Bing 和 Edge瀏覽器,整合 OpenAI 的 GPT 技術,可以與用戶進行對話式搜索、交互聊天。
2023年4月6日:《華爾街日報》報道稱,谷歌也計劃在其搜索引擎中,添加對話式AI功能。
業(yè)界大佬紛紛入局搶占先機,國內(nèi)大廠也紛紛入場開啟“軍備競賽”。
今天小編就帶大家粗淺了解下什么是大模型,大模型未來對企業(yè)、人們的日常生活到底會有哪些顛覆和影響。各行業(yè)又能將LLM大語言模型應用到哪些業(yè)務中去。
一、什么是LLM大語言大模型?
LLM=Large Language Model 大語言模型,是一種基于深度學習的自然語言處理模型。它能夠學習到自然語言的語法和語義,從而可以生成人類可讀的文本。
所謂“語言模型”,就是只用來處理語言文字(或者符號體系)的AI 模型,發(fā)現(xiàn)其中的規(guī)律,可以根據(jù)提示(prompt),自動生成符合這些規(guī)律的內(nèi)容。
簡言之:能夠理解輸入的文字、語言,并給出相應回答。
典型代表有ChatGPT(OpenAI)、通義千問(阿里)、文心一言(百度)、ChatGLM(清華)、Chatlaw(北大)。
二、大模型訓練門檻有多高?
- 需要大量的數(shù)據(jù)進行訓練
- 非常大的參數(shù)數(shù)量的人工神經(jīng)網(wǎng)絡(數(shù)十億)
- 需要投入大量的機器資源進行優(yōu)化和調(diào)整
- 技術團隊的工程實現(xiàn)能力要求非常高
總結下來就是財力及投入意愿、工程能力、技術熱情,都有極高的要求,目前市面上能支撐上述要求的機構少之又少。
并且這些模型訓練數(shù)據(jù)來自世界知識,無論是多強大的LLM,能壓縮的知識量仍然是有限的。當遇到企業(yè)專屬知識時,這些模型也很難給出準確答案。
舉一個例子,下圖中的問題是關于阿里巴巴內(nèi)部的技術產(chǎn)品,屬于企業(yè)專屬知識,就算是強大的ChatGPT模型給出的答案也是完全錯誤不相關的。
針對這個問題,OpenAI提出了chatgpt-retrieval-plugin、WebGPT,開源社區(qū)提出了DocsGPT、ChatPDF、基于langchain的檢索增強chatbot等等一系列解決方案,足以證明業(yè)界對如何在個人/企業(yè)專屬數(shù)據(jù)上結合LLM需求強烈。
三、傳統(tǒng)搜索VS對話式搜索
下面舉幾個例子給大家直觀感受下對話式搜索的的優(yōu)勢:
1. 傳統(tǒng)的客服問答
下面畫面常常發(fā)生在我們線上購物和機器人客服的對話,答案分散,不能快速抓到用戶的搜索意圖,用戶體驗較差。
同理,這也是很多人打銀行客服電話還是喜歡轉人工處理的原因。
2. 傳統(tǒng)搜索引擎搜索
傳統(tǒng)搜索引擎的沒有目共睹。即時通信已經(jīng)取代搜索引擎成為移動互聯(lián)網(wǎng)時代新的核心流量入口。即使是全球市場占有率最高的谷歌搜索,其用戶量也面臨著被社交網(wǎng)站、短視頻APP瓜分的危機。
傳統(tǒng)搜索引擎的痛點首先是信息過剩,不能直接召回到用戶搜索意圖,需要在信息網(wǎng)里自行查找篩選,耗時耗力也不一定找到問題的解。其次信息壁壘。
從PC互聯(lián)網(wǎng)時代走入移動互聯(lián)網(wǎng)時代,信息散落到了各個App當中,用戶隨之流向其內(nèi)部的搜索。
3. AI對話式搜索
更快、更準、更豐富,給予用戶有建設性、拓展性的答案。將用戶獲取信息和服務的方式從輸入冰冷的關鍵詞轉向人機“多輪對話”。
四、對話式搜索在業(yè)務中的應用
- 電商:用戶答疑、直播選品、售前咨詢、售后服務等
- 內(nèi)容:IT、文娛、專業(yè)領域等個性化場景
- 企業(yè)知識庫:企業(yè)內(nèi)部資料、產(chǎn)品文檔、技術資料等
- 教育:知識總結、搜題生成答案
AI對話式搜索在這些場景的應用可以有效提升用戶信息獲取效率、產(chǎn)品體驗、業(yè)務轉化、用戶粘性、用戶活躍。有效降低人工成本,運營成本。
目前這些典型場景卻無法直接使用ChatGPT等大模型,實際用于到自身業(yè)務中去。
首先是數(shù)據(jù)問題,大模型來自公網(wǎng)數(shù)據(jù),無法滿足企業(yè)業(yè)務搜索需要。其次存在安全風險,生成內(nèi)容不可控,風險較高。
企業(yè)需要基于自身數(shù)據(jù)構建垂直領域問答式搜索。
五、是機遇也是挑戰(zhàn)
目前雖然大模型熱度高,很多企業(yè)也關注到了對話式搜索給業(yè)務帶來的機遇,但實際能應用起來的還很少。
一是落地難度大,技術能力要求高;二是缺乏場景,除頭部客戶以外,業(yè)務需求還未達到這個層次,處于觀望了解階段。
那如果是創(chuàng)業(yè)公司在選擇大模型接入時,是選開源還是閉源呢?
各有優(yōu)勢。開源你只需要買TOKEN就好了,再加上 Prompt engineering和向量數(shù)據(jù)庫等。閉源的優(yōu)勢在于,保護數(shù)據(jù)隱私,并且可以不斷用數(shù)據(jù)填充完善自己的模型。
給大家介紹下市面接入較多的兩種方案
1)企業(yè)自建方案:基于開源大模型,企業(yè)自行微調(diào)自建。
- 需要使用A100卡或單機多卡支持
- 專業(yè)的算法研發(fā)人員,數(shù)據(jù)處理→開發(fā)調(diào)試→訓練模型→模型部署
- 對企業(yè)數(shù)據(jù)質(zhì)量有要求,否則影響訓練效果
- 涉及圖文、音視頻數(shù)據(jù),需要轉為向量化數(shù)據(jù)
2)產(chǎn)品化方案:阿里云OpenSearch LLM問答版端到端方案,可以構建企業(yè)專屬模型。
- 基于阿里模型+企業(yè)自有數(shù)據(jù)進行模型微調(diào)拓展,自動生成Query對應的問答搜索結果,接入門檻較低
- 問答結果基于業(yè)務數(shù)據(jù)搜索生成,保證問答結果穩(wěn)定性與數(shù)據(jù)安全性
- 支持圖文多模態(tài)信息搜索,支持問答結果的人工干預
六、AI對話式搜索行業(yè)應用展望
1)助力企業(yè)創(chuàng)新能力
LLM可根據(jù)大量數(shù)據(jù)進行預測分析,為企業(yè)提供有針對性的戰(zhàn)略建議,提供新的創(chuàng)新途徑;開展垂直領域或行業(yè)子模型的研究,做應用場景和用戶數(shù)據(jù)反哺、調(diào)優(yōu),實現(xiàn)企業(yè)定制化搜索。
2)優(yōu)化客戶支持和服務
智能客服可根據(jù)客戶輸入的問題,提供即時、準確的解答,減輕傳統(tǒng)客服壓力;對于復雜問題,LLM可為技術支持團隊提供問題解決方案,提高問題解決效率。
3)復雜信息提煉,提升信息獲取效率
利用LLM數(shù)據(jù)整合與分析能力,將復雜信息進行要點提煉,觀點的歸納整理,節(jié)省用戶信息獲取效率,從而有更多的時間進行深度和系統(tǒng)的思考。
4)低代碼應用
通過API融入到產(chǎn)品的標準模塊里,更低的開發(fā)成本、更少的時間投入,來滿足日益增長的客戶個性化需求。
本文由 @KKai 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!