從開(kāi)發(fā)視角,思考AI產(chǎn)品落地的方向
隨著AI技術(shù)的飛速發(fā)展,如何將AI能力有效集成到產(chǎn)品中,成為開(kāi)發(fā)者和產(chǎn)品經(jīng)理面臨的重要課題。本文從開(kāi)發(fā)視角出發(fā),深入探討AI產(chǎn)品落地的方向和策略。作者通過(guò)分析AI與傳統(tǒng)產(chǎn)品的正交關(guān)系,提出了AI Agent、AI生態(tài)、AI+和私人AI助理等幾個(gè)具有潛力的AI產(chǎn)品方向,并結(jié)合實(shí)際案例,詳細(xì)闡述了這些方向的技術(shù)實(shí)現(xiàn)和應(yīng)用場(chǎng)景。
作為一名移動(dòng)客戶端開(kāi)發(fā),一直以龍哥為榜樣思考產(chǎn)品層面的問(wèn)題,大模型發(fā)展至今,我也一直在思考怎么以AI的能力,制作出一些帶magic的小玩意。
一、認(rèn)知:什么樣的產(chǎn)品應(yīng)該用AI去做(AI產(chǎn)品的方向應(yīng)該怎么做)
顯然并不是所有的產(chǎn)品都適合用AI去集成。
在chatGpt3剛出來(lái)的時(shí)候,因?yàn)間pt效果太差,且費(fèi)用太貴,曾經(jīng)和朋友聊天的時(shí)候,有打算針對(duì)特定問(wèn)題集成答案,用戶命中問(wèn)題則直接回復(fù)答案。
幸好當(dāng)時(shí)沒(méi)做,以我現(xiàn)在的認(rèn)知來(lái)看,這種方案就完全是螳臂當(dāng)車,類似于打算在LLM洪流之下,想通過(guò)個(gè)人來(lái)接住洪流的沖擊力,這樣的產(chǎn)品顯然會(huì)被LLM成長(zhǎng)起來(lái)的能力直接碾壓過(guò)去。
夾在傳統(tǒng)互聯(lián)網(wǎng)和LLM之間,到底怎么樣找一個(gè)落腳點(diǎn)去把兩者更好的集成?
我糾結(jié)了很久,也實(shí)驗(yàn)過(guò)一些demo,最后最后,我在Manus創(chuàng)始人分享的一個(gè)視頻切片里,找到了我自認(rèn)為問(wèn)題的答案:
大家可以看圖,LLM的能力應(yīng)該要跟我們做的產(chǎn)品能力是正交的。什么叫正交?
學(xué)過(guò)數(shù)學(xué)的我們都知道,就是兩個(gè)方向是完全互不影響的,比如做一個(gè)AI的產(chǎn)品,如果后續(xù)會(huì)因?yàn)長(zhǎng)LM能力過(guò)于強(qiáng)大(比如多模態(tài)、比如提速、比如低成本)而倒掉,那這個(gè)產(chǎn)品和LLM就不是正交的。
但如果我們的產(chǎn)品,會(huì)隨著LLM的能力強(qiáng)大,產(chǎn)品能力也變得更強(qiáng)大,那么這樣的產(chǎn)品定位就是正交的。
有了這個(gè)大思路,在去看業(yè)內(nèi)很多的AI產(chǎn)品,有些產(chǎn)品甚至一眼就能看到它的生命終點(diǎn)。
二、具體落腳:哪些方向做AI產(chǎn)品比較絲滑?
標(biāo)題里所說(shuō)的”大的認(rèn)知前提”,指的就是”AI產(chǎn)品能力應(yīng)該和LLM是正交的”。
好,那接下來(lái)聊聊我們?nèi)绻鲆粋€(gè)AI產(chǎn)品,大概可以從哪幾個(gè)方向出發(fā)(只是我個(gè)人的思考,歡迎大家補(bǔ)充討論)。
1. AI Agent
使用過(guò)Manus這款產(chǎn)品的同學(xué),應(yīng)該十分清楚 AI Agent 這個(gè)方向的重要意義了,沒(méi)使用過(guò)的同學(xué)建議去Manus官網(wǎng)看看示例。
AI Agent 領(lǐng)域的技術(shù)實(shí)現(xiàn)我有所了解,技術(shù)實(shí)現(xiàn)不是很難,難在workflow的構(gòu)建,以及成本(也是受workflow影響)。
拆解AI Agent的工作流↑,我們可以發(fā)現(xiàn)AI Agent確實(shí)幫我們做了非常多的事情,尤其是「收集信息」部分,是AI Agent的王炸級(jí)能力。
但AI Agent有目前有兩個(gè)方向的原罪,只要想著去做這個(gè)方向的產(chǎn)品,一定會(huì)碰到的兩個(gè)問(wèn)題:甲方困境 和 深度癱瘓。
1)甲方困境
什么叫甲方困境,作為程序員的我們可能都清楚,做一個(gè)需求,最復(fù)雜是了解需求是什么,到底想要達(dá)到什么樣的效果,而寫代碼反而是最簡(jiǎn)單的。
AI Agent也是一樣的,比如我們讓AI Agent寫一個(gè)”坦克大戰(zhàn)”,雖然這只是簡(jiǎn)單的一句話,但”坦克大戰(zhàn)”從一句話到具體交付,中間要商量的細(xì)節(jié)可太多了,就不論UI樣式,光是策略方案就已經(jīng)夠復(fù)雜的了。
但 AI Agent 無(wú)論是從LLM模型本身,還是離線產(chǎn)品的宣傳理念,對(duì)于在工作過(guò)程中怎么樣盡可能絲滑反問(wèn)使用人需求,都是一個(gè)難題。
2)深度癱瘓
深度癱瘓也很好理解,只要是用過(guò)chatGPT api寫demo的同學(xué)都知道,當(dāng)你的對(duì)話輪次越來(lái)越多時(shí),同樣的一個(gè)問(wèn)題,你消耗的token會(huì)越來(lái)越多。
為什么?這是你要把你的上下文帶給AI,讓他在回答里當(dāng)下這句話的時(shí)候,能記住你之前說(shuō)了什么。
所以,足夠深度的上下文信息,足以讓AI的使用變得又貴又慢,這是AI基礎(chǔ)實(shí)現(xiàn)Transformer本身導(dǎo)致的,所有歷史對(duì)話拼接為長(zhǎng)序列輸入。
當(dāng)然了,現(xiàn)在主流的AI Agent,是混合了 長(zhǎng)序列輸入 和 檢索增強(qiáng)生成(RAG) 方案的,尤其是「收集信息」,
基本都是由模型自己通過(guò) embedding 轉(zhuǎn)成向量數(shù)據(jù)庫(kù)來(lái)進(jìn)行學(xué)習(xí),這是一個(gè)折中的方案,但RAG的方案會(huì)讓AI使用起來(lái)沒(méi)那么聰明(相比長(zhǎng)序列)。
2. AI生態(tài)
AI生態(tài)指的是在原先能夠閉環(huán)的生態(tài)里,使用AI打造AI驅(qū)動(dòng)的生態(tài)。比如:各家的App,或者更大一點(diǎn):手機(jī)。
可能看到這里你腦海中已經(jīng)想象出一個(gè)畫面:”你早上起來(lái)打開(kāi)手機(jī),對(duì)手機(jī)AI說(shuō),幫我點(diǎn)一份早餐,和昨天口味一樣,備注多放點(diǎn)辣”
但大家有沒(méi)有想過(guò),這個(gè)技術(shù)很難嗎? 為啥LLM誕生之前,不做這樣的能力?
其實(shí)以AI手機(jī)為例,既然是閉合生態(tài),理論上所有指令集都是可以串聯(lián)的,所以這個(gè)串聯(lián)調(diào)用的能力,早都已經(jīng)可以搞定了。
之所以在LLM時(shí)代,要把這件事重新提起,最根本的原因是因?yàn)長(zhǎng)LM “聽(tīng)得懂人話了”,LLM通過(guò)超大參數(shù)訓(xùn)練,具備了目前AI界最強(qiáng)大的一個(gè)能力,”理解語(yǔ)義”。
“理解語(yǔ)義“在不同時(shí)代有不同的視線,我將之分為3個(gè)時(shí)代:驚喜的1.0時(shí)代、停滯的2.0時(shí)代、重生的3.0時(shí)代。
驚喜的1.0時(shí)代
這個(gè)時(shí)代機(jī)器聽(tīng)懂人類語(yǔ)言的方式,依賴的技術(shù)是”語(yǔ)音量化”,機(jī)器通過(guò)將收集到的語(yǔ)音進(jìn)行量化,并和自己指令庫(kù)的指令集進(jìn)行對(duì)比,如果匹配上了就執(zhí)行指令。
這個(gè)時(shí)代最大的問(wèn)題,就是”精準(zhǔn)匹配”。以我家里一個(gè)松下取暖器為例,系統(tǒng)給它內(nèi)置的指令是”松下取暖氣,打開(kāi)取暖器”。
但如果我說(shuō)成”松下取暖氣,請(qǐng)打開(kāi)”,它就完全聽(tīng)不懂我在說(shuō)什么,更不用主動(dòng)關(guān)懷的AI理解了。
停滯的2.0時(shí)代
2.0時(shí)代的巔峰也是NLP的巔峰,NLP曾經(jīng)根據(jù)有限的聚類效果解決過(guò)一些問(wèn)題,但基本僅限于玩具場(chǎng)景,
在準(zhǔn)確度要求99%以上的場(chǎng)景,沒(méi)有哪個(gè)公司敢把產(chǎn)品真正放上去。
這個(gè)時(shí)代的經(jīng)典代表就是各家的AI語(yǔ)音助理,比如智障Siri、雷軍兒子的小愛(ài)同學(xué)等等。
重生的3.0時(shí)代
LLM 最大的特點(diǎn)就是更理解人類的表達(dá)了。
在1.0時(shí)代,如果我們的系統(tǒng)有10個(gè)指令,那么用戶只能使用10句話對(duì)其進(jìn)行驅(qū)動(dòng)。 在2.0時(shí)代,如果我們的系統(tǒng)有10個(gè)指令,那么用戶大概可以使用10*n句話對(duì)其進(jìn)行驅(qū)動(dòng)(n的值取決于工程師配置的相似數(shù)據(jù)庫(kù))。 在3.0時(shí)代,如果我們的系統(tǒng)有10個(gè)指令,那么用戶可以使用無(wú)限種方式對(duì)其進(jìn)行驅(qū)動(dòng)。這就是LLM最大的作用!
好,依舊來(lái)舉例說(shuō)明,我是一位極氪001汽車的車主,在我的車機(jī)升級(jí)到大模型方案之前,所有車主都會(huì)吐槽車機(jī)非常笨,聽(tīng)不懂人話。
但車機(jī)升級(jí)到大模型方案之后,和車機(jī)對(duì)話的體感普遍更好了,比如我們上車后對(duì)車機(jī)說(shuō): “今天工作有點(diǎn)累,我現(xiàn)在有點(diǎn)熱”
那么車機(jī)會(huì)回復(fù):”是否要打開(kāi)休息模式?空調(diào)溫度已經(jīng)為你下調(diào)了2度”。
能理解這個(gè)例子嗎,雖然車機(jī)依舊還是”打開(kāi)休息模式、調(diào)節(jié)空調(diào)溫度”這樣傳統(tǒng)的指令,但人們驅(qū)動(dòng)它的方式變得更加多元且精準(zhǔn)了。
所以回到AI生態(tài)來(lái)看,閉環(huán)生態(tài)下的指令集觸手可得,指令集所搭建的高效率武器也不是瓶頸,但現(xiàn)在可以觸發(fā)開(kāi)槍的技術(shù)誕生了,那就LLM。
3. AI+
AI+ 的思路其實(shí)和幾年前互聯(lián)網(wǎng)+的口號(hào)一樣,但AI+的顛覆效果并不如互聯(lián)網(wǎng)+,AI+在我看來(lái),是補(bǔ)齊傳統(tǒng)移動(dòng)互聯(lián)網(wǎng)產(chǎn)品功能的一些短板。
既然是優(yōu)化原有功能的體驗(yàn),那么接下來(lái)的做事方法論也就很簡(jiǎn)單了:
- 收集原有互聯(lián)網(wǎng)產(chǎn)品遺留的痛點(diǎn)難點(diǎn)、通過(guò)畫甘特圖評(píng)估卡點(diǎn)任務(wù)
- 整理AI的基建能力,比如:聚合相似、文本總結(jié)等
- 將第1步收集的訴求 和 第2步整理的AI基建 進(jìn)行碰撞,看看有沒(méi)有可以match上的。
AI是一個(gè)很好的生產(chǎn)力工具,尤其是在文本處理和總結(jié)上,我們平時(shí)的工作在處理各種各樣的群消息,那么在群消息這里是不是可以引入AI能力呢?
4. 私人AI助理
私人AI助理是我覺(jué)得非常驚艷,但現(xiàn)在被大家低估的一個(gè)AI落地點(diǎn),在我看來(lái),部署本地AI知識(shí)庫(kù)的浪潮,應(yīng)該要超過(guò)部署Nas。
每個(gè)人都想要一個(gè)既懂自己,又能輔助自己成長(zhǎng),又對(duì)自己絕對(duì)忠誠(chéng)的AI助手(類似鋼鐵俠中的Jarvis,我給自己的私人AI助理也是起名叫Jarvis hhh)。
私人AI助理屬于一個(gè)基建平臺(tái),在該平臺(tái)上可以衍生出非常多的能力,目前我會(huì)讓我的AI助理定期review我的代碼,針對(duì)我所學(xué)習(xí)的內(nèi)容進(jìn)行深化提問(wèn)等等。
甚至于在我的設(shè)想中,以后每個(gè)公司都會(huì)出現(xiàn)一個(gè)公司級(jí)別的私人AI助理(或者應(yīng)該叫超級(jí)大腦),類似于生化危機(jī)電影中的紅色皇后。
因?yàn)橹挥蠥I才能源源不斷接收外界的信息,只有AI才能針對(duì)如此多的信息進(jìn)行調(diào)度,提前對(duì)潛在風(fēng)險(xiǎn)進(jìn)行預(yù)警。
好,一不小心光整理對(duì)AI產(chǎn)品的思緒就寫了那么多,希望對(duì)大家能有點(diǎn)幫助。
本文由 @冰以東 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
要明確應(yīng)用場(chǎng)景:確定AI產(chǎn)品將應(yīng)用于哪些具體場(chǎng)景,例如醫(yī)療影像診斷、智能客服、自動(dòng)駕駛、推薦系統(tǒng)等。每個(gè)場(chǎng)景都有其獨(dú)特的技術(shù)要求和數(shù)據(jù)特點(diǎn)。
用戶需求:深入了解目標(biāo)用戶的需求和痛點(diǎn),設(shè)計(jì)功能時(shí)要確保產(chǎn)品能夠解決實(shí)際問(wèn)題,提升用戶體驗(yàn)。
感謝分享,但你說(shuō)的太泛了,看似說(shuō)了很多,但其實(shí)沒(méi)什么信息量,隨便找一個(gè)大學(xué)生都能說(shuō)出這句話。建議還是好好思考自己的體系