AI不應(yīng)該把所有桌子都掀了
在人工智能領(lǐng)域,大模型技術(shù)的發(fā)展引發(fā)了廣泛的關(guān)注和討論。人們曾對AGI(通用人工智能)的快速實現(xiàn)抱有極高的期待,但現(xiàn)實情況是,這一目標(biāo)并非一蹴而就。當(dāng)前的AI產(chǎn)品正逐步從單純的技術(shù)展示轉(zhuǎn)向?qū)嶋H應(yīng)用,通過與現(xiàn)有系統(tǒng)的融合,提升用戶體驗。本文將探討大模型技術(shù)在實際應(yīng)用中的落地情況,以及它如何與現(xiàn)有技術(shù)資源相結(jié)合,服務(wù)于用戶的真實需求。
01 大廠的AI正踏入另一條河流
今天關(guān)于大模型的狂熱里充滿了各種誤解。
其中最深入人心的一個,就是“AGI” (Artificial General Intelligence,通用人工智能)馬上就要實現(xiàn),而實現(xiàn)的方式是由一個全知全能的模型,解決你自己現(xiàn)在都不知道還需要去解決的某個無比重要的任務(wù)。實現(xiàn)的載體就是一個比人還聰明的對話框。
因此,一切都需要被立刻顛覆、馬上重來。
這可以是個令人期待的未來,但并不是馬上就要發(fā)生的事情。最近的一系列事情都在讓人們回過神來。比如作為標(biāo)桿的GPT-5一再延遲,如扎克伯格首次明確了對ChatGPT類單一全能AI產(chǎn)品的拒絕;比如一份被稱為“AI墓地”的名單在網(wǎng)上熱傳,收錄了738個已死去或停止運(yùn)行的AI項目。
與此同時,幾個重要的AI產(chǎn)品,都在體現(xiàn)另一種浪潮的方向:不是推倒重建,而是在已有大量用戶的系統(tǒng)里納入大模型能力,借此大幅提升用戶體驗;不是無中生有,而是用大模型把已積累的資源真正調(diào)用起來,更好服務(wù)用戶原本就存在的需求。
上個月的蘋果WWDC 發(fā)布會在第一時間被認(rèn)為令人失望,很大程度就是因為外界對蘋果發(fā)布一個全知全能模型的預(yù)期太高了,但接下來股價高漲等市場的反饋扭轉(zhuǎn)了人們的判斷,也體現(xiàn)了人們對蘋果所代表的這條AI路線的重新思考。
蘋果沒有自己的全能模型,而是建設(shè)了一個三層的模型體系:本地模型用于處理簡單任務(wù),私有云端模型來確保加密和安全,第三方的模型提供更多的能力。這個體系是為了它復(fù)雜的生態(tài)系統(tǒng)而建,為了增強(qiáng)它自己已有的能力而設(shè),目的是提高用戶在已有需求上的體驗。
這也是為什么后來大家明白,OpenAI在里面并不是一個吃掉蘋果的角色,哪怕ChatGPT是目前最強(qiáng)的大模型產(chǎn)品,也無法“接住”蘋果的用戶需求,依然只有蘋果能服務(wù)他們。
再往前Google在年度大會Google I/O上的思路同樣如此,拋去在OpenAI壓力下應(yīng)對性的“期貨”產(chǎn)品Astra,它更多的發(fā)布都是在把Gemini融入它已有的億萬級用戶產(chǎn)品線中,而非對一個單獨的全新Gemini app本身的更新。
在最近一些國內(nèi)國民級產(chǎn)品的更新上,也有相似趨勢。在剛結(jié)束的世界人工智能大會(WAIC),支付寶重點展示了最新的AI應(yīng)用——集成在支付寶App里的智能助理,你可以在支付寶首頁下拉找到它,過往多次點擊才能完成的如訂票、點餐、問診掛號等服務(wù),用說話的方式就能更簡單地辦好。
與那些充滿科幻片色彩、但遲遲無法體驗的場景不同,蘋果在發(fā)布會上舉的例子是,“假設(shè)我的一個會議被重新安排到下午晚些時候,我想知道這是否會影響到我按時參加我女兒的演出”,在Siri后續(xù)更新后這些功能就可以實現(xiàn)。
相似的,支付寶同樣關(guān)心AI能幫人解決生活問題,在智能助理展示的已實現(xiàn)的功能中,就包括“幫我點一杯星巴克的大杯冰美式”、“幫我交200塊錢話費(fèi)”、“上個月我花了多少錢”、“幫我查明晚七點后從上海飛北京的航班”等服務(wù)。
今年4月開始,支付寶就在首頁測試這個全新的智能助理,它不是側(cè)重聊天交流的“AI原生應(yīng)用”,更像是融入支付寶平臺生態(tài)的AI生活管家,不只是“有腦有嘴能對話”,同樣“有手有腳能辦事”。
“生活搭子”之外,也有“工作搭子”—— 今年1月,釘釘上線的“AI超級助理”,就成了可調(diào)用釘釘幾乎所有功能的入口。更早之前,微軟同樣將Copilot(AI助手)嵌入Word、Excel等旗下所有的辦公應(yīng)用中。
這些都是典型平臺或App的自我改造。他們沒有拋下原有億萬用戶的日常需求,它們不因AI大模型出現(xiàn)而改變,但新技術(shù)會使需求的滿足變得大不一樣。
這種對產(chǎn)品的自我重塑,從用戶需求出發(fā),看起來不那么“炫技”,甚至是個下“笨功夫”的活兒,需要既有生態(tài)保障,甚至是系統(tǒng)性二次開發(fā)。
比如蘋果智能需要基于大模型,在安全的環(huán)境里對用戶的個人信息進(jìn)行處理,從而進(jìn)一步“判斷用戶的日程是否沖突”。支付寶智能助理要完成訂票這樣的任務(wù),背后是系統(tǒng)性的生態(tài)和技術(shù)支撐形成閉環(huán),需要在隱私保護(hù)基礎(chǔ)上對用戶個人信息進(jìn)行個性化的處理。
這些公司往往也都是在隱私和數(shù)據(jù)保護(hù)上最在意的公司,因此你會看到相關(guān)功能發(fā)布時,都帶著“枯燥”的對數(shù)據(jù)隱私的配套技術(shù)保障的介紹,它們當(dāng)然沒有一個斯嘉麗約翰遜口音的AI化身吸引眼球,但對在日常生活里依賴這些服務(wù)的人們是至關(guān)重要的。
AI要融入用戶的生活場景,提供更有人情味的服務(wù)。至于大模型本身,則無需喧賓奪主,非要出來把一切桌子都掀了,它完全可以躲在最后面。
“讓AI像掃碼支付一樣簡單”是一個很形象的說法。一個二維碼簡化了許多繁瑣的流程,同樣讓諸多技術(shù)上的復(fù)雜革新隱藏在了后面。支付寶提出的這句話,說清了許多國民級應(yīng)用使用大模型的新方向,也是通往“AGI”的另一條路——不止是All in AI,更應(yīng)該AI in All。
02 大模型落地的三股浪潮
諸多國民級產(chǎn)品的“不謀而合”背后,是把大模型放在更長的技術(shù)發(fā)展視野里來看待的產(chǎn)物。
從技術(shù)的演進(jìn)來看,大模型的突破,可以被認(rèn)為是機(jī)器智能漫長發(fā)展歷程里的一個全新階段,而非自成一體的某種“創(chuàng)世紀(jì)”時刻,拋棄過去、顛覆一切。
某種程度上,我們可以把互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的成熟、因此而產(chǎn)生的大量數(shù)據(jù)及數(shù)據(jù)處理技術(shù)、因數(shù)據(jù)豐富而進(jìn)步的算法模型、進(jìn)一步誕生的推薦算法等,以及移動互聯(lián)網(wǎng)的最終繁榮,都看作一整個不間斷進(jìn)程里的組成部分,而今天大模型的爆發(fā),則提供了徹底釋放過往積淀技術(shù)和數(shù)據(jù)資產(chǎn)的能力。
這也意味著,大模型是個十分重要但依然獨木難支的“大腦”,它需要與其他重要技術(shù)一起發(fā)揮作用,需要一整個系統(tǒng)來支撐,才能幫助這個系統(tǒng)完成升級。
這與人們一開始的嘗試已經(jīng)很不同。在如何把大模型通過應(yīng)用落地的事上,短短不到兩年時間已經(jīng)有了三股浪潮。
第一波浪潮是AI聊天應(yīng)用。但人們總是忘記ChatGPT是個“意外”的產(chǎn)物,最初只是用來展示模型已有能力的一個demo,OpenAI自己也沒有準(zhǔn)備好,沒人預(yù)料到它引發(fā)的一系列變革。
因此在最初的第一個階段,震驚的人們把一切幻想都寄托在一個神奇的對話框上——既然它可以表現(xiàn)出智能,那么我跟他對話就應(yīng)該能解決一切問題。于是,各種大模型以一個對話框的形態(tài)變成產(chǎn)品,紛紛推出。
第二股浪潮,則是希望通過簡單的Prompt等方法,來把這個對話框變成某些垂直場景的專家,進(jìn)而來重建對應(yīng)的垂直應(yīng)用。GPT store等就是這個階段的產(chǎn)物。
現(xiàn)在各個大廠正理性邁入第三階段:基于前兩個階段的嘗試,它們發(fā)現(xiàn)想要單純依賴一個對話框就重塑自己有些想當(dāng)然,大模型的落地需要和已有的系統(tǒng)進(jìn)行融合,利用已有的技術(shù)和資源來服務(wù)用戶,而不是徹底重新來過。
看一看微軟的一系列嘗試,就能更好地理解這樣的趨勢。作為OpenAI的最大推手,微軟在ChatGPT出現(xiàn)后,也第一時間希望通過一個萬能對話框來拯救Bing,成為未來AI時代的入口。
然而ChatGPT加持的Bing,在爭奪市場份額上效果一般。之后微軟快速擁抱了OpenAI的GPTs理念,在它提供給B端用戶的Copilot Pro服務(wù)中第一時間集成了GPT store的功能,但就在3個月后,它又決絕地下線了這個功能。
最終,微軟真正一直延續(xù)下來的AI戰(zhàn)略,還是把大模型融入已有的產(chǎn)品和生態(tài)中——從Office Copilot,到最新的AI PC里最明星的產(chǎn)品Recall,都是聚焦讓大模型在已有的復(fù)雜的資源里挖掘潛能,進(jìn)而真正落地。
這個技術(shù)路線現(xiàn)在被很多人定義為“AI Agent”(智能體),一個明顯的共識是,AI Agent越來越多地強(qiáng)調(diào)大模型能智能調(diào)用現(xiàn)有工具、服務(wù)和計算資源的能力。
大模型不是一切,但它能真正智能地調(diào)用一切。因此,它也需要一切。而這個“一切”在哪里呢?
在那些已融入生活的國民級產(chǎn)品和它已服務(wù)的萬千復(fù)雜場景里。
蘋果展示的“大模型增強(qiáng)版Siri”可以帶來的服務(wù),正是基于它各種軟硬件結(jié)合的系統(tǒng)級調(diào)用能力。支付寶智能助理在做的,同樣是一個系統(tǒng)級工程。
以支付寶智能助理正在測試的“智能點單”功能舉例:當(dāng)用戶說出“請給我點一杯星巴克的大杯冰拿鐵”,大模型先讓AI具有屏幕感知能力,能“看到”小程序頁面,再通過仿真執(zhí)行能力,快速完成所有過去需要用戶點擊的步驟,用戶確認(rèn)并付款后,就能到附近的線下門店取咖啡了。
支付寶沒有選擇簡單調(diào)用數(shù)據(jù)接口,而是選擇這一名為ACT(Transformer for Actions)的智能服務(wù)技術(shù),正是希望未來能通過AI,連接背后數(shù)百萬的小程序,乃至平臺原有的數(shù)千種數(shù)字生活服務(wù)。
我們可以想見,未來的智能助理可以用一句話就能幫我們訂票、掛號、制定出門行程……AI也能從“通用”的大模型,變成“有用”的小工具,服務(wù)更多的普通人。
可以看到,無論是蘋果或微軟,還是支付寶或釘釘,國內(nèi)外的平臺產(chǎn)品,都不再執(zhí)迷于以一種上帝視角去創(chuàng)造全新的需求。
它們決定讓大模型從幻想的全能對話框里走出來,讓AI融入生態(tài),也讓AI落入生活——這也許并不前瞻,但人人可見的大模型落地路徑,反而能推動這個技術(shù)的真正潛能開始逐步兌現(xiàn)。
作者|玄寧
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!