當(dāng)做應(yīng)用成為共識(shí),大模型公司拿出了更多彈藥
“大模型應(yīng)用時(shí)代,新品競(jìng)爭(zhēng)開(kāi)啟?!?在人工智能發(fā)展的浪潮中,大模型公司紛紛推出新成果。這些新品將如何改變 AI 應(yīng)用的格局?又會(huì)給我們的生活和工作帶來(lái)哪些影響?
過(guò)去的一周,就像是對(duì)明年AI應(yīng)用領(lǐng)域的激烈競(jìng)爭(zhēng)進(jìn)行了一波預(yù)演。
OpenAI連續(xù)12個(gè)工作日的直播繼續(xù)進(jìn)行,完全版的o1,跳票很久的Sora和GPT-4o的高級(jí)語(yǔ)音模式,最新的ChatGPT ?Projects功能紛紛上線(xiàn),其中還夾雜著一些關(guān)于A(yíng)GI的符號(hào)性植入,仿佛在暗示這場(chǎng)馬拉松式新品發(fā)布的壓軸大戲會(huì)與AGI密切相關(guān)。
Google也選擇在這周發(fā)布了自己的最新大模型Gemini 2.0,不但可以進(jìn)行多模態(tài)的內(nèi)容輸入和輸出,還支持對(duì)Google搜索、代碼執(zhí)行等工具的使用。同時(shí)發(fā)布的智能體Project Mariner,實(shí)現(xiàn)了此前Google嘗試研發(fā)的代替用戶(hù)在瀏覽器內(nèi)執(zhí)行任務(wù)的功能。
此外,階躍星辰發(fā)布了Step-1o 千億參數(shù)端到端語(yǔ)音大模型,支持語(yǔ)音、文本等混合形式的輸入和輸出,可以實(shí)現(xiàn)語(yǔ)音理解和生成的一體化。Midjourney推出了Patchwork,幫助用戶(hù)構(gòu)建更加清晰的故事,并支持與他人進(jìn)行協(xié)作。人們也可以每月支付500美元,雇傭Devin完成從網(wǎng)站到應(yīng)用程序的構(gòu)建與部署。
與去年這時(shí)候各家大模型廠(chǎng)商重點(diǎn)比拼參數(shù)和基礎(chǔ)性能相比,今年的廠(chǎng)商們迫切地想要讓用戶(hù)把大模型用起來(lái)。
iPhone上的ChatGPT
多模態(tài)能力、操作界面和代理執(zhí)行是這一輪發(fā)布的三個(gè)重點(diǎn)方向。OpenAI和Google都在這三個(gè)方向上推銷(xiāo)著自己的技術(shù)能力,同時(shí),國(guó)內(nèi)的豆包、智譜、Kimi、通義等大模型也在朝著這些方向努力。
大模型轉(zhuǎn)向應(yīng)用背后,技術(shù)路線(xiàn)也在發(fā)生調(diào)整。前OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever本周在神經(jīng)信息處理系統(tǒng)會(huì)議(NeurIPS)上發(fā)言指出,盡管存量數(shù)據(jù)仍能進(jìn)一步推動(dòng)人工智能的發(fā)展,但互聯(lián)網(wǎng)上的數(shù)據(jù)和石油一樣是有限的,行業(yè)正在放棄使用新數(shù)據(jù)進(jìn)行大模型的預(yù)訓(xùn)練,這將迫使人們改變今天訓(xùn)練大模型的方式。
Google在Gemini 2.0發(fā)布會(huì)上透露的信息顯示,其在大模型技術(shù)發(fā)展上正在嘗試兩條腿走路:一方面,繼續(xù)擴(kuò)大模型規(guī)模,提升基礎(chǔ)性能;另一方面,加強(qiáng)后期訓(xùn)練優(yōu)化和推理技術(shù)的改進(jìn),尤其關(guān)注多模態(tài)能力的提升,希望讓AI能更好地理解和處理各類(lèi)信息。
當(dāng)知識(shí)性或事實(shí)性數(shù)據(jù)一時(shí)間難以大規(guī)模產(chǎn)生,實(shí)現(xiàn)「推理—應(yīng)用」的閉環(huán),能為大模型的能力進(jìn)化提供一個(gè)基于應(yīng)用數(shù)據(jù)的穩(wěn)定訓(xùn)練環(huán)境,繼續(xù)能力提升的嘗試。當(dāng)然,這需要大模型的能力滲透進(jìn)更多應(yīng)用場(chǎng)景中,被更大規(guī)模的用戶(hù)更頻繁地使用。
OpenAI們正在為AI應(yīng)用的普及提供更多彈藥。
一、多模態(tài)帶來(lái)更擬人的硬件
OpenAI和Google的發(fā)布內(nèi)容中,多模態(tài)都是一個(gè)重要的組成部分。即便不從AGI的角度去理解,一個(gè)具備看、聽(tīng)、說(shuō)等多種感知能力的大模型,也能被看作具備了更接近人的自然交互習(xí)慣的能力,就像人形機(jī)器人被認(rèn)為是能夠最大程度適應(yīng)人類(lèi)社會(huì)的工作環(huán)境一樣。
O1大模型引入多模態(tài)處理能力的同時(shí),OpenAI終于發(fā)布了GPT-4o的高級(jí)語(yǔ)音模式。在這個(gè)模式下,一場(chǎng)更順暢自然的人機(jī)互動(dòng)成為了現(xiàn)實(shí)。在高級(jí)語(yǔ)音模式下,四位OpenAI的工作人員流暢地與AI交談,AI能夠通過(guò)攝像頭分辨出他們中誰(shuí)戴著圣誕帽,并一邊「看」,一邊指導(dǎo)其中一位員工做手沖咖啡。
ChatGPT指導(dǎo)制作手沖咖啡
Google發(fā)布的Gemini 2.0也增強(qiáng)了其智能體Project Astra的多模態(tài)交互能力。Google在今年5月舉辦的I/O大會(huì)上推出了Project Astra,能夠借助手機(jī)攝像頭觀(guān)察理解現(xiàn)實(shí)環(huán)境,解答用戶(hù)的相關(guān)問(wèn)題。這次升級(jí)之后,Project Astra可以在多種語(yǔ)言之間進(jìn)行自然對(duì)話(huà),并擁有圖形記憶能力和對(duì)話(huà)記憶能力。
其中,圖形記憶能力可以讓其記住最近10分鐘內(nèi)看到的圖像,對(duì)話(huà)記憶能力則可以?xún)?chǔ)存和調(diào)用60段歷史對(duì)話(huà)。在一個(gè)演示中,一名Google員工讓Project Astra看到一輛駛過(guò)的公交車(chē),并向它詢(xún)問(wèn)這輛公交車(chē)能否帶自己去往唐人街附近。當(dāng)然也有展示Project Astra對(duì)不同口音和生僻詞匯的理解能力。
當(dāng)我們看到這些能力演示的時(shí)候,一定能夠想到如果智能眼鏡上有了這種能力,是否會(huì)帶來(lái)更棒的使用體驗(yàn)?
如果說(shuō)多模態(tài)大模型最終指向的是一個(gè)類(lèi)人的、無(wú)處不在的精明助理,那AI硬件一定會(huì)是它的核心載體。大模型多模態(tài)能力的提升,有可能會(huì)讓擁有看、聽(tīng)、說(shuō)能力的智能眼鏡站上更大的風(fēng)口。
作為AI硬件的主要品類(lèi),我們?cè)趪?guó)內(nèi)已經(jīng)看到了眾多智能眼鏡產(chǎn)品的誕生,包括百度推出了小度AI眼鏡,Rokid與BOLON推出了Rokid glasses,李未可的Meta Lens Chat,蜂巢科技的界環(huán)AI音頻眼鏡,以及被認(rèn)為會(huì)做智能眼鏡的字節(jié)、小米、華為等大廠(chǎng)。
雖然不清楚OpenAI的想法,但從Ray-Ban Meta已經(jīng)搭載AI能力,和Google的一些表態(tài)上,可以看到大模型與AI硬件更深度融合的時(shí)間點(diǎn)正在到來(lái)。Google的工作人員表示,「一小部分人將通過(guò)原型眼鏡測(cè)試 Project Astra,我們認(rèn)為這是體驗(yàn)此類(lèi) AI 最強(qiáng)大、最直觀(guān)的方式之一?!?/p>
在國(guó)內(nèi),大模型與硬件的結(jié)合也已經(jīng)成為一門(mén)顯學(xué)。致力于端側(cè)AI發(fā)展的面壁智能在上周完成了新一輪數(shù)億元融資,其CEO李大海在內(nèi)部信中表示:「因?yàn)槎藗?cè)智能發(fā)展的深刻影響,主流消費(fèi)電子和新興硬件正演變成一個(gè)個(gè)在不同場(chǎng)景、執(zhí)行特定任務(wù)的超級(jí)智能體,成為新一輪科技創(chuàng)業(yè)大風(fēng)口?!?/p>
二、執(zhí)行能力提升催化智能體
執(zhí)行能力的提升則是這一波大模型產(chǎn)品能力提升的另一個(gè)方向。大模型向應(yīng)用方向進(jìn)行拓展,必然需要具備打通不同場(chǎng)景、終端和應(yīng)用的執(zhí)行能力。而智能體則是目前公認(rèn)的能夠?qū)崿F(xiàn)這種打通的理想載體。
在這周的大模型產(chǎn)品發(fā)布中,我們明顯能夠感覺(jué)到,OpenAI和Google正在給智能體生態(tài)打造更多建設(shè)工具。
OpenAI在GPT-4o的高級(jí)語(yǔ)音模式中展示了一項(xiàng)屏幕共享能力。在開(kāi)啟屏幕共享之后,ChatGPT能夠?yàn)g覽用戶(hù)的短信,并給出回復(fù)建議。這很難不讓人聯(lián)想到智譜和Anthropic推出的AutoGLM和computer use能力。觀(guān)看和理解屏幕上顯示的內(nèi)容,是讓大模型學(xué)會(huì)操作App的基礎(chǔ)。
ChatGPT瀏覽短信
也是在上周,ChatGPT正式接入到蘋(píng)果的系統(tǒng)中。特定英語(yǔ)地區(qū)的蘋(píng)果用戶(hù)已經(jīng)可以在iPhone、iPad和MAC上直接體驗(yàn)ChatGPT的功能。這是一種混合方案,當(dāng)Siri覺(jué)得用戶(hù)提出的問(wèn)題更適合讓ChatGPT來(lái)回答時(shí),系統(tǒng)會(huì)請(qǐng)求用戶(hù)同意訪(fǎng)問(wèn)OpenAI服務(wù)。未來(lái),OpenAI未嘗不會(huì)與Apple Intelligence做更深度的融合。
Google則直接將Gemini 2.0定義成一個(gè)面向智能體時(shí)代的AI模型,其多模態(tài)能力和調(diào)用工具的能力都能夠支撐構(gòu)建AI智能體。在Google展示的一些智能體中,有的可以根據(jù)屏幕上的畫(huà)面,實(shí)時(shí)分析游戲情況,并向用戶(hù)提出操作建議,還有的能進(jìn)行深度研究和論文撰寫(xiě)。
Project Mariner也是基于Gemini 2.0的能力實(shí)現(xiàn)的。這也是之前大家所傳的與AutoGLM和computer use類(lèi)似的產(chǎn)品。在Google的介紹中,這個(gè)產(chǎn)品能理解網(wǎng)頁(yè)上的復(fù)雜信息,并調(diào)用Chrome瀏覽器的擴(kuò)展程序,幫助用戶(hù)完成復(fù)雜任務(wù)。與AutoGLM和computer use一樣,該產(chǎn)品也能幫助用戶(hù)執(zhí)行鍵入、單擊等動(dòng)作。
OpenAI與Google之外,亞馬遜也在這周宣布建立了自己的Amazon AGI SF Lab。據(jù)介紹,這個(gè)實(shí)驗(yàn)室由AI初創(chuàng)公司Adept聯(lián)合創(chuàng)始人David Luan領(lǐng)導(dǎo),其核心目標(biāo)直指打造能在數(shù)字和物理世界中「采取行動(dòng)」的AI智能體,并能處理跨越計(jì)算機(jī)、網(wǎng)絡(luò)瀏覽器和代碼解釋器的復(fù)雜工作流程。
很明顯,對(duì)于大模型廠(chǎng)商來(lái)說(shuō),明年的大模型產(chǎn)品一定會(huì)在標(biāo)配多模態(tài)能力的基礎(chǔ)上,讓自己擁有更多可影響物理世界的執(zhí)行能力。而這些執(zhí)行能力的推出,一方面會(huì)繼續(xù)帶動(dòng)手機(jī)、PC、汽車(chē)等傳統(tǒng)硬件領(lǐng)域的AI化探索,另一方面,也有可能讓更多大廠(chǎng)和開(kāi)發(fā)者找到新的思路,對(duì)原有產(chǎn)品的體驗(yàn)進(jìn)行自動(dòng)化的局部改造和升級(jí)探索。
三、AI原生的操作界面正在誕生
本周大模型產(chǎn)品發(fā)布的第三個(gè)變化是AI原生的操作界面正在初露端倪。特別是在OpenAI已經(jīng)進(jìn)行的發(fā)布中,Sora和Canvas兩天的發(fā)布給人印象最深刻的都是對(duì)AI原生操作界面的探索。一定會(huì)有人從中得到啟發(fā),去思考應(yīng)該用一種什么樣的操作界面,來(lái)實(shí)現(xiàn)原有體驗(yàn)的AI化。
這會(huì)是未來(lái)一段時(shí)間內(nèi)的探索方向。就像智能手機(jī)出現(xiàn)之后,游戲廠(chǎng)商如何去探索一個(gè)更適合觸摸屏交互的操作界面一樣,在大模型越來(lái)越深度地介入應(yīng)用場(chǎng)景之后,需要有一個(gè)圍繞自然語(yǔ)言搭建的操作界面。我們目前看到的在生成視頻時(shí)進(jìn)行的參數(shù)選擇,并不是面向未來(lái)的操作界面。
對(duì)話(huà)窗口可能是一種形態(tài),但不足以支撐多元的信息形態(tài)。這也是為什么,OpenAI會(huì)推出Canvas作為對(duì)話(huà)窗口的補(bǔ)充。Canvas事實(shí)上提供了一個(gè)人與AI交流的「桌面」,大家在聊天的同時(shí),可以把自己手頭的文字、視頻、數(shù)據(jù)放在桌面上,一同觀(guān)看和處理。
Canvas界面
OpenAI在11月推出的ChatGPT桌面應(yīng)用能夠在MAC上實(shí)現(xiàn)與第三方應(yīng)用的協(xié)作,將第三方應(yīng)用中的內(nèi)容引入到用戶(hù)與ChatGPT的對(duì)話(huà)中。有科技博主利用這個(gè)功能,讓ChatGPT「看」到了Terminal中打開(kāi)的字幕文件,并生成了能夠?qū)⑵滢D(zhuǎn)換為純文本文件的命令。
這種協(xié)作,形象點(diǎn)說(shuō),就是在將Terminal等軟件中的數(shù)據(jù)、信息擺放到桌面上,讓AI也能看到。然后AI能夠根據(jù)自己看到的200行信息,更精準(zhǔn)地理解用戶(hù)在對(duì)話(huà)中表述的意圖。當(dāng)然,Canvas的預(yù)覽功能,也是對(duì)這種桌面能力的補(bǔ)充,相當(dāng)于把一個(gè)木制的桌面,變成了一個(gè)智能的顯示屏。
OpenAI在第七天發(fā)布的Projects功能,則是為桌面打造的文件柜,可以將同一個(gè)項(xiàng)目的聊天記錄、文件和自定義指令集中在一起,實(shí)現(xiàn)更精細(xì)化的資料管理。Projects讓用戶(hù)能夠更輕松在ChatGPT上打造自己的工作臺(tái)。甚至,這個(gè)Projects未來(lái)可能會(huì)集成更多人和智能體,成為一個(gè)協(xié)作空間。
Storyboard
同理,盡管大家對(duì)Sora的視頻生成能力褒貶不一,但對(duì)Sora展示出的AI視頻操作界面都給出了比較高的評(píng)價(jià)。Sora既提供了一些模版化的工具插件,比如可以替換視頻元素的Remix工具,可以拓展最佳幀的Re-cut工具,可以生成重復(fù)視頻的Loop工具;又推出了Storyboard,一個(gè)擁有時(shí)間軸的視頻編輯工具。
未來(lái)一年我們應(yīng)該能看到更多類(lèi)似的AI原生操作界面的嘗試。這是一種從AI生成能力向AI創(chuàng)作能力延伸的必然。從更大的視角來(lái)看,大模型也到了讓更多場(chǎng)景、更多行業(yè)、更多人感知到和使用起來(lái)的階段了。只有這樣,才能維持住大家對(duì)大模型的信心,讓大模型發(fā)揮應(yīng)有的價(jià)值,抵消一部分質(zhì)疑的聲音。
作者 | 李威
本文由人人都是產(chǎn)品經(jīng)理作者【李威】,微信公眾號(hào):【窄播】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!