天堂8在线天堂资源在线,亚洲高清专区日韩精品,97久久精品亚洲中文字幕无码

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

當(dāng)做應(yīng)用成為共識(shí)，大模型公司拿出了更多彈藥

窄播

2024-12-16

0 評(píng)論 1519 瀏覽 0 收藏

16 分鐘

“大模型應(yīng)用時(shí)代，新品競(jìng)爭(zhēng)開(kāi)啟?！?在人工智能發(fā)展的浪潮中，大模型公司紛紛推出新成果。這些新品將如何改變 AI 應(yīng)用的格局？又會(huì)給我們的生活和工作帶來(lái)哪些影響？

過(guò)去的一周，就像是對(duì)明年AI應(yīng)用領(lǐng)域的激烈競(jìng)爭(zhēng)進(jìn)行了一波預(yù)演。

OpenAI連續(xù)12個(gè)工作日的直播繼續(xù)進(jìn)行，完全版的o1，跳票很久的Sora和GPT-4o的高級(jí)語(yǔ)音模式，最新的ChatGPT ?Projects功能紛紛上線(xiàn)，其中還夾雜著一些關(guān)于A(yíng)GI的符號(hào)性植入，仿佛在暗示這場(chǎng)馬拉松式新品發(fā)布的壓軸大戲會(huì)與AGI密切相關(guān)。

Google也選擇在這周發(fā)布了自己的最新大模型Gemini 2.0，不但可以進(jìn)行多模態(tài)的內(nèi)容輸入和輸出，還支持對(duì)Google搜索、代碼執(zhí)行等工具的使用。同時(shí)發(fā)布的智能體Project Mariner，實(shí)現(xiàn)了此前Google嘗試研發(fā)的代替用戶(hù)在瀏覽器內(nèi)執(zhí)行任務(wù)的功能。

此外，階躍星辰發(fā)布了Step-1o 千億參數(shù)端到端語(yǔ)音大模型，支持語(yǔ)音、文本等混合形式的輸入和輸出，可以實(shí)現(xiàn)語(yǔ)音理解和生成的一體化。Midjourney推出了Patchwork，幫助用戶(hù)構(gòu)建更加清晰的故事，并支持與他人進(jìn)行協(xié)作。人們也可以每月支付500美元，雇傭Devin完成從網(wǎng)站到應(yīng)用程序的構(gòu)建與部署。

與去年這時(shí)候各家大模型廠(chǎng)商重點(diǎn)比拼參數(shù)和基礎(chǔ)性能相比，今年的廠(chǎng)商們迫切地想要讓用戶(hù)把大模型用起來(lái)。

iPhone上的ChatGPT

多模態(tài)能力、操作界面和代理執(zhí)行是這一輪發(fā)布的三個(gè)重點(diǎn)方向。OpenAI和Google都在這三個(gè)方向上推銷(xiāo)著自己的技術(shù)能力，同時(shí)，國(guó)內(nèi)的豆包、智譜、Kimi、通義等大模型也在朝著這些方向努力。

大模型轉(zhuǎn)向應(yīng)用背后，技術(shù)路線(xiàn)也在發(fā)生調(diào)整。前OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever本周在神經(jīng)信息處理系統(tǒng)會(huì)議（NeurIPS）上發(fā)言指出，盡管存量數(shù)據(jù)仍能進(jìn)一步推動(dòng)人工智能的發(fā)展，但互聯(lián)網(wǎng)上的數(shù)據(jù)和石油一樣是有限的，行業(yè)正在放棄使用新數(shù)據(jù)進(jìn)行大模型的預(yù)訓(xùn)練，這將迫使人們改變今天訓(xùn)練大模型的方式。

Google在Gemini 2.0發(fā)布會(huì)上透露的信息顯示，其在大模型技術(shù)發(fā)展上正在嘗試兩條腿走路：一方面，繼續(xù)擴(kuò)大模型規(guī)模，提升基礎(chǔ)性能；另一方面，加強(qiáng)后期訓(xùn)練優(yōu)化和推理技術(shù)的改進(jìn)，尤其關(guān)注多模態(tài)能力的提升，希望讓AI能更好地理解和處理各類(lèi)信息。

當(dāng)知識(shí)性或事實(shí)性數(shù)據(jù)一時(shí)間難以大規(guī)模產(chǎn)生，實(shí)現(xiàn)「推理—應(yīng)用」的閉環(huán)，能為大模型的能力進(jìn)化提供一個(gè)基于應(yīng)用數(shù)據(jù)的穩(wěn)定訓(xùn)練環(huán)境，繼續(xù)能力提升的嘗試。當(dāng)然，這需要大模型的能力滲透進(jìn)更多應(yīng)用場(chǎng)景中，被更大規(guī)模的用戶(hù)更頻繁地使用。

OpenAI們正在為AI應(yīng)用的普及提供更多彈藥。

一、多模態(tài)帶來(lái)更擬人的硬件

OpenAI和Google的發(fā)布內(nèi)容中，多模態(tài)都是一個(gè)重要的組成部分。即便不從AGI的角度去理解，一個(gè)具備看、聽(tīng)、說(shuō)等多種感知能力的大模型，也能被看作具備了更接近人的自然交互習(xí)慣的能力，就像人形機(jī)器人被認(rèn)為是能夠最大程度適應(yīng)人類(lèi)社會(huì)的工作環(huán)境一樣。

O1大模型引入多模態(tài)處理能力的同時(shí)，OpenAI終于發(fā)布了GPT-4o的高級(jí)語(yǔ)音模式。在這個(gè)模式下，一場(chǎng)更順暢自然的人機(jī)互動(dòng)成為了現(xiàn)實(shí)。在高級(jí)語(yǔ)音模式下，四位OpenAI的工作人員流暢地與AI交談，AI能夠通過(guò)攝像頭分辨出他們中誰(shuí)戴著圣誕帽，并一邊「看」，一邊指導(dǎo)其中一位員工做手沖咖啡。

ChatGPT指導(dǎo)制作手沖咖啡

Google發(fā)布的Gemini 2.0也增強(qiáng)了其智能體Project Astra的多模態(tài)交互能力。Google在今年5月舉辦的I/O大會(huì)上推出了Project Astra，能夠借助手機(jī)攝像頭觀(guān)察理解現(xiàn)實(shí)環(huán)境，解答用戶(hù)的相關(guān)問(wèn)題。這次升級(jí)之后，Project Astra可以在多種語(yǔ)言之間進(jìn)行自然對(duì)話(huà)，并擁有圖形記憶能力和對(duì)話(huà)記憶能力。

其中，圖形記憶能力可以讓其記住最近10分鐘內(nèi)看到的圖像，對(duì)話(huà)記憶能力則可以?xún)?chǔ)存和調(diào)用60段歷史對(duì)話(huà)。在一個(gè)演示中，一名Google員工讓Project Astra看到一輛駛過(guò)的公交車(chē)，并向它詢(xún)問(wèn)這輛公交車(chē)能否帶自己去往唐人街附近。當(dāng)然也有展示Project Astra對(duì)不同口音和生僻詞匯的理解能力。

當(dāng)我們看到這些能力演示的時(shí)候，一定能夠想到如果智能眼鏡上有了這種能力，是否會(huì)帶來(lái)更棒的使用體驗(yàn)？

如果說(shuō)多模態(tài)大模型最終指向的是一個(gè)類(lèi)人的、無(wú)處不在的精明助理，那AI硬件一定會(huì)是它的核心載體。大模型多模態(tài)能力的提升，有可能會(huì)讓擁有看、聽(tīng)、說(shuō)能力的智能眼鏡站上更大的風(fēng)口。

作為AI硬件的主要品類(lèi)，我們?cè)趪?guó)內(nèi)已經(jīng)看到了眾多智能眼鏡產(chǎn)品的誕生，包括百度推出了小度AI眼鏡，Rokid與BOLON推出了Rokid glasses，李未可的Meta Lens Chat，蜂巢科技的界環(huán)AI音頻眼鏡，以及被認(rèn)為會(huì)做智能眼鏡的字節(jié)、小米、華為等大廠(chǎng)。

雖然不清楚OpenAI的想法，但從Ray-Ban Meta已經(jīng)搭載AI能力，和Google的一些表態(tài)上，可以看到大模型與AI硬件更深度融合的時(shí)間點(diǎn)正在到來(lái)。Google的工作人員表示，「一小部分人將通過(guò)原型眼鏡測(cè)試 Project Astra，我們認(rèn)為這是體驗(yàn)此類(lèi) AI 最強(qiáng)大、最直觀(guān)的方式之一?！?/p>

在國(guó)內(nèi)，大模型與硬件的結(jié)合也已經(jīng)成為一門(mén)顯學(xué)。致力于端側(cè)AI發(fā)展的面壁智能在上周完成了新一輪數(shù)億元融資，其CEO李大海在內(nèi)部信中表示：「因?yàn)槎藗?cè)智能發(fā)展的深刻影響，主流消費(fèi)電子和新興硬件正演變成一個(gè)個(gè)在不同場(chǎng)景、執(zhí)行特定任務(wù)的超級(jí)智能體，成為新一輪科技創(chuàng)業(yè)大風(fēng)口?！?/p>

二、執(zhí)行能力提升催化智能體

執(zhí)行能力的提升則是這一波大模型產(chǎn)品能力提升的另一個(gè)方向。大模型向應(yīng)用方向進(jìn)行拓展，必然需要具備打通不同場(chǎng)景、終端和應(yīng)用的執(zhí)行能力。而智能體則是目前公認(rèn)的能夠?qū)崿F(xiàn)這種打通的理想載體。

在這周的大模型產(chǎn)品發(fā)布中，我們明顯能夠感覺(jué)到，OpenAI和Google正在給智能體生態(tài)打造更多建設(shè)工具。

OpenAI在GPT-4o的高級(jí)語(yǔ)音模式中展示了一項(xiàng)屏幕共享能力。在開(kāi)啟屏幕共享之后，ChatGPT能夠?yàn)g覽用戶(hù)的短信，并給出回復(fù)建議。這很難不讓人聯(lián)想到智譜和Anthropic推出的AutoGLM和computer use能力。觀(guān)看和理解屏幕上顯示的內(nèi)容，是讓大模型學(xué)會(huì)操作App的基礎(chǔ)。

ChatGPT瀏覽短信

也是在上周，ChatGPT正式接入到蘋(píng)果的系統(tǒng)中。特定英語(yǔ)地區(qū)的蘋(píng)果用戶(hù)已經(jīng)可以在iPhone、iPad和MAC上直接體驗(yàn)ChatGPT的功能。這是一種混合方案，當(dāng)Siri覺(jué)得用戶(hù)提出的問(wèn)題更適合讓ChatGPT來(lái)回答時(shí)，系統(tǒng)會(huì)請(qǐng)求用戶(hù)同意訪(fǎng)問(wèn)OpenAI服務(wù)。未來(lái)，OpenAI未嘗不會(huì)與Apple Intelligence做更深度的融合。

Google則直接將Gemini 2.0定義成一個(gè)面向智能體時(shí)代的AI模型，其多模態(tài)能力和調(diào)用工具的能力都能夠支撐構(gòu)建AI智能體。在Google展示的一些智能體中，有的可以根據(jù)屏幕上的畫(huà)面，實(shí)時(shí)分析游戲情況，并向用戶(hù)提出操作建議，還有的能進(jìn)行深度研究和論文撰寫(xiě)。

Project Mariner也是基于Gemini 2.0的能力實(shí)現(xiàn)的。這也是之前大家所傳的與AutoGLM和computer use類(lèi)似的產(chǎn)品。在Google的介紹中，這個(gè)產(chǎn)品能理解網(wǎng)頁(yè)上的復(fù)雜信息，并調(diào)用Chrome瀏覽器的擴(kuò)展程序，幫助用戶(hù)完成復(fù)雜任務(wù)。與AutoGLM和computer use一樣，該產(chǎn)品也能幫助用戶(hù)執(zhí)行鍵入、單擊等動(dòng)作。

OpenAI與Google之外，亞馬遜也在這周宣布建立了自己的Amazon AGI SF Lab。據(jù)介紹，這個(gè)實(shí)驗(yàn)室由AI初創(chuàng)公司Adept聯(lián)合創(chuàng)始人David Luan領(lǐng)導(dǎo)，其核心目標(biāo)直指打造能在數(shù)字和物理世界中「采取行動(dòng)」的AI智能體，并能處理跨越計(jì)算機(jī)、網(wǎng)絡(luò)瀏覽器和代碼解釋器的復(fù)雜工作流程。

很明顯，對(duì)于大模型廠(chǎng)商來(lái)說(shuō)，明年的大模型產(chǎn)品一定會(huì)在標(biāo)配多模態(tài)能力的基礎(chǔ)上，讓自己擁有更多可影響物理世界的執(zhí)行能力。而這些執(zhí)行能力的推出，一方面會(huì)繼續(xù)帶動(dòng)手機(jī)、PC、汽車(chē)等傳統(tǒng)硬件領(lǐng)域的AI化探索，另一方面，也有可能讓更多大廠(chǎng)和開(kāi)發(fā)者找到新的思路，對(duì)原有產(chǎn)品的體驗(yàn)進(jìn)行自動(dòng)化的局部改造和升級(jí)探索。

三、AI原生的操作界面正在誕生

本周大模型產(chǎn)品發(fā)布的第三個(gè)變化是AI原生的操作界面正在初露端倪。特別是在OpenAI已經(jīng)進(jìn)行的發(fā)布中，Sora和Canvas兩天的發(fā)布給人印象最深刻的都是對(duì)AI原生操作界面的探索。一定會(huì)有人從中得到啟發(fā)，去思考應(yīng)該用一種什么樣的操作界面，來(lái)實(shí)現(xiàn)原有體驗(yàn)的AI化。

這會(huì)是未來(lái)一段時(shí)間內(nèi)的探索方向。就像智能手機(jī)出現(xiàn)之后，游戲廠(chǎng)商如何去探索一個(gè)更適合觸摸屏交互的操作界面一樣，在大模型越來(lái)越深度地介入應(yīng)用場(chǎng)景之后，需要有一個(gè)圍繞自然語(yǔ)言搭建的操作界面。我們目前看到的在生成視頻時(shí)進(jìn)行的參數(shù)選擇，并不是面向未來(lái)的操作界面。

對(duì)話(huà)窗口可能是一種形態(tài)，但不足以支撐多元的信息形態(tài)。這也是為什么，OpenAI會(huì)推出Canvas作為對(duì)話(huà)窗口的補(bǔ)充。Canvas事實(shí)上提供了一個(gè)人與AI交流的「桌面」，大家在聊天的同時(shí)，可以把自己手頭的文字、視頻、數(shù)據(jù)放在桌面上，一同觀(guān)看和處理。

Canvas界面

OpenAI在11月推出的ChatGPT桌面應(yīng)用能夠在MAC上實(shí)現(xiàn)與第三方應(yīng)用的協(xié)作，將第三方應(yīng)用中的內(nèi)容引入到用戶(hù)與ChatGPT的對(duì)話(huà)中。有科技博主利用這個(gè)功能，讓ChatGPT「看」到了Terminal中打開(kāi)的字幕文件，并生成了能夠?qū)⑵滢D(zhuǎn)換為純文本文件的命令。

這種協(xié)作，形象點(diǎn)說(shuō)，就是在將Terminal等軟件中的數(shù)據(jù)、信息擺放到桌面上，讓AI也能看到。然后AI能夠根據(jù)自己看到的200行信息，更精準(zhǔn)地理解用戶(hù)在對(duì)話(huà)中表述的意圖。當(dāng)然，Canvas的預(yù)覽功能，也是對(duì)這種桌面能力的補(bǔ)充，相當(dāng)于把一個(gè)木制的桌面，變成了一個(gè)智能的顯示屏。

OpenAI在第七天發(fā)布的Projects功能，則是為桌面打造的文件柜，可以將同一個(gè)項(xiàng)目的聊天記錄、文件和自定義指令集中在一起，實(shí)現(xiàn)更精細(xì)化的資料管理。Projects讓用戶(hù)能夠更輕松在ChatGPT上打造自己的工作臺(tái)。甚至，這個(gè)Projects未來(lái)可能會(huì)集成更多人和智能體，成為一個(gè)協(xié)作空間。

Storyboard

同理，盡管大家對(duì)Sora的視頻生成能力褒貶不一，但對(duì)Sora展示出的AI視頻操作界面都給出了比較高的評(píng)價(jià)。Sora既提供了一些模版化的工具插件，比如可以替換視頻元素的Remix工具，可以拓展最佳幀的Re-cut工具，可以生成重復(fù)視頻的Loop工具；又推出了Storyboard，一個(gè)擁有時(shí)間軸的視頻編輯工具。

未來(lái)一年我們應(yīng)該能看到更多類(lèi)似的AI原生操作界面的嘗試。這是一種從AI生成能力向AI創(chuàng)作能力延伸的必然。從更大的視角來(lái)看，大模型也到了讓更多場(chǎng)景、更多行業(yè)、更多人感知到和使用起來(lái)的階段了。只有這樣，才能維持住大家對(duì)大模型的信心，讓大模型發(fā)揮應(yīng)有的價(jià)值，抵消一部分質(zhì)疑的聲音。

作者 | 李威

本文由人人都是產(chǎn)品經(jīng)理作者【李威】，微信公眾號(hào)：【窄播】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App