都說(shuō)谷歌被OpenAI狙擊了,我怎么覺(jué)得它在狙蘋(píng)果
在OpenAI的春季發(fā)布會(huì)之后,谷歌的 I/O 2024 大會(huì)也如期而至,本文分享了看完谷歌的 I/O 大會(huì)的一些感受,一起來(lái)看。
谷歌的 I/O 2024 大會(huì)也如約而至了。。。
發(fā)布會(huì)是在美國(guó)山景城開(kāi)的,咱差評(píng)編輯部也派人去了現(xiàn)場(chǎng),聽(tīng)身處前線(xiàn)的同事講,不知道是不是 OpenAI 搶了風(fēng)頭的緣故,今年現(xiàn)場(chǎng)的氛圍似乎都沒(méi)前幾年那么熱鬧了。
在以前,用萬(wàn)國(guó)來(lái)朝形容 I/O 大會(huì)都不為過(guò),而今年很明顯人沒(méi)那么多( 不過(guò)以前有賣(mài)門(mén)票,這次沒(méi)賣(mài) )。
不過(guò)這畢竟還是谷歌,在整整快兩個(gè)小時(shí)的發(fā)布會(huì)里,蹲在屏幕前看的世超,還是被秀了好幾波肌肉。
簡(jiǎn)單一句話(huà)概括,和昨天的 OpenAI “ 小而美 ” 的春季發(fā)布會(huì)比起來(lái), I/O 大會(huì)完全就是 “ 大而全 ” 。
反正就是各種和 AI 能掛上鉤的東西,他們都來(lái)了一遍,從最基礎(chǔ)的大模型,到能生成視頻、音樂(lè)的 AI ,再到 TPU 芯片等等。
世超也從里面挑了幾個(gè)比較亮眼的產(chǎn)品,來(lái)和大伙說(shuō)道說(shuō)道。
首先,世超覺(jué)得,昨天 OpenAI 發(fā)布會(huì)就是對(duì)著今天谷歌狙擊的。。。
谷歌這次重點(diǎn)推出的多模態(tài) AI 助手Project Astra ,和昨天 OpenAI 的 GPT-4o 幾乎沒(méi)差,都是能和多模態(tài)實(shí)時(shí)交互的 AI 。
把麥克風(fēng)、攝像頭的權(quán)限給 Project Astra 之后,它能眼觀(guān)六路、耳聽(tīng)八方,隨便問(wèn)啥,它都能第一時(shí)間給出答復(fù)。
比如讓它看看辦公室里有沒(méi)有會(huì)發(fā)出聲音的東西,當(dāng)鏡頭掃過(guò)一個(gè)音響時(shí),它立馬就能反應(yīng)過(guò)來(lái)。
想再了解了解音響的構(gòu)造啥的,也能直接在屏幕上寫(xiě)寫(xiě)畫(huà)畫(huà),然后提問(wèn),整個(gè)過(guò)程 Project Astra 全都能看懂。
而且因?yàn)橛凶钚碌?Gemini 在背后撐腰,它的理解能力也是一絕。
隨機(jī)找到一個(gè)程序員的工位,指著屏幕里的代碼問(wèn)是干啥的, Project Astra 沒(méi)反應(yīng)幾秒就能給出答案,而且還能準(zhǔn)確說(shuō)出用了啥代碼。還有搞個(gè) “ 薛定諤的貓 ” 梗圖,它也能迅速猜出來(lái)。
不過(guò)它和 GPT-4o 還是有點(diǎn)區(qū)別在的,就是說(shuō)話(huà)的語(yǔ)氣語(yǔ)調(diào)啥的,沒(méi)昨天的 GPT-4o 的人味兒那么重, Project Astra 稍微有點(diǎn)高冷的味道。
而且 Project Astra 身上還有一個(gè) GPT-4o 沒(méi)展示的技能,有記憶,比如在演示里, Project Astra 能準(zhǔn)確記住,鏡頭一掃而過(guò)的桌子上,放了一個(gè)蘋(píng)果。
這對(duì)實(shí)時(shí)交互 AI 來(lái)說(shuō),算是相當(dāng)關(guān)鍵的一個(gè)能力了。不過(guò)在前線(xiàn)的同事跟世超說(shuō),現(xiàn)在 Project Astra 就只能記一分鐘的事兒,但之后上線(xiàn)的版本肯定能記更多。
但有一說(shuō)一,就算是世超,也不能把過(guò)去一分鐘看到了東西一五一十的全記下來(lái)。。。
要不是昨天 GPT-4o 已經(jīng)搶先亮相了一波, Project Astra 一定會(huì)被各路媒體打上 “ 炸裂 ” 、 “ 史詩(shī) ” 、 “ 顛覆 ” 、 “ 改寫(xiě)歷史 ” 的標(biāo)簽。
可惜,僅僅是晚了一天,現(xiàn)在大家對(duì) Project Astra 的形容只有一個(gè)標(biāo)簽:?“?跟 GPT-4o 好像?”?。
真心建議谷歌抓一下內(nèi)鬼。
除了多模態(tài)實(shí)時(shí)交互的 AI 外,谷歌還一次性放出了各種單獨(dú)的多模態(tài) AI ,有文生圖的 Imagen 3 ,文生視頻的 Veo ,文生音樂(lè)的 Lyria 。
而這些,世超覺(jué)得,就是擺明了對(duì)標(biāo)市面上的那些 Sora 、 Suno 之眾。
像是文生視頻的 Veo ,從 1080p 的畫(huà)面效果,還有 60 秒的時(shí)長(zhǎng),都要和 OpenAI 的 Sora 看齊。
不過(guò)谷歌沒(méi)學(xué) Sora 用 DiT ( Diffusion Transformer )架構(gòu),而是自己揉了好幾個(gè)老模型,像是 GQN 、 DVD-GAN 、 Imagen-Video 、 Phenaki 、 WALT 等等。
從最后生成視頻的效果來(lái)看,和 Sora 也確實(shí)有的一拼。
谷歌自個(gè)兒也說(shuō)了, Veo 能駕馭各種風(fēng)格,航拍、延時(shí)攝影等等鏡頭語(yǔ)言都能秒懂。。。
有意思的是,谷歌在每個(gè)視頻下面都特意標(biāo)了一行小字:所有視頻均由 Veo 生成,未經(jīng)修改。
在點(diǎn)誰(shuí)應(yīng)該就不用世超多說(shuō)了吧。。。
而除了上面這些,谷歌還推出了對(duì)標(biāo) GPT-4 Turbo 等輕量性能大模型的 Gemini 1.5 flash 、對(duì)標(biāo) llama 3 等開(kāi)源大模型的 Gemma 2 ,還有 Google 自家的新 TPU 等等。。。世超在這兒就不一一介紹了。
反正看起來(lái),谷歌似乎不愿放棄AI 領(lǐng)域里的每個(gè)賽道,想把自己打造成一個(gè) AI 界的六邊形全能戰(zhàn)士。
而更可怕的是,在各個(gè)領(lǐng)域里, Google 相比友商雖然都不一定是最好的,但也并不落后多少。
同時(shí),谷歌的上限和野心,肯定不限于此。因?yàn)楣雀柽€拿出來(lái)些不少其他大廠(chǎng)單打獨(dú)斗,絕對(duì)拿不出來(lái)的東西。而世超覺(jué)得,正是這些東西,有機(jī)會(huì)能讓谷歌從AI 領(lǐng)域的追趕者,躋身為領(lǐng)跑者。
因?yàn)楣雀?,擁有其他AI 巨頭所沒(méi)有的成熟系統(tǒng)與應(yīng)用生態(tài)。
這次 I/O 大會(huì)上,谷歌就展示了好幾個(gè)這樣的例子。
比如他們先展示了一波 Gemini 和 Google 相冊(cè)的結(jié)合。記不清自個(gè)兒車(chē)的車(chē)牌號(hào),在 Google 相冊(cè)里搜索 “ 查找車(chē)牌號(hào) ” , Gemini 能直接從圖庫(kù)里準(zhǔn)確找到車(chē)的照片,并把車(chē)牌號(hào)告訴你。
還有在谷歌 Gmail 郵箱里,你也能讓 AI 幫你查航班信息,在谷歌地圖里,能讓 AI 幫忙獲取酒店附近的餐廳和旅游景點(diǎn),再給計(jì)劃相應(yīng)的日程。
這還沒(méi)完,谷歌的老本行搜索這次也上 AI 了,而且一上來(lái)就搞了波大的,支持語(yǔ)音、圖片,還有視頻搜索。
比如說(shuō)唱片機(jī)壞了想查查原因,直接鏡頭對(duì)準(zhǔn)故障位置問(wèn)就行了, AI 會(huì)立馬反應(yīng)給出答案。
還有壓箱底的膠片機(jī)不怎么會(huì)使,同樣拍給它看就行了,不需要自己再絞盡腦汁去形容。
只不過(guò),這次谷歌又在演示上翻車(chē)了。。。有媒體扒出,膠片機(jī)的那個(gè)回答完全就是在胡扯,回答中的一個(gè)建議是?“?把膠卷取出來(lái)看看?”?,而這樣只會(huì)讓整卷膠卷直接報(bào)廢。。。
不過(guò),這至少說(shuō)明他們玩兒的就是個(gè) real ,畢竟大模型亂講話(huà)這事兒一直存在,而出錯(cuò),比造假還是強(qiáng)一些的。
總之,按照谷歌的說(shuō)法, Gemini 大模型正在全面整合谷歌的那一大家產(chǎn)品中,包括在未來(lái),他們將把AI 直構(gòu)建到 Android 操作系統(tǒng)的底層之中,準(zhǔn)備改寫(xiě)用戶(hù)和手機(jī)之間的交互方式。
他們也舉了一些例子,像是用手機(jī)看球時(shí),不知道運(yùn)動(dòng)員犯沒(méi)犯規(guī),圈起來(lái)就能問(wèn),還有做題時(shí)圈一圈就能搜題。
而且顯示答案的時(shí)候,它也不會(huì)跳轉(zhuǎn)到別的 AI 軟件里面去,屬于是把 AI 融到系統(tǒng)最最最底層了。
甚至在打電話(huà)的時(shí)候, AI 還能實(shí)時(shí)反詐,能從對(duì)話(huà)中直接判斷對(duì)方是不是騙子,要是有可疑的字眼,立馬會(huì)彈窗提示。
其實(shí)看到這的時(shí)候,世超已經(jīng)感受到了谷歌做 AI 的優(yōu)勢(shì),未來(lái) AI 肯定要朝著底層生態(tài)去發(fā)展。
而作為一家大企業(yè),谷歌手里的資源是相當(dāng)多,而且還有安卓這個(gè)大陣營(yíng),它能輕易把 AI 打入安卓?jī)?nèi)部,但 OpenAI 要和 iOS 深度結(jié)合,估計(jì)沒(méi)這么隨心所欲了。
總之這次谷歌的 I/O 大會(huì)啥產(chǎn)品都有,但要說(shuō)出類(lèi)拔萃,還談不上。不過(guò),在AI 應(yīng)用集成這一個(gè)最直面消費(fèi)者的維度上看,谷歌還真是目前 AI 領(lǐng)域的集大成者之一。
這一波,去年還被稱(chēng)作是 AI 圈 “ 仲永 ” 的谷歌,算是漸入佳境了。
不過(guò)世超看完谷歌的 I/O 大會(huì),倒覺(jué)得他們這次不僅僅要?“?狙擊?” OpenAI ,更要把蘋(píng)果生態(tài)也一起狙了。。。
所以下一回合,到蘋(píng)果你了。
圖片、資料來(lái)源:
谷歌,知危
本文由人人都是產(chǎn)品經(jīng)理作者【差評(píng)】,微信公眾號(hào):【差評(píng)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!