Google發(fā)布最新AI成果:強力回擊GPT-4o,蘋果生態(tài)或?qū)⒈荒雺?/h2>
Google I/O 2024 大會也正式開幕了,在這場 I/O 大會上,Google 依然秀出了一些肌肉。想了解谷歌發(fā)布了哪些 AI 成果的同學(xué),可以來看一下。
全場共提到 “ AI ” 121 次,平均一分半提一次。
今天凌晨 1 點( 太平洋時間 5 月 14 日上午 10 點 ),Google I/O 2024 大會的開幕主題演講,在美國山景城正式舉行。大會演講在網(wǎng)絡(luò)上公開直播的同時,也有部分媒體和觀眾來到了大會現(xiàn)場。
知危編輯部的前線同事,也到達了美國山景城參加了本次大會,全程觀看了本次開幕主題演講。
這位同事曾在 Google前幾年的鼎盛時期參加過一次I/O 大會,用他的話來講,那時候的 Google I/O 可以用四個字形容:萬國來朝。
而如今,Google的光環(huán)全都被 OpenAI 搶了去,本屆I/O大會雖然依舊有很多人參加,但相較早年難免顯得有些 “ 人丁不旺”。( 以前還賣票的,這次沒賣 )
不過,在這場I/O 大會上,Google 依然秀出了一些肌肉,對昨天的 GPT-4o 做出了強力回擊。
谷歌 CEO 劈柴哥在演講的一開始就坦然直言:目前正是整個行業(yè)正處于 AI 發(fā)展的早期,谷歌有信心和實力打這場持久戰(zhàn)。
話里話外,一副 “ 你 OpenAI 別高興得太早 ” 的味道。
縱觀整場演講,知危編輯部認為,如果去年谷歌的 I/O ,我們看到的是谷歌在 AI 領(lǐng)域的孤注一擲,那么今年,我們則發(fā)現(xiàn)谷歌這么一只巨無霸,正在 AI 的賽場上全方位一路狂奔,逐漸找回自己的狀態(tài)。
本次主題演講的內(nèi)容,主打的是一個大而全,內(nèi)容包含但不限于新基礎(chǔ)模型、AI Agent、文生圖模型、文生視頻模型、TPU芯片、AI app、Android 與 AI 、新開源大模型等等等等。
知危編輯部也準(zhǔn)備挑選其中幾個比較亮眼產(chǎn)品,進行詳細的介紹。
首先,知危編輯部覺得 OpenAI 昨日的春季發(fā)布會,有意狙擊谷歌的的可能性非常之高。
因為谷歌本次重點推出的多模態(tài) AI 助手 Project Astra( 基于 Gemini ),功能與昨日橫掃科技圈媒體頭版的基于 GPT-4o 的 AI 助手極其類似。
同樣擁有低延時的絲滑語音對話體驗,同樣也能用攝像頭,讓 AI 處理視覺信息。
在谷歌的演示視頻中,Project Astra 能迅速認出音響的發(fā)聲部位、彩筆,還能對屏幕上的代碼進行一定程度上的解釋。
它甚至還能根據(jù)箭頭,提出在服務(wù)器和數(shù)據(jù)庫之間添加緩存,能提高速度的建議,還能看懂畫板上 “ 薛定諤的貓 ” 的梗圖。
若不是昨日 GPT-4o 已經(jīng)搶先亮相了一波,Project Astra 一定會被各路媒體打上“ 炸裂”、“ 史詩”、“ 顛覆 ”、“ 改寫歷史 ”等標(biāo)簽。
可惜,僅僅是晚了一天,現(xiàn)在大家對 Project Astra 的形容只有一個標(biāo)簽:“ 跟 GPT-4o 好像”。
不過,如果仔細觀察演示視頻,你會發(fā)現(xiàn)Project Astra 的視頻對話交互功能展現(xiàn)了一個 GPT-4o 并沒有展示的功能:視頻對話的過程是帶有記憶的,即便是一個你可能從未向它提及的點。
這樣形容起來有些抽象,看一下視頻你就能明白了。
在視頻中,Project Astra 注意到并記住了鏡頭經(jīng)過的桌子上的眼鏡,在與測試者進行多輪對話后還能指出眼鏡在桌子上,并且還指出了 “ 旁邊有一個蘋果 ”這樣的細節(jié),可以說是過目不忘,比人類強了不少。
而在文生視頻領(lǐng)域,谷歌也對 Sora 發(fā)起追趕,在本次的主題演講中,谷歌正式發(fā)布了視頻生成大模型 Veo。
根據(jù)介紹,Veo 能以各種電影和視覺風(fēng)格生成高質(zhì)量的 1080p 分辨率視頻,時長可以超過一分鐘。Veo能憑借對自然語言和視覺語義的深入理解,生成緊密代表用戶創(chuàng)意愿景的視頻。
此前我們曾介紹過,OpenAI 的 Sora 是基于 Diffusion Transformer,也就是 DIT 架構(gòu)而成的。
但根據(jù)谷歌官方的介紹,Veo 采取的卻是 GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere 等 “ 老模型 ” 所組合而成的結(jié)合架構(gòu)。
非常值得一提的是,谷歌在 Veo 的生成視頻之下,標(biāo)注了一行小字 “ All videos were generated by Veo and have not been modified. ”( 所有視頻均由 Veo生成,未經(jīng)修改)。
這個舉動,應(yīng)該是意在陰陽 OpenAI,OpenAI 的 Sora 正因被爆出演示視頻經(jīng)過了大量的人為后期修改而遭受廣泛的質(zhì)疑。
另外,對標(biāo) Midjourney 等文生圖片大模型的 Imagen 3、對標(biāo) Suno 等音樂生成大模型的 Lyria、對標(biāo) GPT-4 Turbo 等輕量性能大模型的 Gemini 1.5 flash、對標(biāo) llama 3 等開源大模型的 Gemma 2,還有 Google 自家的新 TPU 等都在谷歌的本次開幕主題演講上一一亮相。
看起來,谷歌似乎不愿放棄 AI 領(lǐng)域的任何一個賽道,想把自己打造成一個 AI 界的六邊形全能戰(zhàn)士。
而更可怕的是,在各個領(lǐng)域里,Google 相比友商雖然都不一定是最好的,但也并不落后多少。
同時,谷歌的上限和野心,肯定不限于此。本次的開幕式主題演講中,谷歌還拿出來些不少其他 AI 廠家單打獨斗絕對拿不出來的東西。知危編輯部認為,正是這些東西,有機會能讓谷歌從 AI 領(lǐng)域的追趕者,躋身為領(lǐng)跑者。
因為谷歌,擁有其他 AI 巨頭所沒有的成熟系統(tǒng)與應(yīng)用生態(tài)。
在演講中,谷歌就展示了一波 Gemini 和 Google 相冊的結(jié)合。
記不清自個兒車的車牌號,在 Google 相冊里搜索 “ 查找車牌號 ”,擁有多模態(tài)能力的 Gemini 會從你的圖片庫中,找到你車的照片,并告訴你車牌號。
在谷歌 Gmail 郵箱里,你也能通過 AI 迅速提取郵箱里航班信息,同時 Google 地圖以獲取您酒店附近的餐廳和旅游景點,再給計劃相應(yīng)的日程。谷歌的老本行搜索,也在和 AI 相結(jié)合,你可以直接用文字進行搜索,也可以給圖片畫個圈兒,讓搜索引擎自動搜索你圈出的部分。
甚至,你還可以上傳視頻對搜索引擎進行提問。比如在演示中,谷歌的員工就拍視頻問問了 Gemini,相機上的那個桿卡住了咋辦。
Gemini 馬上就給出了基于搜索引擎的答案,看上去體驗很好,可惜就是回答有些翻車,回答中的一個建議是 “ 把膠卷取出來看看 ”,而這樣只會讓整卷膠卷直接報廢。。。
不過,我們只能說貴在真實吧,大模型亂講話這事兒確實一直存在,自然展現(xiàn)比造假強一些。
總之,按照谷歌的說法,Gemini 大模型正在全面整合谷歌的那一大家產(chǎn)品中,包括在未來,他們將把 AI 直構(gòu)建到 Android 操作系統(tǒng)的底層之中,準(zhǔn)備改寫用戶和手機之間的交互方式。
他們舉了一些例子,比如在用手機看書的時候,你可以直接給書里內(nèi)容畫圈兒,問 AI 圈兒里的提名怎么解;刷視頻的時候, 也有可以直接問 AI ,視頻里這運動員的動作是不是犯規(guī);打電話的時候,AI 也能從你們的對話里,判斷出對方是不是有可能是個騙子。
這樣一來,在全面集成 Google 原生 AI 并且與原生 Google 應(yīng)用打通的 Android 陣營面前,蘋果如果不和 OpenAI 深度合作的話,我們只能說 Android 將在 AI 時代,對 iOS 進行一場降維碾壓式打擊。( 不過,6 月的 WWDC 上我們相信蘋果肯定會搬出自己的 AI 方案來抵御這場進攻)
總得來講,這次谷歌的 I/O 大會啥產(chǎn)品都有,但要說出類拔萃,還談不上。不過,在 AI 應(yīng)用集成這一個最直面消費者的維度上看,谷歌還真是目前 AI 領(lǐng)域的集大成者之一。
這一波,去年還被稱作是 AI 圈 “ 仲永” 的谷歌,算是漸入佳境了。
撰文:江江、大餅;編輯:大餅
來源公眾號:知危(ID:BusinessAlert),提供敏銳、獨到的商業(yè)信息與參考,重點關(guān)注TMT、出海、新消費、新能源。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @知危 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
Google I/O 2024 大會也正式開幕了,在這場 I/O 大會上,Google 依然秀出了一些肌肉。想了解谷歌發(fā)布了哪些 AI 成果的同學(xué),可以來看一下。
全場共提到 “ AI ” 121 次,平均一分半提一次。
今天凌晨 1 點( 太平洋時間 5 月 14 日上午 10 點 ),Google I/O 2024 大會的開幕主題演講,在美國山景城正式舉行。大會演講在網(wǎng)絡(luò)上公開直播的同時,也有部分媒體和觀眾來到了大會現(xiàn)場。
知危編輯部的前線同事,也到達了美國山景城參加了本次大會,全程觀看了本次開幕主題演講。
這位同事曾在 Google前幾年的鼎盛時期參加過一次I/O 大會,用他的話來講,那時候的 Google I/O 可以用四個字形容:萬國來朝。
而如今,Google的光環(huán)全都被 OpenAI 搶了去,本屆I/O大會雖然依舊有很多人參加,但相較早年難免顯得有些 “ 人丁不旺”。( 以前還賣票的,這次沒賣 )
不過,在這場I/O 大會上,Google 依然秀出了一些肌肉,對昨天的 GPT-4o 做出了強力回擊。
谷歌 CEO 劈柴哥在演講的一開始就坦然直言:目前正是整個行業(yè)正處于 AI 發(fā)展的早期,谷歌有信心和實力打這場持久戰(zhàn)。
話里話外,一副 “ 你 OpenAI 別高興得太早 ” 的味道。
縱觀整場演講,知危編輯部認為,如果去年谷歌的 I/O ,我們看到的是谷歌在 AI 領(lǐng)域的孤注一擲,那么今年,我們則發(fā)現(xiàn)谷歌這么一只巨無霸,正在 AI 的賽場上全方位一路狂奔,逐漸找回自己的狀態(tài)。
本次主題演講的內(nèi)容,主打的是一個大而全,內(nèi)容包含但不限于新基礎(chǔ)模型、AI Agent、文生圖模型、文生視頻模型、TPU芯片、AI app、Android 與 AI 、新開源大模型等等等等。
知危編輯部也準(zhǔn)備挑選其中幾個比較亮眼產(chǎn)品,進行詳細的介紹。
首先,知危編輯部覺得 OpenAI 昨日的春季發(fā)布會,有意狙擊谷歌的的可能性非常之高。
因為谷歌本次重點推出的多模態(tài) AI 助手 Project Astra( 基于 Gemini ),功能與昨日橫掃科技圈媒體頭版的基于 GPT-4o 的 AI 助手極其類似。
同樣擁有低延時的絲滑語音對話體驗,同樣也能用攝像頭,讓 AI 處理視覺信息。
在谷歌的演示視頻中,Project Astra 能迅速認出音響的發(fā)聲部位、彩筆,還能對屏幕上的代碼進行一定程度上的解釋。
它甚至還能根據(jù)箭頭,提出在服務(wù)器和數(shù)據(jù)庫之間添加緩存,能提高速度的建議,還能看懂畫板上 “ 薛定諤的貓 ” 的梗圖。
若不是昨日 GPT-4o 已經(jīng)搶先亮相了一波,Project Astra 一定會被各路媒體打上“ 炸裂”、“ 史詩”、“ 顛覆 ”、“ 改寫歷史 ”等標(biāo)簽。
可惜,僅僅是晚了一天,現(xiàn)在大家對 Project Astra 的形容只有一個標(biāo)簽:“ 跟 GPT-4o 好像”。
不過,如果仔細觀察演示視頻,你會發(fā)現(xiàn)Project Astra 的視頻對話交互功能展現(xiàn)了一個 GPT-4o 并沒有展示的功能:視頻對話的過程是帶有記憶的,即便是一個你可能從未向它提及的點。
這樣形容起來有些抽象,看一下視頻你就能明白了。
在視頻中,Project Astra 注意到并記住了鏡頭經(jīng)過的桌子上的眼鏡,在與測試者進行多輪對話后還能指出眼鏡在桌子上,并且還指出了 “ 旁邊有一個蘋果 ”這樣的細節(jié),可以說是過目不忘,比人類強了不少。
而在文生視頻領(lǐng)域,谷歌也對 Sora 發(fā)起追趕,在本次的主題演講中,谷歌正式發(fā)布了視頻生成大模型 Veo。
根據(jù)介紹,Veo 能以各種電影和視覺風(fēng)格生成高質(zhì)量的 1080p 分辨率視頻,時長可以超過一分鐘。Veo能憑借對自然語言和視覺語義的深入理解,生成緊密代表用戶創(chuàng)意愿景的視頻。
此前我們曾介紹過,OpenAI 的 Sora 是基于 Diffusion Transformer,也就是 DIT 架構(gòu)而成的。
但根據(jù)谷歌官方的介紹,Veo 采取的卻是 GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere 等 “ 老模型 ” 所組合而成的結(jié)合架構(gòu)。
非常值得一提的是,谷歌在 Veo 的生成視頻之下,標(biāo)注了一行小字 “ All videos were generated by Veo and have not been modified. ”( 所有視頻均由 Veo生成,未經(jīng)修改)。
這個舉動,應(yīng)該是意在陰陽 OpenAI,OpenAI 的 Sora 正因被爆出演示視頻經(jīng)過了大量的人為后期修改而遭受廣泛的質(zhì)疑。
另外,對標(biāo) Midjourney 等文生圖片大模型的 Imagen 3、對標(biāo) Suno 等音樂生成大模型的 Lyria、對標(biāo) GPT-4 Turbo 等輕量性能大模型的 Gemini 1.5 flash、對標(biāo) llama 3 等開源大模型的 Gemma 2,還有 Google 自家的新 TPU 等都在谷歌的本次開幕主題演講上一一亮相。
看起來,谷歌似乎不愿放棄 AI 領(lǐng)域的任何一個賽道,想把自己打造成一個 AI 界的六邊形全能戰(zhàn)士。
而更可怕的是,在各個領(lǐng)域里,Google 相比友商雖然都不一定是最好的,但也并不落后多少。
同時,谷歌的上限和野心,肯定不限于此。本次的開幕式主題演講中,谷歌還拿出來些不少其他 AI 廠家單打獨斗絕對拿不出來的東西。知危編輯部認為,正是這些東西,有機會能讓谷歌從 AI 領(lǐng)域的追趕者,躋身為領(lǐng)跑者。
因為谷歌,擁有其他 AI 巨頭所沒有的成熟系統(tǒng)與應(yīng)用生態(tài)。
在演講中,谷歌就展示了一波 Gemini 和 Google 相冊的結(jié)合。
記不清自個兒車的車牌號,在 Google 相冊里搜索 “ 查找車牌號 ”,擁有多模態(tài)能力的 Gemini 會從你的圖片庫中,找到你車的照片,并告訴你車牌號。
在谷歌 Gmail 郵箱里,你也能通過 AI 迅速提取郵箱里航班信息,同時 Google 地圖以獲取您酒店附近的餐廳和旅游景點,再給計劃相應(yīng)的日程。谷歌的老本行搜索,也在和 AI 相結(jié)合,你可以直接用文字進行搜索,也可以給圖片畫個圈兒,讓搜索引擎自動搜索你圈出的部分。
甚至,你還可以上傳視頻對搜索引擎進行提問。比如在演示中,谷歌的員工就拍視頻問問了 Gemini,相機上的那個桿卡住了咋辦。
Gemini 馬上就給出了基于搜索引擎的答案,看上去體驗很好,可惜就是回答有些翻車,回答中的一個建議是 “ 把膠卷取出來看看 ”,而這樣只會讓整卷膠卷直接報廢。。。
不過,我們只能說貴在真實吧,大模型亂講話這事兒確實一直存在,自然展現(xiàn)比造假強一些。
總之,按照谷歌的說法,Gemini 大模型正在全面整合谷歌的那一大家產(chǎn)品中,包括在未來,他們將把 AI 直構(gòu)建到 Android 操作系統(tǒng)的底層之中,準(zhǔn)備改寫用戶和手機之間的交互方式。
他們舉了一些例子,比如在用手機看書的時候,你可以直接給書里內(nèi)容畫圈兒,問 AI 圈兒里的提名怎么解;刷視頻的時候, 也有可以直接問 AI ,視頻里這運動員的動作是不是犯規(guī);打電話的時候,AI 也能從你們的對話里,判斷出對方是不是有可能是個騙子。
這樣一來,在全面集成 Google 原生 AI 并且與原生 Google 應(yīng)用打通的 Android 陣營面前,蘋果如果不和 OpenAI 深度合作的話,我們只能說 Android 將在 AI 時代,對 iOS 進行一場降維碾壓式打擊。( 不過,6 月的 WWDC 上我們相信蘋果肯定會搬出自己的 AI 方案來抵御這場進攻)
總得來講,這次谷歌的 I/O 大會啥產(chǎn)品都有,但要說出類拔萃,還談不上。不過,在 AI 應(yīng)用集成這一個最直面消費者的維度上看,谷歌還真是目前 AI 領(lǐng)域的集大成者之一。
這一波,去年還被稱作是 AI 圈 “ 仲永” 的谷歌,算是漸入佳境了。
撰文:江江、大餅;編輯:大餅
來源公眾號:知危(ID:BusinessAlert),提供敏銳、獨到的商業(yè)信息與參考,重點關(guān)注TMT、出海、新消費、新能源。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @知危 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!