国产六区,a久久99精品久久久久久蜜芽

Google 發(fā)布「AI 全家桶」反擊 GPT-4o ！搜索引擎罕見大更新， 121 句「AI 」道盡焦慮

2024-05-19

0 評論 519 瀏覽 1 收藏

本文聚焦于Google I/O大會發(fā)布的AI全家桶，涵蓋搜索引擎的革新與多模態(tài)AI項目的進展，深入探討了AI技術的最新應用，引導讀者洞悉AI領域的未來趨勢，希望對你有所幫助。

緊跟步伐絕不落后昨晚 OpenAI 發(fā)布了 ChatGPT-4o 后，壓力就給到了 Google I/O ，仿佛 Google 無論如何也擺脫不了「AI 界的汪峰」這一稱號。而 Google 則通過近 2 個小時的發(fā)布會，提了 121 次 AI ，推出了十余種新品及升級，可謂「量大管飽」，火力全面覆蓋，但給人的驚喜卻并不多。

我們先給大家一次性總結這場發(fā)布會的亮點，更多功能解析請接著往下看。?發(fā)布會要點：Google Search AI：發(fā)布了 AI Overviews，加強版 AI 搜索概要功能，多步推理能力上架。Gemini 大模型：Gemini 1.5 Flash（100 萬上下文）；Gemini Pro（200 萬上下文）。Gemma 大模型：發(fā)布開源多模態(tài)大模型 Pali Gemma 和 Gemma2。AI in Google Workspace：用 Gemini 的能力和 Side Panel 的形式，將 Google 系列產品串在一起。

Gemini App：手機版的 Gemini 應用程序，即將支持和 AI 視頻對話，近幾周發(fā)布。Project Astra：最新的多模態(tài) AI 項目，包含 Imagen3、 Music AI Sandbox 和 Veo 等針對圖像、音樂、視頻的生成式 AI。做搜索起家，用搜索王炸Google Search 是 Google 最大的投資和創(chuàng)新領域之一，更是它們的創(chuàng)始產品。

25 年前，Google 開啟了搜索功能，今晚 Google 再次拓展了搜索的邊界。簡單來說，有了 AIGC 的 Google Search，可以做到更多事情：無論你在想什么，無論你需要完成什么，只要問問（它），Google Search 就能找到。而 Google Search 的一切進化，都是建立在專為其定制的 Gemini 模型上。Google 在發(fā)布會上介紹，「與眾不同」的 Google Search，主要有三個獨特的優(yōu)勢：Google 的實時信息包括超過一萬億個關于人、地點和事物的事實名列前茅的產品，和最好的網絡服務之一Gemini 的力量

把將這三件事結合在一起，就解鎖了 Google 在搜索領域的全新能力。第一個新功能是 AI Review，用戶可以通過在搜索結果的頂部，獲取由 AI 大模型生成的摘要，以此簡化整個搜索過程，讓復雜問題的檢索過程，變得簡單。

Google 稱，到今年年底，將有超過十億人使用 Google Search 中的 AI Review 功能，而且 Google 宣稱，這也將會是其搜索引擎 25 年以來最大的更新之一。Multi-step reasoning 是 Google Search 中的另一個重磅功能。

通過全新的多步推理，以后我們做一些生活、工作和出行的計劃，會變得非常簡單。比如你可以通過搜索欄來找到「附近最好的瑜伽館」，隨后附近所有關于瑜伽館的評價評分、課程推薦、距離等重要信息，都會被分類成塊，十分清楚地在搜索結果中顯示。

依靠 Google 自有的龐大數(shù)據庫，AI 在搜索過程當中可以調用最新、最全的高質量信息，所以搜索結果的準確性和可信性也就有了更多的保障。目前，Google 在全球包含了超過 2.5 億個地點，并實時更新，當中還包括評分、評論、營業(yè)時間等重要信息。Planning in Search 是另一個幫你減少負擔的更新。

比如你現(xiàn)在正在重新調整膳食結構、從頭安排飲食計劃，不想在早餐、午餐和晚餐時吃通心粉和奶酪。直接把需求拋給搜索框，Google Search 就能還給你一份按照要求，且合理安排的全新一周食譜。

而且，你還可以隨時改變條件和細節(jié)，搜索的結果也會根據最新的提示實時更新。如果說上述的功能，我們已經在其他公司的產品中見過，甚至用過，那 Ask with Video ，一定會給你一些驚喜。生活當中有很多物件，都有著各自的專屬名稱，有些器械出現(xiàn)一些小問題時，也都有著對應的修理方式。但很多時候只有專業(yè)人士才能叫得出，也只有他們能「對癥下藥」?，F(xiàn)在通過 Google Search 的 Ask with Video，每個人都能成為專家，它相當于一本裝在手機里的百科全書。

唱片的零部件不起作用了不知道從何下手，相機的快門突然失靈……以前可能要大費周折地寄回廠家售后。但現(xiàn)在用 Google 設備的鏡頭拍下問題所在，Google Search 就能根據你所遇到的問題初步診斷，一些小故障還能當場給出解決方案。在發(fā)布會的實時演示里，AI 還把整個的修理步驟一一列出，按照屏幕上的指示，演示者很快就能解決小麻煩。

這個功能，是通過 AI 逐幀分解視頻，把每一幀的關鍵信息導入 Gemini 的長觸點窗口挨個分析，并梳理網絡中相關的文章、論壇、視頻等，從中找到見解，以此實現(xiàn)了 Ask with Video 的智能建議。比起傳統(tǒng)的文字輸入，視頻最大的好處在于，我們和 AI 的交互過程變得更加直觀，用「這里」「這個」等模糊的詞語，也能使大模型知道我們指代到底是什么。

Google 稱，這些最新的 AI 功能，將會在未來幾周內在實驗室功能推出，這也意味著更強大的 Google Search 離落地已經不遠了。后續(xù)版本中，它甚至還將能基于頁面中視頻的自動字幕來尋找答案，不知道會不會搶了那些「1 分鐘看完 XX 電影」博主的飯碗。圖 · 歌 · 片，瞄著 OpenAI 打?如果說前兩天的 GPT-4o 是 AI 再一次給世界帶來了一點震撼，那今晚 Google 官宣的 Project Astra 則是震撼的延續(xù)。Project Astra 是 GoogleMind 的原型——一個通用人工智能助手。

和 GPT-4o 的使用效果類似，用戶可以通過它和 AI 實時對話，以及視頻聊天。發(fā)布會的演示可以很好地表現(xiàn)這個新功能，工作人員在演示視頻中將手機鏡頭對準身邊的物品，并向 Project Astra 提出一些疑問，它幾乎能做到零延時地準確回答。例如 Project Astra 能說出音響上半部分的是高音喇叭，對電腦屏幕上顯示的代碼也能輕松識別其具體作用。

Google 稱：我們的新項目專注于構建一個未來的人工智能助手，它可以在日常生活中真正提供幫助?；诟鼜姶蟮?AI 性能，Google 在 I/O 上還宣布了另外三個實用功能，它們分別在「圖像」「音樂」「視頻」領域，體現(xiàn)著先進技術的「未來感」。Imagen 3 是 Google 發(fā)布的最新的圖像生成模型。

它可以更加理解我們的提示詞，并以此創(chuàng)建更加逼真的圖像。發(fā)布會上展示的「狼」的生成圖片，就是 Imagen 3 在一段敘述中，準確提取了 8 個細節(jié)信息，并且在圖片中都有體現(xiàn)。

不難發(fā)現(xiàn)，生成圖片不僅細節(jié)準確，而且十分逼真。Imagen 3 還能應對一些更加抽象的圖片創(chuàng)作，例如根據「彩虹色」「羽毛組成的 light」「黑色背景」的提示，生成的創(chuàng)意圖片。

就像是它很清楚你想要什么。發(fā)言人甚至在發(fā)布會上開玩笑式地炫耀「你可以用它來數(shù)別人臉上的胡須」。在音樂生成方面，Google 也有了新的突破。Music AI Sandbox 是最新推出的音樂生成模型，Google 這次在 I/O 現(xiàn)場還請來了 Marc Rebillet 坐鎮(zhèn)分享。

根據藝人創(chuàng)作的一小段音樂 demo，Music AI Sandbox 能在此基礎上拓展延長，還可以進一步按照用戶輸入的提示詞，如音樂風格和種類等，進行樂曲的二度創(chuàng)作。Google 稱，它們和 YouTube 一起構建了 Music AI Sandbox：這是一套專業(yè)的 AI 音樂工具，可以從頭開始創(chuàng)建新的樂器部分，在軌道之間轉換風格等，以幫助我們設計和測試它們。另一個實用模型名為 Veo，專注于生成視頻。

用戶只需輸入相關的文本、圖像或視頻提示，Veo 就能創(chuàng)建高質量的 1080p 規(guī)格的視頻，時長也達到了 60 秒之久。它能以不同的視覺和電影風格捕捉指令中的詳細信息。

例如，我們可以在提示中輸入事物、橫向或延時的航拍照片，并使用其他提示進一步編輯視頻。一直以來，視頻生成 AI 「只在理論上成立」其實有諸多阻礙，其中走向「能用」的最大門檻是：視頻生成時間只有短短幾秒，一般只能在一兩個動作里反復橫跳。

所以 Sora 發(fā)布之初才會引起非常大的討論，而今晚開始，Google 的 Veo 也成了大家重點關注的對象，從照片寫實主義到超現(xiàn)實主義和動畫，大部分的影視風格，它都能處理。除了 Project Astra 以外，Google 還為我們提供了一個可私人定制的 Gemini ——Gems。Google 表示，它能在保留指定特征的情況下完成任務，成為千人千面的私人助手，用戶可以通過調整定位，使其成為瑜伽好友、虛擬的流行人物、健身伙伴、創(chuàng)意寫作指導甚至是微積分導師等，都不在話下。

Gemini 狂卷長文本，Gemini 家族再添新成員Gemini 項目自曝光以來，一直備受關注。起初也曾存在一定爭議，但后來也憑借自身實力挽回了口碑，而今也越來越成熟。據皮查伊介紹，目前有超過 150 萬開發(fā)人員使用 Gemini 模型，用戶數(shù)量已經達到 20 億，如今皮查伊再提「Gemini 時代」，目標是將其集成到所有產品中，為用戶帶來全新體驗，也為創(chuàng)造者、開發(fā)者、創(chuàng)業(yè)公司創(chuàng)造新的機會。

目前最新的 Gemini 1.5 Pro 支持 100 萬 token 文本量，今年晚些時候據稱這個數(shù)字將會達到 200 萬，能夠同時處理 2 小時的視頻、22 小時的音頻、超過 60,000 行代碼或超過 140 萬個單詞。此外，大會還宣布了基于 Gemini 1.5 Pro 的 Gemini Advanced，據稱它可以處理「多個大型文檔，總計最多 1500 頁，或匯總 100 封電子郵件」，還支持 35 種語言和 150 多個國家 / 地區(qū)。

不得不說，在文本量方面，Gemini 確實很卷，「朝著將任何輸入轉為任何輸出的目標邁出了一大步」。

安全永遠是重中之重自 AI 誕生之初以來，關于如何辨別 AI 生成內容的爭論就一直沒有停止。Google 的對策是通過 SynthID，為 AI 生成的圖像和音頻添加不可見的水印，使其更易于區(qū)分，未來 Google 將會把這一范圍推廣到文本及視頻中，并在接下來的幾個月里，通過更新生成式 AI 工具包開源 SynthID 文本水印，幫助更多開發(fā)人員更輕松地負責任地構建 AI。

Gemini 融入其中后，Android 會在通話過程中，檢測到可疑活動時發(fā)出警告，例如被要求提供您的社會安全號碼和銀行信息，屬于是直接把「反詐中心」裝手機上了。還有無障礙功能 TalkBack 也將通過 Gemini Nano 增強，圖像描述將更加清晰和豐富，幫助視力不佳的用戶通過語音反饋更好地操作手機，體現(xiàn)出 Google 一貫的人文關懷。

而對于 Google 今晚的表現(xiàn)，英偉達 NVIDIA 研究經理 Jim Fan 的評價，十分中肯。Google 新發(fā)布的模型似乎是多模態(tài)輸入，但不是多模態(tài)輸出的 Imagen3 和 Music AI Sandbox 仍然作為獨立組件與 Gemini分離。將所有模態(tài) I/O 原生合并是不可避免的未來。它可以執(zhí)行任務，如「使用更機器人化的聲音」「編輯這幅圖像」「生成一致的漫畫條帶」。而且還不會在模態(tài)邊界上丟失信息，例如情感和背景聲音，全新模型打開了新的上下文能力，用戶也能通過少量示例教導模型，并以新穎的方式結合不同的意義。