谷歌深夜放復仇殺器Gemini,最強原生多模態(tài)史詩級碾壓GPT-4!語言理解首超人類
谷歌旗下的大模型Gemini終于在今天深夜上線了,那么綜合來看,Gemini的表現(xiàn)如何?它是否可以超過GPT-4呢?這篇文章里,作者就針對大模型Gemini做了解讀,一起來看。
谷歌的復仇大殺器Gemini,深夜忽然上線!
被ChatGPT壓著打了整整一年,谷歌選擇在12月的這一天,展開最強反擊戰(zhàn)。
多模態(tài)Gemini,迄今規(guī)模最大、能力最強的谷歌大模型,在文本、視頻、語音等多個領域超越了GPT-4,是真正的一雪前恥。
人類有五種感官,我們所建造的世界、所消費的媒體,都是以這樣的方式所呈現(xiàn)。
而Gemini的出現(xiàn),就是邁向真正通用的AI模型的第一步!
Gemini的誕生,代表著AI模型的巨大飛躍,谷歌所有的產品,都將隨之改頭換面。
塞進多模態(tài)模型的搜索引擎、廣告產品、Chrome瀏覽器……這,就是谷歌給我們的未來。
一、多模態(tài)的史詩級創(chuàng)新
以前,多模態(tài)大模型就是將純文本、純視覺和純音頻模型拼接在一起,就像OpenAI的GPT-4、DALL·E和Whisper那樣。然而,這并不是最優(yōu)解。
相比之下,在設計之初,多模態(tài)就是Gemini計劃的一部分。
從一開始,Gemini就在不同模態(tài)上進行了訓練。隨后,研究人員又用額外的多模態(tài)數(shù)據(jù)進行了微調,進一步提升了模型的有效性。最終,實現(xiàn)了「無縫」地理解和推理各種模態(tài)的輸入內容。
從結果上來看,Gemini的性能要遠遠優(yōu)于現(xiàn)有的多模態(tài)模型,而且它的功能幾乎在每個領域都是SOTA級別的。
而這個最大、最有能力的模型,也意味著Gemini可以用和人類一樣的方式理解我們周圍的世界,并且吸收任何類型的輸入和輸出——無論是文字,還是代碼、音頻、圖像、視頻。
Gemini猜對了紙團在最左邊的杯子里
Google DeepMind首席執(zhí)行官兼聯(lián)合創(chuàng)始人Demis Hassabis表示,谷歌一直對非常通用的系統(tǒng)感興趣。
而這里最關鍵的,就是如何混合所有這些模式,如何從任意數(shù)量的輸入和感官中收集盡可能多的數(shù)據(jù),然后給出同樣多樣化的響應。
DeepMind和谷歌大腦合并后,果然拿出了真東西。
之所以命名為Gemini,就是因為谷歌兩大AI實驗室的合體,另外也一個解釋是參考了美國宇航局的Gemini項目,后者為阿波羅登月計劃鋪平了道路。
二、首次超越人類,大幅碾壓GPT-4
雖然沒有正式公布,但根據(jù)內部消息,Gemini有萬億參數(shù),訓練所用的算力甚至達到GPT-4的五倍。
既然是被拿來硬剛GPT-4的模型,Gemini當然少不了經歷最嚴格的測試。
谷歌在多種任務上評估了兩種模型的性能,驚喜地發(fā)現(xiàn):從自然圖像、音頻、視頻理解到數(shù)學推理,Gemini Ultra在32個常用的學術基準的30個上,已經超越GPT-4!
而在MMLU(大規(guī)模多任務語言理解)測試中,Gemini Ultra以90.0%的高分,首次超過了人類專家。
Gemini是第一個在MMLU(大規(guī)模多任務語言理解)上超越人類專家的模型
MMLU測試包括57個學科,如數(shù)學、物理、歷史、法律、醫(yī)學和倫理,旨在考察世界知識和解決問題的能力。
在這50多個不同學科領域中的每一個中,Gemini都和這些領域最好的專家一樣好。
谷歌為MMLU設定的新基準,讓Gemini在回答復雜問題前,能夠更仔細地發(fā)揮推理能力,相比于僅依賴于直覺反應,這種方法帶來了顯著提升。
在新的MMMU基準測試中,Gemini Ultra也取得了59.4%的高分,這一測試包括了跨越不同領域的多模態(tài)任務,這些任務需要深入的推理過程。
圖像基準測試中,Gemini Ultra的表現(xiàn)也超過了之前的領先模型,而且,這一成就是在沒有OCR系統(tǒng)幫助的情況下實現(xiàn)的!
種種測試表明,Gemini在多模態(tài)處理上表現(xiàn)出了強大的能力,并且在更復雜的推理上也有著極大潛力。
詳情可參閱Gemini技術報告:
報告地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
1. 中杯、大杯、超大杯!
Gemini Ultra是谷歌迄今為止創(chuàng)建的最強大LLM最大,能夠完成高度復雜的任務,主要面向數(shù)據(jù)中心和企業(yè)級應用。
Gemini Pro是性能最好的模型,用于廣泛的任務。它會為許多谷歌的AI服務提供動力,并且從今天起,成為Bard的支柱。
Gemini Nano是最高效的模型,用于設備端任務,可以在安卓設備上本地和離線運行,Pixel 8 Pro的用戶就能馬上體驗到。其中,Nano-1的參數(shù)為1.8B,Nano-2為3.25B。
Gemini最基本的模型能做到文本輸入和文本輸出,但像Gemini Ultra這樣更強大的模型,則可以同時處理圖像、視頻和音頻。
不僅如此,Gemini甚至還能學會做動作和觸摸這種更像機器人的功能!
以后,Gemini會獲得更多的感官,變得更加有意識,更加準確。
雖然幻覺問題仍然不可避免,但模型知道的越多,性能就會越好。
2. 文本、圖像、音頻精準理解
Gemini 1.0經過訓練,可以同時識別和理解文本、圖像、音頻等各種形式的輸入內容,因此它也能更好地理解細微的信息,回答與復雜主題相關的各類問題。
比如,用戶先是上傳了一段非英語的音頻,然后又錄了一段英語的音頻來提問。
要知道,一般設計音頻的歸納,都是用文字輸入prompt。而Gemini卻可以同時處理兩段不同語言的音頻,精準輸出所需要的摘要內容。
更厲害的是,如果我想做一個煎蛋,不僅可以用語音問Gemini,還可以把手頭有的食材拍個照片一并發(fā)過去。
然后,Gemini就會結合音頻中發(fā)送的需求,以及配圖中的食材,手把手教你該怎么做好一個煎蛋。
甚至,每完成一步,都可以拍個照片,而Gemini則可以根據(jù)實際進度繼續(xù)指導下一步該做什么。
手癌星人、不會做飯星人都有救了!
而且,這項能力還這使Gemini特別擅長解釋數(shù)學和物理等復雜學科的推理問題。
比如,家長想在輔導孩子作業(yè)的時候省點事,該怎么辦呢?
答案很簡單,直接拍張圖上去,Gemini的推理能力足以解決數(shù)學、物理等各類理科問題。
針對其中任何一個步驟,都可以追問Gemini來獲得更具體的解釋。
甚至,還可以就出錯的點,直接讓Gemini輸出一個和出錯類型相似的題目鞏固一下。
3. 復雜推理輕松搞定
此外,Gemini 1.0具有的多模態(tài)推理能力,可以更好地理解復雜的書面和視覺信息。這使得它在發(fā)掘埋藏在海量的數(shù)據(jù)中難以辨別的知識方面具有優(yōu)越的性能。
通過閱讀、過濾和理解信息,Gemini 1.0還能夠從成千上萬的文檔中提取出獨到的觀點,從而助力從科學到金融等眾多領域實現(xiàn)新的突破。
4. AlphaCode 2:編碼能力超85%人類選手
當然,基準測試終究只是測試,對Gemini的真正考驗,是想要用它來寫代碼的用戶。
寫代碼,就是谷歌為Gemini打造的殺手級功能。
Gemini 1.0模型不僅可以理解、解釋和生成世界上最主流的編程語言,比如Python、Java、C++和Go的高質量代碼。同時它能夠跨語言工作,并對復雜信息進行推理。
從這一點看,Gemini毫無疑問會成為世界領先的編程基礎模型之一。
兩年前,谷歌推出過一款叫做AlphaCode的產品,它也是第一個在編程競賽中達到具有競爭力水平的AI代碼生成系統(tǒng)。
而基于定制版的Gemini,谷歌推出了更先進的代碼生成系統(tǒng)——AlphaCode 2。
在面對不僅涉及編程,還涉及復雜的數(shù)學和計算機科學理論等領域的問題時,AlphaCode 2都表現(xiàn)出了卓越的性能。
在與初代AlphaCode同樣的測試平臺上,谷歌的開發(fā)人員也對AlphaCode 2進行了測試。
結果顯示,新模型展現(xiàn)出了顯著的進步,解決的問題數(shù)幾乎是之前AlphaCode的兩倍。
其中,AlphaCode 2編程的性能超過了85%的人類程序員,相比之下,AlphaCode只超過了約50%的程序員。
不僅如此,當人類程序員與AlphaCode 2協(xié)作時,人類程序員為代碼樣例設定特定的要求,Alphacode 2的性能會進一步提升。
AlphaCode 2的運作依托于強大的LLM,并結合了專為競賽編程設計的先進搜索和重排機制。
如下圖所示,新的模型主要由以下幾部分組成:
– 多個策略模型,用于為每個問題生成各自的代碼樣本;
– 采樣機制,能夠生成多樣化的代碼樣本,以在可能的程序解決方案中進行搜索;
– 過濾機制,移除那些不符合問題描述的代碼樣本;
– 聚類算法,將語義上相似的代碼樣本進行分組,以減少重復;
– 評分模型,用于從10個代碼樣本集群中篩選出最優(yōu)解。
詳情可參閱Alpha Code 2技術報告:
報告地址:https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf
三、更可靠、更高效、可擴展
對谷歌來說同樣重要的是,Gemini顯然是一個效率更高、更可靠、可擴展的模型。
它是在谷歌自己的張量處理單元上訓練的,比谷歌以前的模型(如PaLM)運行起來更快、更便宜。
開發(fā)人員使用了谷歌內部研發(fā)的張量處理單元TPU v4和v5e,在AI優(yōu)化的基礎設施上對Gemini 1.0進行了大規(guī)模的訓練。
而可靠、可擴展的訓練模型和最高效的服務模型,就是谷歌做出Gemini的重要目標。
在TPU上,Gemini的運行速度明顯快于早期規(guī)模較小、能力較弱的模型。這些定制設計的AI加速器是谷歌大模型產品的核心。
要知道,這些產品為搜索、YouTube、Gmail、谷歌地圖、Google Play和Android等數(shù)十億用戶提供服務。它們還幫助了世界各地的科技公司經濟、高效地訓練大模型。
除了Gemini,谷歌在今天還發(fā)布了迄今為止最強大、最高效,并且可擴展的TPU系統(tǒng)——Cloud TPU v5p,專為訓練尖端的AI模型而設計。
新一代TPU將加速Gemini的發(fā)展,幫助開發(fā)人員和企業(yè)客戶更快地訓練大規(guī)模生成式AI模型,開發(fā)出新產品和新功能。
四、Gemini,讓谷歌再次偉大?
顯然,在Pichai和Hassabis看來,Gemini的發(fā)布僅僅是一個開始——一個更大的項目即將開啟。
Gemini是谷歌一直在等待的模式,在OpenAI和ChatGPT接管世界后,Gemini是谷歌探索一年得出的結論。
發(fā)布「紅色警報」后,谷歌一直在追趕,但兩人都表示,不愿意為了跟上步伐而走得太快,尤其是我們越來越接近AGI。
Gemini是否會改變世界?最好的情況是,它能幫谷歌在生成式AI競賽中趕上OpenAI。
但劈柴、Hassabis等人似乎都認為,這是谷歌真正偉大的開始。
今天發(fā)布的技術報告,沒有透露架構細節(jié)、模型參數(shù)或訓練數(shù)據(jù)集。
艾倫人工智能研究所前CEO Oren Etzioni說,「沒有理由懷疑Gemini在這些基準上比GPT-4更好,但沒準GPT-5會比Gemini做得更好?!?/p>
打造像Gemini這樣的巨量模型,可能需要花費數(shù)億美元,但對于在通過云提供AI占據(jù)主導地位的公司來說,最終的回報可能是數(shù)十億甚至數(shù)萬億美元。
「這是一場不能失敗,必須打贏的戰(zhàn)爭?!?/p>
參考資料:
https://blog.google/technology/ai/google-gemini-ai/#availability
https://deepmind.google/technologies/gemini/#hands-on
為我投票
我在參加人人都是產品經理2023年度評選,希望喜歡我的文章的朋友都能來支持我一下~
點擊下方鏈接進入我的個人參選頁面,點擊紅心即可為我投票。
每人每天最多可投30票,投票即可獲得抽獎機會,抽取書籍、人人都是產品經理紀念周邊&起點課堂會員等好禮哦!
投票傳送門:https://996.pm/z4Knm
編輯:編輯部
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯(lián)網+”邁向“智能+”。
本文由人人都是產品經理合作媒體 @新智元 授權發(fā)布,未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
阻礙技術進步的是那堵墻!