開(kāi)源模型越來(lái)越落后?Meta甩出全新Llama 3應(yīng)戰(zhàn)

0 評(píng)論 1105 瀏覽 0 收藏 14 分鐘
🔗 产品经理的核心价值是能够准确发现和满足用户需求,把用户需求转化为产品功能,并协调资源推动落地,创造商业价值

就在當(dāng)?shù)貢r(shí)間4月18日,Meta的Llama 3正式亮相了,Meta還透露他們目前正在開(kāi)發(fā)一款超過(guò)4000億參數(shù)的Llama 3模型。我們不妨來(lái)看看本文的分享。

如同悶了很久,突然下的一場(chǎng)雨——Llama 3終于來(lái)了。

美國(guó)當(dāng)?shù)貢r(shí)間4月18日,Meta公司推出其開(kāi)源大語(yǔ)言模型“Llama”(直譯是“羊駝”)系列的最新產(chǎn)品——Llama 3。更準(zhǔn)確地說(shuō),是發(fā)布了Llama 3系列的兩個(gè)版本:包含80億參數(shù)的Llama 3 8B和包含700億參數(shù)的Llama 3 70B。

Meta表示,Llama 3在性能上實(shí)現(xiàn)了重大躍遷。并稱它為“迄今為止最強(qiáng)的開(kāi)源大模型”。就其參數(shù)量而言,Llama 3 8B和Llama 3 70B是目前市場(chǎng)上表現(xiàn)最佳的生成式AI模型之一,這兩款模型都是在兩個(gè)專門構(gòu)建的含24000個(gè)英偉達(dá)GPU的集群上訓(xùn)練的,在15萬(wàn)億個(gè)Token上預(yù)訓(xùn)練的。

除此之外,Meta透露,他們目前正在開(kāi)發(fā)一款超過(guò)4000億參數(shù)的Llama 3模型。這款模型不僅能用多種語(yǔ)言進(jìn)行對(duì)話,還能處理更多數(shù)據(jù),理解圖像及其他非文本模式,力求使Llama 3系列與Hugging Face的Idefics2等開(kāi)源模型保持同步。

消息一出便引起熱議,埃隆·馬斯克(Elon Musk)在楊立昆(Yann LeCun)的X下面評(píng)論:“還不錯(cuò)(Not bad)。”

英偉達(dá)高級(jí)研究經(jīng)理、具身智能負(fù)責(zé)人Jim Fan認(rèn)為即將推出的Llama 3-400B+模型將是社區(qū)獲得GPT-4級(jí)別模型的重要里程碑。

“這將為許多研究項(xiàng)目和初創(chuàng)企業(yè)帶來(lái)新的發(fā)展機(jī)遇。Llama-3-400B目前還在訓(xùn)練中,希望在接下來(lái)的幾個(gè)月能有所提升。這樣強(qiáng)大的模型將開(kāi)啟大量研究的可能性。期待整個(gè)生態(tài)系統(tǒng)中創(chuàng)新活力的大爆發(fā)!”Jim Fan在X寫到。

Meta在一篇博客文章中表示:“我們的近期目標(biāo)是讓Llama 3支持多語(yǔ)種和多模態(tài)輸入,拓寬處理的上下文范圍,并繼續(xù)在核心功能如推理和編程方面提升性能。未來(lái)我們還將推出更多功能。”

同時(shí),Llama 3將在亞馬遜、微軟、谷歌云等云平臺(tái)得到啟用,并得到英偉達(dá)等芯片巨頭和戴爾的硬件支持。并基于Llama 3升級(jí)了人工智能助手Meta AI,Meta將其稱為“免費(fèi)使用的最智能AI助手”。

Llama 3的主要亮點(diǎn)有:

  • 使用超過(guò)15萬(wàn)億token進(jìn)行訓(xùn)練,是Llama 2數(shù)據(jù)集規(guī)模的7倍以上;
  • 在至少9個(gè)基準(zhǔn)測(cè)試中展現(xiàn)出領(lǐng)先的性能;
  • 數(shù)學(xué)能力優(yōu)秀, Llama 3在推理、代碼生成和指令遵循等方面取得了顯著進(jìn)步;
  • Llama 3的錯(cuò)誤拒絕率大幅降低;
  • 配備了Llama Guard 2、Code Shield等新一代的安全工具。

一、超4000億參數(shù)規(guī)模,超15萬(wàn)億的訓(xùn)練token

Llama 3 在9項(xiàng)標(biāo)準(zhǔn)測(cè)試基準(zhǔn)上都有著更好的表現(xiàn),如都在70億參數(shù)級(jí)的Mistral 7B模型和Google Gemma 7B模型等。

這9個(gè)基準(zhǔn)測(cè)試包括MMLU(測(cè)試知識(shí)水平)、ARC(測(cè)試技能獲?。?、DROP(測(cè)試對(duì)文本塊的推理能力)、GPQA(涉及生物、物理和化學(xué)的問(wèn)題)、HumanEval(代碼生成測(cè)試)、GSM-8K(數(shù)學(xué)應(yīng)用問(wèn)題)、MATH(數(shù)學(xué)基準(zhǔn))、AGIEval(問(wèn)題解決測(cè)試集)和BIG-Bench Hard(常識(shí)推理評(píng)估)。

來(lái)源:Meta

Llama 3 70B在MMLU、HumanEval和GSM-8K上戰(zhàn)勝了Gemini 1.5 Pro,雖然它可能無(wú)法與Anthropic的最高性能模型Claude 3 Opus相比,但在五個(gè)基準(zhǔn)測(cè)試(MMLU、GPQA、HumanEval、GSM-8K和MATH)上表現(xiàn)優(yōu)于Claude 3系列中的Claude 3 Sonnet。

來(lái)源:Meta

值得一提的是,Meta還開(kāi)發(fā)了自己的測(cè)試集,涵蓋了從編程和創(chuàng)意寫作到推理和摘要的各種用例。Meta 表示,他們構(gòu)建了一個(gè)新的、高質(zhì)量的人類評(píng)估集,包括涵蓋 12 個(gè)關(guān)鍵場(chǎng)景的 1800 個(gè)提示詞。這些場(chǎng)景包括尋求建議、頭腦風(fēng)暴、分類、閉卷問(wèn)答、開(kāi)卷問(wèn)答、編程、創(chuàng)意寫作、信息提取、塑造角色形象、推理、改寫和總結(jié)。在這個(gè)評(píng)估集中的測(cè)試顯示,70B 版本的 Llama 3 在指令調(diào)優(yōu)后,在對(duì)比 Claude Sonnet、Mistral Medium、GPT-3.5 和 Llama 2 的比賽中,其勝率分別達(dá)到了 52.9%、59.3%、63.2%、63.7%。

來(lái)源:Meta

Meta表示,Llama 3有著更高的“可控性”,基本不會(huì)拒絕回答問(wèn)題。同時(shí)在涉及歷史和STEM領(lǐng)域(如工程和科學(xué))的題目以及一般編程建議上更高的準(zhǔn)確性。這要得益于一個(gè)包含15萬(wàn)億token的集合(約7500億個(gè)單詞),它是Llama 2訓(xùn)練集的7倍。

那么,數(shù)據(jù)來(lái)自哪里?

Meta透露,這些數(shù)據(jù)來(lái)自“公開(kāi)可獲得的資源”,并包含了比Llama 2訓(xùn)練數(shù)據(jù)集中多4倍的代碼量,且為了滿足未來(lái)多語(yǔ)言的需求,Llama 3的預(yù)訓(xùn)練數(shù)據(jù)集中包含超過(guò)5%的高質(zhì)量非英語(yǔ)數(shù)據(jù),涵蓋了30多種語(yǔ)言。Meta 預(yù)計(jì),非英語(yǔ)語(yǔ)種的性能可能與英語(yǔ)有所差異。

Meta還使用了AI合成數(shù)據(jù)創(chuàng)建用于Llama 3模型訓(xùn)練的更長(zhǎng)文檔,雖然這種方法由于潛在的性能缺陷而備受爭(zhēng)議。

“雖然我們今天發(fā)布的模型只針對(duì)英語(yǔ)輸出進(jìn)行了微調(diào),但數(shù)據(jù)的增多幫助模型更好地識(shí)別差異和模式?!盡eta在博客中寫道。

許多生成式AI供應(yīng)商將訓(xùn)練數(shù)據(jù)視為競(jìng)爭(zhēng)優(yōu)勢(shì),因此常常保密相關(guān)信息。此外,訓(xùn)練數(shù)據(jù)細(xì)節(jié)可能觸發(fā)知識(shí)產(chǎn)權(quán)相關(guān)的訴訟,這也是他們不愿透露太多的一個(gè)原因。最近的報(bào)道稱,Meta為了在AI領(lǐng)域保持競(jìng)爭(zhēng)力,一度使用受版權(quán)保護(hù)的電子書進(jìn)行訓(xùn)練。

目前Meta和OpenAI因涉嫌未經(jīng)授權(quán)使用版權(quán)數(shù)據(jù)進(jìn)行訓(xùn)練,正面臨包括喜劇演員Sarah Silverman在內(nèi)的作者提起的法律訴訟。

Meta近期計(jì)劃推出Llama 3的新功能,包括更長(zhǎng)的上下文窗口和更強(qiáng)大的性能,并將推出新的模型尺寸版本和公開(kāi)Llama 3的研究論文。

二、Llama 3 要素拆解

Meta一直強(qiáng)調(diào)創(chuàng)新、擴(kuò)展和優(yōu)化的重要性。因此在開(kāi)發(fā) Llama 3 時(shí),Meta 遵循了這一設(shè)計(jì)哲學(xué),專注于四個(gè)核心要素:

  1. 模型架構(gòu):Llama 3使用了標(biāo)準(zhǔn)的純解碼器Transformer架構(gòu),并在 Llama 2的基礎(chǔ)上進(jìn)行了改進(jìn)。它引入了一個(gè)128K token的tokenizer,大幅提升了語(yǔ)言編碼效率。Meta 在開(kāi)發(fā)中還加入了分組查詢關(guān)注(Grouped Query Attention, GQA),以提高模型在處理 8B 至 70B 大小模型的推理效率。訓(xùn)練時(shí),模型處理高達(dá) 8192 token 的序列,且設(shè)計(jì)了掩碼機(jī)制以防止注意力機(jī)制跨越文檔邊界。
  1. 數(shù)據(jù)工程:Meta構(gòu)建了一個(gè)大型且高質(zhì)量的訓(xùn)練數(shù)據(jù)集,規(guī)模是Llama 2的七倍,代碼量是四倍。Llama 3的訓(xùn)練涵蓋了超過(guò)15T的 token,包括超過(guò)5%的高質(zhì)量非英語(yǔ)數(shù)據(jù),支持30多種語(yǔ)言。Meta采用了啟發(fā)式過(guò)濾器、NSFW過(guò)濾器、語(yǔ)義重復(fù)數(shù)據(jù)刪除以及文本分類器等方法來(lái)確保數(shù)據(jù)質(zhì)量,并進(jìn)行了大量實(shí)驗(yàn)以評(píng)估混合不同來(lái)源數(shù)據(jù)的最佳方法。
  1. 擴(kuò)大預(yù)訓(xùn)練規(guī)模:Meta制定了詳細(xì)的Scaling Law來(lái)最大化預(yù)訓(xùn)練數(shù)據(jù)的利用,這有助于優(yōu)化模型性能,尤其是在如代碼生成等關(guān)鍵任務(wù)上。在實(shí)際訓(xùn)練過(guò)程中,Llama 3的性能通過(guò)在達(dá)到15T token的訓(xùn)練量后還在對(duì)數(shù)線性增長(zhǎng),表現(xiàn)出其持續(xù)的學(xué)習(xí)能力。為了訓(xùn)練大規(guī)模模型,Meta結(jié)合了數(shù)據(jù)并行化、模型并行化和管道并行化技術(shù),并在16K GPU上實(shí)現(xiàn)了高達(dá)400 TFLOPS的計(jì)算利用率。
  1. 指令微調(diào)優(yōu)化:為了優(yōu)化Llama 3的聊天和編碼等使用場(chǎng)景,Meta 創(chuàng)新了其指令微調(diào)方法,結(jié)合了監(jiān)督微調(diào)、拒絕采樣、近似策略優(yōu)化和直接策略優(yōu)化等技術(shù)。這些技術(shù)不僅提升了模型在復(fù)雜任務(wù)中的表現(xiàn),還幫助模型在面對(duì)難解的推理問(wèn)題時(shí)能生成正確的解答路徑。

在安全性方面,Meta的責(zé)任體現(xiàn)在采用了最高級(jí)別的系統(tǒng)級(jí)(system-level)方法來(lái)開(kāi)發(fā)、部署Llama模型,希望將其作為一個(gè)更大系統(tǒng)的核心部分,賦予開(kāi)發(fā)者主導(dǎo)設(shè)計(jì)的權(quán)力。此外,Meta 還對(duì)經(jīng)過(guò)指令微調(diào)的模型進(jìn)行了紅隊(duì)測(cè)試。

Llama Guard模型可提供及時(shí)的安全響應(yīng)能力,可以根據(jù)需求調(diào)整,以適應(yīng)新的安全標(biāo)準(zhǔn)。Meta還推出了CyberSecEval 2和Code Shield,分別用于增強(qiáng)對(duì)潛在安全風(fēng)險(xiǎn)的評(píng)估和提高對(duì)不安全代碼的過(guò)濾能力。

在AI技術(shù)迅速發(fā)展的今天,Meta通過(guò)不斷更新的《負(fù)責(zé)任使用指南》(RUG)和多種云服務(wù)工具,引導(dǎo)開(kāi)發(fā)者負(fù)責(zé)任地使用和部署LLM,確保內(nèi)容的安全與合規(guī)。

同時(shí),Meta披露,Llama 3即將在亞馬遜云(AWS)、Databricks、谷歌云、Hugging Face、Kaggle、IBM WatsonX、微軟云Azure、NVIDIA NIM和Snowflake等多個(gè)平臺(tái)上推出。這一過(guò)程得到了AMD、AWS、戴爾、英特爾和英偉達(dá)等公司的硬件支持。

在英偉達(dá)的加持下,Meta的工程師在一個(gè)包含24,576個(gè)英偉達(dá)H100 Tensor Core GPU的計(jì)算機(jī)集群上訓(xùn)練了Llama 3。為了推動(dòng)生成式AI技術(shù),Meta 計(jì)劃在其基礎(chǔ)設(shè)施中使用35萬(wàn)塊H100芯片。

英偉達(dá)已經(jīng)推出了支持Llama 3的各種平臺(tái),包括云服務(wù)、數(shù)據(jù)中心、邊緣計(jì)算和個(gè)人電腦。開(kāi)發(fā)者可以在英偉達(dá)的官網(wǎng)試用Llama 3,企業(yè)用戶可以通過(guò)NeMo框架利用自己的數(shù)據(jù)對(duì)Llama 3進(jìn)行優(yōu)化。

Llama 3還可在英偉達(dá)的Jetson Orin模塊上運(yùn)行,這對(duì)機(jī)器人開(kāi)發(fā)和邊緣計(jì)算設(shè)備極為重要。此外,NVIDIA RTX和 GeForce RTX GPU能夠加速Llama 3的推理過(guò)程,這使得它也適用于工作站和個(gè)人電腦。

近期,開(kāi)源和閉源之爭(zhēng)再次引發(fā)行業(yè)內(nèi)的激烈討論。開(kāi)源模型會(huì)越來(lái)越落后?Meta用Llama 3給出了回應(yīng)。

Meta的這次表態(tài),也顯得意味深長(zhǎng):“我們致力于開(kāi)放式人工智能生態(tài)系統(tǒng)的持續(xù)增長(zhǎng)和發(fā)展,以負(fù)責(zé)任的方式發(fā)布我們的模型。我們一直堅(jiān)信,開(kāi)放會(huì)帶來(lái)更好、更安全的產(chǎn)品、更快的創(chuàng)新和更健康的整體市場(chǎng)。這對(duì)Meta和社會(huì)都有好處?!?/strong>

Llama這只羊駝,仍在狂奔中睥睨對(duì)手。

作者:蘇霍伊;編輯:王博

原文標(biāo)題:開(kāi)源模型越來(lái)越落后?Meta甩出全新Llama 3應(yīng)戰(zhàn)|甲子光年

來(lái)源公眾號(hào):甲子光年(ID:jazzyear),立足中國(guó)科技創(chuàng)新前沿陣地,動(dòng)態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級(jí)案例。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @甲子光年 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
16104人已学习12篇文章
对于产品经理来说,做用户调研是一项很重要的过程。本专题的文章分享了如何做好用户调研。
专题
15269人已学习14篇文章
痛点是什么?为什么用户会有痛点?如何抓住用户痛点?优先解决哪些用户痛点?本专题的文章分享了以上的问题详解。
专题
15670人已学习12篇文章
本专题的文章分享了如何从0到1搭建结算平台
专题
12798人已学习17篇文章
在一些老系统可能会有流程复杂、扩展性不强的问题,此时便需要进行重构。本专题的文章分享了产品重构指南。
专题
142123人已学习32篇文章
做一个好运营,技术和意识都得过硬。