综合激情婷婷丁香五月蜜桃,五十路人妻av系列,不付费的污软件

<form id="7hstp"></form>

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

{{ userInfo.member ? '查看權(quán)益' : '開通會員' }}

發(fā)布

注冊 | 登錄

蘋果加入開源大戰(zhàn)，官宣端側(cè)小模型OpenELM！參數(shù)2.7億到30億一臺M2 Mac可跑

新智元

2024-04-26

0 評論 2076 瀏覽 1 收藏

7 分鐘

開源戰(zhàn)在這半個月愈演愈烈。先是Llama 3，又到微軟Phi-3，再到蘋果發(fā)布的OpenELM。四種不同小參數(shù)版本全部上線，我們離iPhone裝進(jìn)大模型不遠(yuǎn)了。

從Llama 3到Phi-3，蹭著開源熱乎勁兒，蘋果也來搞事情了。

近日，蘋果團(tuán)隊發(fā)布了OpenELM，包含了2.7億、4.5億、11億和30億四個參數(shù)版本。

與微軟剛剛開源的Phi-3相同，OpenELM是一款專為終端設(shè)備而設(shè)計的小模型。

論文地址：https://arxiv.org/abs/2404.14619

論文稱，OpenELM使用了「分層縮放」策略，來有效分配Transformer模型每一層參數(shù)，從而提升準(zhǔn)確率。

如下這張圖，一目了然。

在約10億參數(shù)規(guī)模下，OpenELM與OLMo相比，準(zhǔn)確率提高了2.36%，同時需要的預(yù)訓(xùn)練token減少了2倍。

抱抱臉創(chuàng)始人表示，蘋果加入了AI開源大戰(zhàn)，一口氣在HF中心發(fā)布了四款模型。

一、OpenELM有多強？

OpenELM的誕生，顯然瞄準(zhǔn)了谷歌、三星、微軟這類的競爭對手。

近幾天，微軟開源的Phi-3，在AI社區(qū)引起了不小的反響。

因為，小模型的運行成本更低，而且針對手機和筆記本電腦等設(shè)備進(jìn)行了優(yōu)化。

根據(jù)論文介紹，蘋果這款模型不僅能在筆記本（配備英特爾i9-13900KF CPU、RTX 4090 GPU，24GB內(nèi)存），還可以在M2 MacBook Pro（64GiB內(nèi)存）運行。

而OpenELM具體性能表現(xiàn)如何？

在零樣本和少樣本設(shè)置中，OpenELM的結(jié)果如下圖表3所示。

通過與開源的大模型比較，OpenELM的變體比12億參數(shù)OLMo的準(zhǔn)確率提高了1.28%（表4a）、2.36%（表4b）和 1.72%（表4c）。

值得注意的是，OpenELM使用了OLMo少2倍的預(yù)訓(xùn)練數(shù)據(jù)的情況下，達(dá)到了這一水平。

再來看模型指令微調(diào)的結(jié)果。

如下表5所示，在不同的評估框架中，指令微調(diào)都能將OpenELM的平均準(zhǔn)確率提高1-2%。

表6展示了參數(shù)高效微調(diào)的結(jié)果。PEFT方法可以應(yīng)用于OpenELM，LoRA和DoRA在給定的CommonSense推理數(shù)據(jù)集中，提供了相似的平均準(zhǔn)確度。

下表7a和7b分別顯示了GPU和MacBook Pro上的基準(zhǔn)測試結(jié)果。

盡管OpenELM對于相似的參數(shù)數(shù)量具有更高的精度，但研究人員觀察到OpenELM要比OLMo慢。

雖然本研究的主要重點是可重復(fù)性而非推理性能，但研究人員還是進(jìn)行了全面分析，以了解瓶頸所在。

分析結(jié)果表明，OpenELM處理時間的很大一部分，歸因于研究者對RMSNorm的簡單實現(xiàn)。

具體來說，簡單的RMSNorm實現(xiàn)會導(dǎo)致許多單獨的內(nèi)核啟動，每個內(nèi)核處理一個小輸入，而不是像LayerNorm那樣啟動一個融合的內(nèi)核。

用Apex的RMSNorm替換簡單的RMSNorm，結(jié)果發(fā)現(xiàn)OpenELM的吞吐量有了顯著提高。

然而，與使用優(yōu)化LayerNorm的模型相比，性能差距仍然很大，部分原因是：

OpenELM有113個RMSNorm層，而OLMo只有33個LayerNorm層；
Apex的RMSNorm沒有針對小輸入進(jìn)行優(yōu)化。

二、作者貢獻(xiàn)

有趣的是，論文最后一部分還列出了每位作者，在這項研究中的具體貢獻(xiàn)。

從預(yù)訓(xùn)練數(shù)據(jù)收集和工具、架構(gòu)設(shè)計、模型訓(xùn)練，到評估套件和工具、HF集成、指令微調(diào)、參數(shù)高效微調(diào)，再到性能分析和MLX轉(zhuǎn)換、代碼審查，bug修改和維護(hù)全程都分工明確。

具體每人參與的內(nèi)容，如下圖所示。

參考資料：

https://arxiv.org/abs/2404.14619

編輯：桃子

來源公眾號：新智元（ID：AI_era），“智能+”中國主平臺，致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

新智元

"智能+"中國主平臺，致力于推動中國從"互聯(lián)網(wǎng)+"邁向"智能+"

103篇作品 254716總閱讀量

2023年生鮮電商預(yù)測：行業(yè)加速洗牌，私域流量搶奪白日化

02-202244 瀏覽

2023年生鮮電商預(yù)測：行業(yè)加速洗牌，私域流量搶奪白日化

AI產(chǎn)品經(jīng)理是如何理解機器學(xué)習(xí)的（附注釋）

05-113545 瀏覽

AI產(chǎn)品經(jīng)理是如何理解機器學(xué)習(xí)的（附注釋）

靠賣瑜伽服市值趕超阿迪達(dá)斯，全球第二大運動品牌lululemon的私域好在哪？

09-273411 瀏覽

靠賣瑜伽服市值趕超阿迪達(dá)斯，全球第二大運動品牌lululemon的私域好在哪？

設(shè)計師如何避免被AI取代？

04-183623 瀏覽

設(shè)計師如何避免被AI取代？

ToB 行業(yè)的大會策劃還能這么“玩”呢？

11-131049 瀏覽

ToB 行業(yè)的大會策劃還能這么“玩”呢？

評論

目前還沒評論，等你發(fā)揮！

柵格篇 | 不會柵格系統(tǒng)？拿走這篇零基礎(chǔ)使用指南！

02-154177 瀏覽
在拼多多當(dāng)“搬運工”，一條短視頻薅走1000元

03-147999 瀏覽
推薦策略產(chǎn)品大廠案例實踐必讀——美團(tuán)外賣Feeds動態(tài)交互推薦

12-186689 瀏覽

<label id="bensb"></label>

<mark id="bensb"></mark>

<kbd id="bensb"></kbd>

<label id="bensb"><strong id="bensb"><ruby id="bensb"></ruby></strong></label>