蘋果加入開源大戰(zhàn),官宣端側(cè)小模型OpenELM!參數(shù)2.7億到30億一臺M2 Mac可跑
開源戰(zhàn)在這半個月愈演愈烈。先是Llama 3,又到微軟Phi-3,再到蘋果發(fā)布的OpenELM。四種不同小參數(shù)版本全部上線,我們離iPhone裝進(jìn)大模型不遠(yuǎn)了。
從Llama 3到Phi-3,蹭著開源熱乎勁兒,蘋果也來搞事情了。
近日,蘋果團(tuán)隊發(fā)布了OpenELM,包含了2.7億、4.5億、11億和30億四個參數(shù)版本。
與微軟剛剛開源的Phi-3相同,OpenELM是一款專為終端設(shè)備而設(shè)計的小模型。
論文地址:https://arxiv.org/abs/2404.14619
論文稱,OpenELM使用了「分層縮放」策略,來有效分配Transformer模型每一層參數(shù),從而提升準(zhǔn)確率。
如下這張圖,一目了然。
在約10億參數(shù)規(guī)模下,OpenELM與OLMo相比,準(zhǔn)確率提高了2.36%,同時需要的預(yù)訓(xùn)練token減少了2倍。
抱抱臉創(chuàng)始人表示,蘋果加入了AI開源大戰(zhàn),一口氣在HF中心發(fā)布了四款模型。
一、OpenELM有多強?
OpenELM的誕生,顯然瞄準(zhǔn)了谷歌、三星、微軟這類的競爭對手。
近幾天,微軟開源的Phi-3,在AI社區(qū)引起了不小的反響。
因為,小模型的運行成本更低,而且針對手機和筆記本電腦等設(shè)備進(jìn)行了優(yōu)化。
根據(jù)論文介紹,蘋果這款模型不僅能在筆記本(配備英特爾i9-13900KF CPU、RTX 4090 GPU,24GB內(nèi)存),還可以在M2 MacBook Pro(64GiB內(nèi)存)運行。
而OpenELM具體性能表現(xiàn)如何?
在零樣本和少樣本設(shè)置中,OpenELM的結(jié)果如下圖表3所示。
通過與開源的大模型比較,OpenELM的變體比12億參數(shù)OLMo的準(zhǔn)確率提高了1.28%(表4a)、2.36%(表4b)和 1.72%(表4c)。
值得注意的是,OpenELM使用了OLMo少2倍的預(yù)訓(xùn)練數(shù)據(jù)的情況下,達(dá)到了這一水平。
再來看模型指令微調(diào)的結(jié)果。
如下表5所示,在不同的評估框架中,指令微調(diào)都能將OpenELM的平均準(zhǔn)確率提高1-2%。
表6展示了參數(shù)高效微調(diào)的結(jié)果。PEFT方法可以應(yīng)用于OpenELM,LoRA和DoRA在給定的CommonSense推理數(shù)據(jù)集中,提供了相似的平均準(zhǔn)確度。
下表7a和7b分別顯示了GPU和MacBook Pro上的基準(zhǔn)測試結(jié)果。
盡管OpenELM對于相似的參數(shù)數(shù)量具有更高的精度,但研究人員觀察到OpenELM要比OLMo慢。
雖然本研究的主要重點是可重復(fù)性而非推理性能,但研究人員還是進(jìn)行了全面分析,以了解瓶頸所在。
分析結(jié)果表明,OpenELM處理時間的很大一部分,歸因于研究者對RMSNorm的簡單實現(xiàn)。
具體來說,簡單的RMSNorm實現(xiàn)會導(dǎo)致許多單獨的內(nèi)核啟動,每個內(nèi)核處理一個小輸入,而不是像LayerNorm那樣啟動一個融合的內(nèi)核。
用Apex的RMSNorm替換簡單的RMSNorm,結(jié)果發(fā)現(xiàn)OpenELM的吞吐量有了顯著提高。
然而,與使用優(yōu)化LayerNorm的模型相比,性能差距仍然很大,部分原因是:
- OpenELM有113個RMSNorm層,而OLMo只有33個LayerNorm層;
- Apex的RMSNorm沒有針對小輸入進(jìn)行優(yōu)化。
二、作者貢獻(xiàn)
有趣的是,論文最后一部分還列出了每位作者,在這項研究中的具體貢獻(xiàn)。
從預(yù)訓(xùn)練數(shù)據(jù)收集和工具、架構(gòu)設(shè)計、模型訓(xùn)練,到評估套件和工具、HF集成、指令微調(diào)、參數(shù)高效微調(diào),再到性能分析和MLX轉(zhuǎn)換、代碼審查,bug修改和維護(hù)全程都分工明確。
具體每人參與的內(nèi)容,如下圖所示。
參考資料:
https://arxiv.org/abs/2404.14619
編輯:桃子
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!