2021久久高清,伊人久久综合精品无码AV专区,日本大骚b视频在线

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

大，就聰明嗎？論模型的“尺寸虛胖”

賽博禪心

2025-03-29

0 評論 2825 瀏覽 2 收藏

本文深入探討了模型參數(shù)與實際性能之間的關(guān)系，揭示了Dense和MoE架構(gòu)的本質(zhì)差異，以及它們在資源調(diào)度和計算效率上的不同表現(xiàn)。

你可能刷過這樣的新聞：

一個只有 27B 參數(shù)的 Gemma-3，竟和 671B 參數(shù) DeepSeek V3 不相上下。世界又要變天了

后面，可能還帶個圖，像這樣：

Gemma：我 27B

這種“技術(shù)奇跡” ，總被媒體反復(fù)包裝成“一夜變天” ，但其實并不新鮮：

大模型說：我參數(shù)更大、上限更高。
小模型說：我表現(xiàn)差不多，推理還便宜。
廠商都在說自己贏了，讀者卻越來越搞不懂這到底在比什么。

細究起來，這表面是在做模型對比，實則是兩種語言體系在雞同鴨講，而參數(shù)恰成了“最容易理解、但最容易誤導(dǎo)”的數(shù)字，如同：用人口數(shù)量，來判斷足球水平。

我想借著這個話題，來聊聊幾個核心問題：

為什么參數(shù)量大 ≠ 實際效果強？
Dense 和 MoE 到底是怎么一回事？
“看起來很大”的模型，到底動用了多少能力？
在大模型持續(xù)擴張的趨勢下，小模型還有哪些“后發(fā)機制”？

大，不一定“聰明”

我們說“參數(shù)量大 ≠ 實際效果強”，不是在否定參數(shù)的意義，而是在拆一個經(jīng)常被誤用的判斷標準。最常見的誤區(qū)，就是把不同類型的模型，拉到同一個坐標軸上用參數(shù)量做對比：而它們，本就沒有可比性。

Gemma-3 是 Dense 架構(gòu)，也就是稠密模型，它的全部 27B 參數(shù)在使用中都會被激活，全部參與計算，屬于“全員出戰(zhàn)”的結(jié)構(gòu)。

DeepSeek V3 是 MoE 架構(gòu)（Mixture of Experts），也就是混合專家模型。它的總參數(shù)量高達 671B，但每次推理只會激活其中一小部分專家網(wǎng)絡(luò)，實際參與計算的大約是 37B。剩下的大多數(shù)參數(shù)處于“待命狀態(tài)”。

Dense VS MoE

你看到的是 671B vs 27B，但模型實際調(diào)用的是 37B vs 27B：這看上去體量懸殊，實則差別不大。所以說，參數(shù)比較本身沒問題，問題在于不能混著比。

當然了，在同一架構(gòu)內(nèi)（比如 Dense 對 Dense），參數(shù)依然是判斷能力上限的重要指標；但跨架構(gòu)直接對比參數(shù)數(shù)量，得出的“誰強誰弱”往往是錯位的。

MoE 的由來

接著回來說說參數(shù)：參數(shù)的增加能帶來“規(guī)模效應(yīng)”——也就是能力的非線性躍遷。因此，各家模型才持續(xù)堆大，從 GPT-2 到 GPT-3，再到 PaLM、Gemini、Qwen，每一代都在沖上限。

只不過，Dense 架構(gòu)的增長曲線實在太“正經(jīng)”了。隨著參數(shù)規(guī)模增大，算力成本也得不斷翻翻，幾乎沒有優(yōu)化空間。當參數(shù)飆升到幾千億、上萬億時，一輪訓(xùn)練就要燒掉上千萬美元，硬件和能源的門檻也迅速被拉高。模型越大，訓(xùn)練成本越高，硬件要求越嚴，能做的人越來越少。

MoE 的到來，正是為了在不炸成本的前提下，繼續(xù)擴容。

MoE 并不是哪個廠商的獨門絕技，而是淵源已久。早在1991年， Michael I. Jordan 和 Geoffrey E. Hinton 就提出這個思想。只不過當時受限于工程能力，難以真正落地。直到2017年，Google 的 Jeff Dean 團隊將 MoE 應(yīng)用于 LSTM 架構(gòu)，訓(xùn)練出了一個 137B 參數(shù)的模型，參數(shù)規(guī)模巨大，但計算開銷卻沒有爆表，這一嘗試也正式為大模型擴容打開了新路。

Adaptive Mixtures of Local Experts

2020年，Google 推出結(jié)合 Transformer 架構(gòu)的 Switch Transformer，參數(shù)量飆升至 1.6 萬億。這并不是為了炫數(shù)字，而是為了驗證一個核心概念：參數(shù)可以很多，但不需要每次都全部激活。只要調(diào)度得當，就能在控制計算成本的同時，獲得更高的模型容量。這也徹底改變了大模型的設(shè)計邏輯，從“每個參數(shù)都得上場”，變?yōu)椤白寣Φ膶＜以趯Φ臅r刻出場”。

國內(nèi)最早大規(guī)模落地 MoE 架構(gòu)的，是“悟道”團隊（北京智源研究院），2021年，他們訓(xùn)練了一個 1.75 萬億參數(shù)的模型，并自研了 FastMoE 框架，重寫了底層調(diào)度邏輯，才支撐起這種超大規(guī)模的訓(xùn)練任務(wù)。自此，MoE 架構(gòu)逐漸成為工業(yè)級大模型的主流形態(tài)之一，Google PaLM、Mistral-8x22B、阿里的 Qwen-MoE 等也陸續(xù)采用類似方案。

DeepSeek 則做出了一些「本土創(chuàng)新」，比如引入“細粒度專家”機制，把原本的大模塊進一步細分，提升了專家的專業(yè)性；同時設(shè)計了“共享專家”組件，用于捕捉底層通用知識，減少冗余，也提升了多任務(wù)之間的表現(xiàn)一致性。這些改進一方面減輕了算力壓力，另一方面也有效緩解了傳統(tǒng) MoE 常見的問題，比如：路由不穩(wěn)定、風(fēng)格漂移、知識碎片化等。

DeepSeek MoE

但也正是 DeepSeek 的出色表現(xiàn)，帶來了一些新的誤解。比如，不少人將“MoE”簡單等同于“更聰明”“更先進”，反過來認為 Dense 模型因為體積小就一定弱。這其實是一個需要澄清的觀念偏差。MoE 和 Dense，本質(zhì)上只是兩種不同的資源調(diào)度策略，是否采用 MoE，并不能決定一個模型是不是“聰明”。真正決定智能水平的，仍然是模型的訓(xùn)練質(zhì)量、架構(gòu)合理性、任務(wù)適配能力。

有關(guān) MoE 的另一個誤解是“用不到的專家，不占資源”。正相反，在 MoE 架構(gòu)中，雖然每次只激活少數(shù)專家，但所有參數(shù)依然必須常駐顯存，真正部署起來的硬件負擔(dān)一點都不輕。因此，對于私有部署同性能模型來說，MoE 顯卡成本會高出很多。