一文搞懂生成式AI的技術(shù)突破與未來發(fā)展

0 評(píng)論 1096 瀏覽 4 收藏 42 分鐘

生成式 AI 正在以前所未有的速度改變我們的生活和工作方式,從簡(jiǎn)單的文字生成到復(fù)雜的多模態(tài)創(chuàng)作,它的發(fā)展令人矚目。本文將深入剖析生成式 AI 的技術(shù)突破與未來發(fā)展,從 AI 的進(jìn)化路徑、核心技術(shù)原理、學(xué)習(xí)機(jī)制到其在實(shí)際應(yīng)用中的潛力與挑戰(zhàn),為你揭開生成式 AI 的神秘面紗,帶你一探究竟。

現(xiàn)在人工智能讓我在想,哇靠,是不是以后都不用我了?

看完李宏毅老師的課,我放心了,人工智能很猛,但還是要我來下指令。

01 從 “講冷笑話的 AI” 到會(huì)辦事的 AI Agent:聊聊 AI 正在進(jìn)化的 “職場(chǎng)能力”

李老師給ai布置了個(gè)任務(wù),讓做個(gè)關(guān)于 AI 的 PPT,要求就倆字:有趣。

結(jié)果它一本正經(jīng)回:“我昨天寫了個(gè)遞歸程序,結(jié)果今天還在執(zhí)行”。我笑了,你呢?

你別說,這冷笑話自帶技術(shù)梗的幽默,倒是讓我突然好奇:現(xiàn)在的 AI,到底是真懂幽默,還是在玩文字接龍?

更有意思的是,當(dāng)聊到擴(kuò)散模型時(shí),他說擴(kuò)散模型,其實(shí)很浪漫,為什么?

因?yàn)樗嬖V我們,就算人生一團(tuán)亂,全是噪聲,只要一步一步努力去除噪聲,也能拼出美麗的風(fēng)景。

AI 都這么勵(lì)志了。

我從來沒有想過擴(kuò)散模型 diffusion model 背后有這么勵(lì)志的故事,AI 實(shí)在是太有創(chuàng)意了。

這讓我想起早年的 AI,只會(huì)機(jī)械地 “用戶問啥答啥”,現(xiàn)在卻能把技術(shù)邏輯編織成故事,甚至帶點(diǎn)人文關(guān)懷,這算不算一種 “情商進(jìn)化”?

從 “直接給答案” 到 “展示思考鏈”

但 AI 的進(jìn)化遠(yuǎn)不止于 “講段子”。

不知道大家發(fā)現(xiàn)沒,過去的 AI 像個(gè) “答案販賣機(jī)”,你輸入 “怎么煮奶茶”,它直接甩給你步驟。

現(xiàn)在的主流模型卻開始“曬思路”了,比如你問 一個(gè)問題,他先在腦內(nèi)演繹一個(gè)小劇場(chǎng),嘗試各種解法,最后給你一個(gè)可行的辦法,并且把這個(gè)腦內(nèi)小劇場(chǎng)展示給你。

這種“思考過程可視化”,通常管它叫“reasoning 能力”。

那對(duì)于AI來說這個(gè)答案給就給了,那這個(gè)答案會(huì)造成什么樣的影響?

這個(gè)答案是不是對(duì)的他也不在乎,但是光是一問一答不能解決所有的問題,很多的任務(wù)往往需要多個(gè)步驟才能完成。

為啥需要這能力?

舉個(gè)生活化的例子:李老師說,某天他老婆說 “今晚下館子”,擱傳統(tǒng) AI 這兒,可能就停留在 “吃什么”“哪家餐廳” 的簡(jiǎn)單問答。

但人類處理這事可復(fù)雜多了:打電話訂餐廳 A 沒位,得接著搜餐廳 B,還得跟老婆確認(rèn)是否合適 —— 這是個(gè)多步驟的“任務(wù)鏈”。

要是 AI 只會(huì)單步響應(yīng),回一句 “沒位置了” 就結(jié)束,怕是要被痛扁的。

所以啊,真正能辦事的 AI,得學(xué)會(huì)“多線程思考”,這就引出了一個(gè)關(guān)鍵概念:AI Agent。

能 “規(guī)劃、學(xué)習(xí)、用工具” 的職場(chǎng)型 AI

啥是AI Agent?簡(jiǎn)單說,就是能像人類一樣 “分步驟完成復(fù)雜任務(wù)”的 AI。

接著剛才訂餐廳的例子,它得具備三大核心能力:

第一,從經(jīng)驗(yàn)中學(xué)習(xí)的能力。第一次打電話知道餐廳 A 沒位,下次就不能再死磕了,得記住 “這家已滿,換別家”。要是沒這能力,反復(fù)撥打同一號(hào)碼,別說老婆不滿意,連咱人類都得急眼:“這 AI 咋這么軸?”

第二,使用工具的自覺。AI 清楚自己 “肚里沒貨”,比如不知道附近還有哪些餐廳,就得主動(dòng)調(diào)用“搜索工具”。這就像人類辦事,不懂的地方會(huì)查資料、問同事,AI 也得學(xué)會(huì)“借力”?,F(xiàn)在的模型已經(jīng)能對(duì)接搜索引擎、地圖 API,甚至操控鼠標(biāo)鍵盤了,這可是從 “純腦力” 到 “動(dòng)手實(shí)操” 的跨越。

第三,動(dòng)態(tài)規(guī)劃與策略調(diào)整。什么時(shí)候該跟人類確認(rèn)?比如找到餐廳 B,得問 “訂這家行不行”,避免自作主張訂錯(cuò);什么時(shí)候又該自主決策?比如搜索餐廳時(shí),不需要每步都請(qǐng)示 “我能搜嗎”,不然人類早煩了。這種“分寸感”的把握,其實(shí)體現(xiàn)了 AI 對(duì)任務(wù)流程理解深度。

從 “搜資料” 到 “操控電腦”

現(xiàn)在的 AI 其實(shí)已經(jīng)有了 Agent 的雛形。

比如Deep Research,當(dāng)李老師問 “中部橫貫公路歷史沿革” 時(shí),它可不是搜一次就完事:先查主線支線,發(fā)現(xiàn)霧社支線有 2018 年改道工程,接著深挖改道細(xì)節(jié),再根據(jù)新信息調(diào)整搜索方向,最后整合出一篇完整報(bào)告。

這就像人類做研究,先列大綱,再按需補(bǔ)充資料,邊查邊調(diào)整思路。

更厲害的是 ChatGPT 的Operator功能。

李老師演示了:讓 AI 幫忙加簽 “機(jī)器學(xué)習(xí)” 課程,它先點(diǎn)擊 “課程資訊” 找表單,沒找到就轉(zhuǎn)向 “課程說明”,發(fā)現(xiàn)需要 Gmail 賬號(hào)時(shí),還能跟用戶確認(rèn)是否申請(qǐng)賬號(hào)(雖然最后因權(quán)限問題暫停,但這過程已經(jīng)很 “人類” 了)。

你看,它能理解網(wǎng)頁結(jié)構(gòu),根據(jù)視覺反饋(屏幕截圖)調(diào)整操作,甚至模擬人類試錯(cuò) — 修正” 的行為模式,這不再是單純的語言生成,而是“操控?cái)?shù)碼世界”的初級(jí)形態(tài)。

AI 正在 becoming “有用的伙伴”

回頭看,AI 的進(jìn)化路徑特別有意思:早期像個(gè) “呆萌的知識(shí)庫(kù)”,只會(huì)生硬回答;后來學(xué)會(huì) “講段子、說故事”,有了點(diǎn)交互溫度。

現(xiàn)在則朝著“職場(chǎng)型助手”發(fā)展,能規(guī)劃、會(huì)學(xué)習(xí)、懂協(xié)作

就像李老師說的,開發(fā)機(jī)器學(xué)習(xí)模型本身就是個(gè)多步驟任務(wù),AI Agent 的出現(xiàn),其實(shí)是讓 AI 從 “單一技能型選手” 進(jìn)化成“項(xiàng)目管理型選手”。

當(dāng)然,現(xiàn)在的 AI Agent 還不夠成熟,比如訂餐廳時(shí)可能不懂用戶的口味偏好,搜資料時(shí)可能被虛假信息誤導(dǎo),操控電腦時(shí)受限于界面規(guī)則。

但關(guān)鍵在于,它展現(xiàn)了一種 “解決復(fù)雜問題的思維框架”—— 把大任務(wù)拆解成小步驟,動(dòng)態(tài)調(diào)整策略,合理利用工具,必要時(shí)與人協(xié)作。這種能力,正是人類職場(chǎng)中最核心的 “問題解決力”。

最后忍不住想:當(dāng) AI 都開始學(xué)著 “分步驟辦事”“從失敗中總結(jié)經(jīng)驗(yàn)”“知道什么時(shí)候該問人”,作為人類的我們,是不是也該反思一下自己的工作方式?畢竟,連 AI 都在進(jìn)化成 “會(huì)辦事的伙伴”,咱可不能輸給代碼呀。

我們已經(jīng)看到了 AI 的行為,接下來我們來看它背后運(yùn)作的機(jī)制。

02 從 TOKEN 到 Transformer, AI 如何 “思考”

這生成式 AI 背后的核心原理到底是什么呢?

很多人看到 AI 能寫文章、畫圖、說話,覺得這事兒特別玄乎,但拆開來看,其實(shí)就像玩 “超級(jí)復(fù)雜的文字接龍”—— 只不過這里的“字”,可能是文字、像素、聲音取樣點(diǎn),甚至是你能想到的一切數(shù)字化的基本單位。

萬物皆 TOKEN:AI 眼中的世界是 “積木堆”

生成式 AI 做的事,簡(jiǎn)單說就是 “輸入一堆東西,輸出一堆東西”,但這些 “東西” 在AI 眼里,都是由最小單位TOKEN組成的。

比如一段中文,基本單位是漢字,常用的也就 4000 多個(gè)。

一張圖片,放大后是像素(每個(gè)像素的顏色選擇雖然多,但也是有限的);

一段聲音,本質(zhì)是數(shù)字取樣點(diǎn)(每個(gè)點(diǎn)用有限的字節(jié)存儲(chǔ))。

哪怕是樹狀結(jié)構(gòu)、表格,AI 也會(huì)把它們轉(zhuǎn)換成文字序列(比如用括號(hào)表示結(jié)構(gòu)),所以TOKEN就是 AI 世界的 “積木”,有限的積木能搭出無限可能。

黃仁勛去年在 COMPUTEX 說 “萬物皆 TOKEN”,可不是讓你買代幣,而是說 AI 處理的所有內(nèi)容,最終都會(huì)被拆解成這些基本單位

比如你讓 AI 畫一幅畫,它其實(shí)是在 “接龍” 像素 TOKEN;讓它寫文章,就是在接龍文字TOKEN—— 只不過這些接龍的規(guī)則,藏在復(fù)雜的模型里。

上面咱們說到,生成式 AI的核心是 “輸入一堆 TOKEN,輸出一堆 TOKEN”,但這里的“輸入輸出”—— 也就是咱們用符號(hào)y表示的東西。

其實(shí)可以是千變?nèi)f化的:一段話、一張圖、一段聲音……表面看它們天差地別,但在AI 眼里,統(tǒng)統(tǒng)都是由“基本單位”搭成的“積木堆”。

今天咱們就鉆到細(xì)節(jié)里,看看這些 “積木” 到底長(zhǎng)啥樣,以及 AI 如何用同一套邏輯玩轉(zhuǎn)它們。

y的 “分身術(shù)”:不同形態(tài)下的基本單位長(zhǎng)啥樣?

先記住一個(gè)公式:y = [y?, y?, …, y?],這里的每個(gè)下標(biāo) y? 就是一個(gè)基本單位,也就是TOKEN。不同的 y,只是 TOKEN 的 “馬甲” 不同:

文字 y:符號(hào) TOKEN 的排列組合

一段中文,比如 “今天天氣不錯(cuò)”,拆解成TOKEN就是單個(gè)漢字:“今”“天”“天”“氣”“不”“錯(cuò)”。

中文常用字約 4000 個(gè),加上標(biāo)點(diǎn)、特殊符號(hào),TOKEN 總量大概幾萬 —— 雖然多,但永遠(yuǎn)是有限的。

就像樂高積木,基礎(chǔ)塊就那幾百種,但能搭出整個(gè)宇宙。

圖片 y:像素 TOKEN 的色彩拼圖

一張圖片放大后是密密麻麻的像素,每個(gè)像素是一個(gè)顏色點(diǎn)。

比如 RGB 格式下,每個(gè)像素用 3 個(gè)字節(jié)(紅、綠、藍(lán)各 1 字節(jié))表示,每個(gè)字節(jié)有 2?=256 種可能,所以單個(gè)像素的顏色組合是 256×256×256≈1600 萬種 —— 雖然多,但依然是有限的。

假設(shè)圖片是256×256 像素,AI 要生成的就是256×256 個(gè)像素 TOKEN,每個(gè) TOKEN 對(duì)應(yīng)一個(gè)顏色組合。

聲音 y:數(shù)字 TOKEN 的波形密碼

聲音本質(zhì)是聲波,轉(zhuǎn)換成數(shù)字信號(hào)后,每秒會(huì)采樣成千上萬次(比如 44.1kHz 采樣率),每個(gè)采樣點(diǎn)用一個(gè)數(shù)字表示振幅。

但計(jì)算機(jī)存儲(chǔ)時(shí),每個(gè)數(shù)字的精度是有限的,比如用 16 位整數(shù)存儲(chǔ),每個(gè)采樣點(diǎn)就有 21?=65536 種可能。

一段 10 秒的聲音,就是 10×44100=441000 個(gè)數(shù)字 TOKEN—— 依然是有限的排列組合。

更妙的是,就連復(fù)雜的結(jié)構(gòu)(比如語法樹、表格),AI 也會(huì)先 “翻譯” 成文字 TOKEN序列。比如一棵語法樹,用括號(hào)表示層級(jí):“(主語 (名詞 貓)) (謂語 (動(dòng)詞 跳))”,本質(zhì)還是文字TOKEN 的排列。

所以無論多復(fù)雜的 y,最終都能拆成一串 TOKEN,這就是 AI 能“統(tǒng)一處理萬物” 的底層邏輯。

從 “文字接龍” 到自動(dòng)回歸:AI 如何一個(gè)一個(gè)蹦出答案?

生成式 AI 的核心策略自動(dòng)回歸生成(auto regressive generation),說白了就是“每次只生成一個(gè) TOKEN,接著用生成的結(jié)果繼續(xù)生成下一個(gè)”。

比如輸入 “臺(tái)灣大”,AI 先想第一個(gè)可能的后續(xù) TOKEN:“學(xué)”“車”“哥”…… 算出每個(gè)TOKEN概率,選一個(gè)(可能帶點(diǎn)隨機(jī)),假設(shè)選了 “學(xué)”,然后把 “臺(tái)灣大 + 學(xué)” 作為新輸入,繼續(xù)想下一個(gè) TOKEN,直到遇到 “結(jié)束 TOKEN”(比如文章寫完了,或者圖片像素?cái)?shù)夠了)。

這里有個(gè)關(guān)鍵:AI 輸出的不是唯一答案,而是概率分布。

比如 “臺(tái)灣大” 后面接 “學(xué)”“車”“哥” 都有可能,AI 會(huì)給每個(gè)可能的 TOKEN打個(gè)分,告訴你 “接‘學(xué)’的概率是 60%,接‘車’是 30%”,然后隨機(jī)選一個(gè)。

這就是為什么同樣的輸入,AI 每次輸出不一樣—— 它在“擲骰子”做選擇。

神經(jīng)網(wǎng)絡(luò):把復(fù)雜問題拆成 “小步驟闖關(guān)”

那 AI 怎么算出每個(gè) TOKEN 的概率呢?

靠的是神經(jīng)網(wǎng)絡(luò)(類神經(jīng)網(wǎng)絡(luò)),它的核心是 “把一個(gè)超復(fù)雜的函數(shù),拆成很多小函數(shù)串聯(lián)起來”,每一層小函數(shù)(layer)就是一次 “思考步驟”。

舉個(gè)不精準(zhǔn)但好懂的例子:算三位數(shù)相加(比如 123+456),如果讓 AI一步到位,它得記住 1000 種可能的輸入輸出關(guān)系。

但如果拆成兩步(先算 123+456 的前兩位,再加上第三位),每一步只需要處理更少的可能,就像闖關(guān)一樣,每關(guān)解決一個(gè)小問題,最后出答案。

這就是 “深度學(xué)習(xí)” 的本質(zhì) ——用很多層(深度)把復(fù)雜問題拆成簡(jiǎn)單問題,每層只做一件小事,但層層疊加就能處理超復(fù)雜的任務(wù)。

現(xiàn)在的神經(jīng)網(wǎng)絡(luò),比如Transformer,每層又分兩部分:一部分叫self-attention(自我注意),能全局看所有輸入 TOKEN 的關(guān)系(比如寫文章時(shí),讓 “它” 知道前面指的是 “貓” 還是 “狗”);另一部分處理單個(gè)TOKEN 的細(xì)節(jié),兩者結(jié)合,讓 AI 既能顧全大局,又能摳細(xì)節(jié)。

Transformer:變形金剛背后的 “注意力魔法”

2017 年誕生的Transformer,是現(xiàn)在大多數(shù) AI 模型(比如 ChatGPT、LLaMA)的底座。

它的名字很有趣,原作者說就是覺得 “酷”,沒什么特別含義,但它的能力可不簡(jiǎn)單 —— 靠 self-attention 實(shí)現(xiàn)了“全局理解”。

比如生成 “我買了一本書,它很有趣”,Transformer會(huì)讓 “” 知道指的是 “”,而不是前面的 “” 或 “”,這就是通過 self-attention 建立 TOKEN 之間的關(guān)聯(lián)。

但 Transformer有個(gè)毛病:輸入太長(zhǎng)時(shí),計(jì)算量會(huì)爆炸(比如處理 10 萬字的文章),因?yàn)槊繉佣家闼?TOKEN 的關(guān)系,長(zhǎng)度翻倍,計(jì)算量可能翻四倍。

怎么辦?最近很火的 “曼巴模型(Mamba)” 給出了思路,它改進(jìn)了架構(gòu),讓處理長(zhǎng)輸入更高效,算是 Transformer 的 “進(jìn)化版”。

這就像給 AI 升級(jí)了 “大腦帶寬”,讓它能處理更長(zhǎng)的 “腦內(nèi)小劇場(chǎng)”。

深度不夠,長(zhǎng)度來湊:AI 如何 “思考” 更久?

有的人會(huì)問:如果神經(jīng)網(wǎng)絡(luò)的層數(shù)(深度)有限,遇到超難的問題怎么辦?

答案是:讓 AI“思考”更長(zhǎng)時(shí)間,用 “長(zhǎng)度” 彌補(bǔ) “深度”。

比如讓 AI 解數(shù)學(xué)題,不是讓它直接蹦答案,而是讓它先 “自言自語” 寫出解題步驟:“首先,我需要計(jì)算這個(gè)公式…… 然后考慮條件 A 和條件 B……”每一步生成一個(gè) TOKEN,相當(dāng)于延長(zhǎng)了 “思考鏈”。

斯坦福的研究發(fā)現(xiàn),這種 “強(qiáng)迫 AI 多說廢話” 的方法,能讓正確率大幅提升 ——想得越久,越不容易出錯(cuò)。

AI 的本質(zhì)是 “超級(jí) TOKEN 接龍機(jī)”

兜兜轉(zhuǎn)轉(zhuǎn)回到原點(diǎn),生成式 AI 的核心就三點(diǎn):

  1. 萬物皆 TOKEN:把一切輸入輸出拆成有限的基本單位。
  2. 接龍式生成:每次只生成一個(gè) TOKEN,靠概率分布決定下一步。
  3. 分層拆解問題:用深度學(xué)習(xí)層層處理,Transformer 負(fù)責(zé) “全局理解”,Mamba等新架構(gòu)優(yōu)化效率

現(xiàn)在你再看黃仁勛說的 “TOKEN 是 AI 的基本原理”,是不是就通透了?AI 不是魔法,而是把復(fù)雜問題拆成無數(shù)個(gè)“選擇題”,用數(shù)學(xué)和工程堆出來的超級(jí)系統(tǒng)。

下次當(dāng)你看到 AI 生成的文章、圖片,不妨想象一下:這背后是無數(shù)個(gè) TOKEN 在 “排隊(duì)接龍”,每個(gè)接龍都藏著 AI 的“概率小算盤”。

03 從 “天資” 到 “后天”:AI 是如何 “長(zhǎng)成” 的?—— 聊聊神經(jīng)網(wǎng)絡(luò)的架構(gòu)與參數(shù)那些事兒

咱們接著聊 AI 的運(yùn)作機(jī)制是怎么 “誕生” 的。

首先要拎出一個(gè)核心概念:類神經(jīng)網(wǎng)絡(luò)里,永遠(yuǎn)有一對(duì)形影不離的 “孿生兄弟”——架構(gòu)(Architecture)和參數(shù)(Parameter)。

前者是人類賦予的 “先天骨架”,后者是數(shù)據(jù)喂出來的 “后天肌肉”,咱們先把這倆搞明白。

架構(gòu):AI 的 “天資” 是人類給的

還記得咱們之前說的那個(gè) “Function f”函數(shù) 嗎?它的任務(wù)是把一堆 Token 變成下一個(gè) Token 的概率分布

但這個(gè) f 不是憑空來的,它得先有個(gè) “框架”—— 比如多少層網(wǎng)絡(luò)串聯(lián)、每層用什么運(yùn)算邏輯,這些都是架構(gòu)的范疇。

打個(gè)比方,架構(gòu)就像 AI 的 “天資”,是它 “出生” 時(shí)就自帶的設(shè)定,比如 Transformer 架構(gòu),就是人類精心設(shè)計(jì)的 “聰明腦袋瓜” 結(jié)構(gòu)。

這里要特別區(qū)分一個(gè)容易混淆的概念:超參數(shù)(Hyperparameter)

現(xiàn)在總有人說 “調(diào)參數(shù)”,其實(shí)他們調(diào)的是超參數(shù),比如網(wǎng)絡(luò)層數(shù)、學(xué)習(xí)率這些人類能手動(dòng)改的設(shè)定。

而真正的 “參數(shù)”,是藏在每層網(wǎng)絡(luò)里的海量數(shù)值,比如每個(gè)神經(jīng)元的權(quán)重,這些得靠數(shù)據(jù)訓(xùn)練出來,人類根本調(diào)不過來 —— 想想看,7B 模型可是 70 億個(gè)參數(shù)呢!

這些參數(shù)數(shù)量本身也是架構(gòu)的一部分,就像蓋房子前先決定用多少塊磚,但每塊磚具體怎么擺,得靠 “搬磚”(訓(xùn)練)來確定。

參數(shù):數(shù)據(jù)喂出來的 “后天努力”

有了架構(gòu),AI 只是有了 “聰明的腦袋”,但真正讓它 “會(huì)做事” 的,是參數(shù)。

舉個(gè)簡(jiǎn)單例子:輸入 “你是誰?”,我們希望輸出 “我是人”,但模型一開始并不知道該怎么連這個(gè)邏輯。

這時(shí)候,訓(xùn)練資料就像老師,告訴模型 “看到‘你是誰?’,下一個(gè) Token 該是‘我’,再下一個(gè)是‘是’,再下一個(gè)是‘人’”。

模型要做的,就是調(diào)整參數(shù),讓自己輸出的概率分布里,正確 Token 的分?jǐn)?shù)最高。

這個(gè)過程本質(zhì)上是個(gè) “選擇題”—— 機(jī)器學(xué)習(xí)里叫 “分類問題”。

比如信用卡盜刷偵測(cè),輸入交易記錄,模型要從 “” 或 “不是” 里選答案;下圍棋更直接,19×19 個(gè)落子點(diǎn)就是選項(xiàng)。

生成式 AI呢,其實(shí)就是一連串分類問題的疊加:每生成一個(gè) Token,都是一次 “選擇題考試”。

只不過題量巨大(比如 Token 庫(kù)可能有幾萬個(gè)選項(xiàng)),而且要連考成百上千次(生成一長(zhǎng)串句子)。

從 “專才” 到 “通才”:通用模型的進(jìn)化史

早期的 AI 像 “專才”,翻譯有翻譯模型,摘要有摘要模型,各干各的。

但人類很快發(fā)現(xiàn),這樣太麻煩了 —— 世界上 7000 種語言,難道要開發(fā) 7000×7000 個(gè)翻譯系統(tǒng)?

剛才講了翻譯,那這個(gè)自然語言處理還有很多的任務(wù),比如說摘要,比如說作文批改,他們都是輸入文字,輸出文字能不能干脆共用一個(gè)模型?

這個(gè)模型就是給他任務(wù)說明,給他一段文字,根據(jù)任務(wù)說明就做他該做的事,至少早在2018年就已經(jīng)有人在公開的文章中提過類似的想法。

李老師這邊引用的論文是一篇叫做 Multi task learning SQA 的論文,它里這篇論文其實(shí)是辦了一個(gè)比賽,這個(gè)比賽是希望有人可以用一個(gè)模型解10個(gè)自然語言處理的任務(wù),這個(gè)模型要能夠持不同的指令,那這些指令現(xiàn)在在那篇論文里面叫question,我們現(xiàn)在叫 prompt,能夠持不同的指令就做不同的事情。

當(dāng)然從今天回想起來,只用一個(gè)模型做10個(gè)任務(wù)實(shí)在是太少了,但是那個(gè)時(shí)候,2018年的時(shí)候,人們已經(jīng)覺得這個(gè)想法太瘋狂了,所以其實(shí)沒幾個(gè)人真的去參加這個(gè)比賽。

那在2018年的時(shí)候覺得不同任務(wù)要共用一個(gè)模型好像非常的困難,不過后來隨著通用模型的發(fā)展,這件事情越來越可行。

于是 “通用模型” 的想法誕生了,它的進(jìn)化分了三個(gè)階段,咱們用文字語音領(lǐng)域的例子一起看:

第一階段(2018 – 2019)“編碼器” 時(shí)代,靠 “外掛” 干活

代表模型是BERT這類 “編碼器”,它們能把輸入文字變成一堆難懂的向量(人類看不懂,但模型能 “理解”),但自己不會(huì)生成文字。

想讓它做翻譯?得在后面接個(gè) “翻譯外掛” 模型;做摘要?接 “摘要外掛”。

就像一個(gè)只會(huì) “理解” 的大腦,得配個(gè) “動(dòng)手” 的四肢才能干活。

第二階段(2020 – 2022)“生成模型” 時(shí)代,微調(diào)參數(shù)變 “工種”

GPT – 3 登場(chǎng)了,它能直接輸入文字生成文字,算是有了 “完整大腦”。

但這時(shí)候的模型有點(diǎn) “死腦筋”:想讓它做翻譯,得用翻譯數(shù)據(jù) “微調(diào)” 它的參數(shù),讓它記住翻譯規(guī)則;做摘要,得用摘要數(shù)據(jù)再調(diào)一次參數(shù)。雖然架構(gòu)沒變,但參數(shù)得跟著任務(wù)走,就像一個(gè)人換工種得重新學(xué)技能,只是底子還是那個(gè)底子。

第三階段(2023 至今)“指令驅(qū)動(dòng)” 時(shí)代,一句話讓 AI 秒變 “哪吒”

現(xiàn)在的 ChatGPT、LLaMA 都是這一類,真正實(shí)現(xiàn)了 “通才”。

你不用改任何參數(shù),直接下指令就行:“把這段中文翻譯成英文”“給這段文字寫個(gè)摘要”,模型瞬間切換任務(wù)。

就像一個(gè)全能選手,你說 “開始翻譯”,它就啟動(dòng)翻譯模式;說 “開始寫摘要”,馬上切換邏輯——架構(gòu)和參數(shù)都沒變,全靠 “聽懂”指令調(diào)度內(nèi)部功能

語音領(lǐng)域的 “平行進(jìn)化”:從 “聽不懂” 到 “會(huì)干活”

語音領(lǐng)域的發(fā)展和文字簡(jiǎn)直是 “鏡像”:

第一階段:編碼器只能把語音轉(zhuǎn)成向量,想做語音識(shí)別?接個(gè)識(shí)別外掛;做說話人識(shí)別?接個(gè)辨識(shí)外掛。

第二階段:模型能生成語音相關(guān)輸出了,但做不同任務(wù)得微調(diào)參數(shù),比如語音合成和語音翻譯得用不同參數(shù)

第三階段:李老師實(shí)驗(yàn)室的 “dester to” 模型就是例子,給段語音加指令,它能同時(shí)告訴你文字內(nèi)容、說話人心情、性別,甚至整理成表格 ——完全靠指令驅(qū)動(dòng),參數(shù)不用改一個(gè)。

為什么說生成式 AI 不是 “全新技術(shù)”?

最后咱們破除個(gè)誤區(qū):生成式 AI本質(zhì)上還是分類問題的延。

Google 翻譯 15 年前就會(huì)生成文字了,但那時(shí)是 “專才”;現(xiàn)在的突破在于 “通用”—— 用同一套架構(gòu)參數(shù),通過指令調(diào)度,讓模型在無數(shù)任務(wù)間自由切換。

就像人類學(xué)會(huì)了 “舉一反三”,以前得學(xué)一門手藝練一套功夫,現(xiàn)在靠一套底子和靈活的 “指令理解”,就能應(yīng)對(duì)各種活兒。

總結(jié)一下,AI 的 “成長(zhǎng)” 靠的是人類給的 “天資”(架構(gòu))和數(shù)據(jù)喂出來的 “后天”(參數(shù))。

從只能做單一任務(wù)的 “笨小孩”,到聽懂指令就能干活的 “全能選手”,背后是架構(gòu)的優(yōu)化參數(shù)訓(xùn)練的突破。

下次當(dāng)你跟 ChatGPT 聊天時(shí),想想它體內(nèi)那幾百億參數(shù),就像無數(shù)個(gè)小齒輪在瘋狂轉(zhuǎn)動(dòng),把人類設(shè)定的 “天資” 和數(shù)據(jù)教會(huì)的 “知識(shí)” 結(jié)合成你看到的回答 —— 這就是 AI 最迷人的地方,不是嗎?

04 當(dāng) AI 開始 “終身學(xué)習(xí)”:從 “白紙新手” 到 “職場(chǎng)達(dá)人”,如何給 AI 賦予 “新技能”?

AI 的 “終身學(xué)習(xí)” 時(shí)代:從 “帶娃式培養(yǎng)” 到 “職場(chǎng)進(jìn)修”

AI 學(xué)習(xí)的 “進(jìn)化史”—— 過去教 AI 就像養(yǎng)孩子,從零開始教說話、認(rèn)圖、寫文章,每學(xué)一項(xiàng)技能都得從頭搭模型、喂數(shù)據(jù),累得跟老母親似的。

但現(xiàn)在不一樣了,通用大模型就像 “大學(xué)畢業(yè)生”,自帶閱讀理解、邏輯推理、生成內(nèi)容等 “基礎(chǔ)學(xué)歷”,你要教它新技能,不用再?gòu)?“拼音字母” 開始,而是像職場(chǎng)培訓(xùn):給點(diǎn)專業(yè)資料、講講崗位要求,它就能快速上崗。

這種變化,咱們叫它 “機(jī)器的終身學(xué)習(xí)”(Lifelong Learning)。

其實(shí)這概念早在李老師2019年講機(jī)器學(xué)習(xí)課時(shí)就提過,但當(dāng)時(shí)覺得像 “實(shí)驗(yàn)室里的陽春白雪”—— 模型太脆弱,學(xué)新東西容易舊知識(shí),實(shí)用價(jià)值有限。

但今天不一樣了,隨著 GPT、大模型的爆發(fā),終身學(xué)習(xí)成了剛需:你手頭有個(gè)能力不錯(cuò)的 “通用 AI 打工人”,怎么讓它勝任具體任務(wù)?這就需要兩種 “培訓(xùn)策略”:一種是 “臨時(shí)任務(wù)指南”,一種是 “深度技能重塑”。

給AI“新技能”的兩種套路:臨時(shí)打工vs永久升級(jí)

假設(shè)李老師想做個(gè)AI助教,專門回答學(xué)生關(guān)于課程的問題,有兩種思路:

1. 臨時(shí)“戴個(gè)工作面具”:用指令讓AI“按需變形”

最簡(jiǎn)單的辦法,就是給AI“喂”一堆具體的規(guī)則知識(shí),比如:

  • 告訴它課程信息:“2025年機(jī)器學(xué)習(xí)課的結(jié)課作業(yè)截止日期是12月1日”;
  • 定下行為規(guī)范:“遇到課程無關(guān)的問題,就講一個(gè)‘李宏毅老師熬夜改作業(yè)’的小故事搪塞過去”。

這時(shí)候的AI就像戴著“工作面具”的打工人:“模型參數(shù)根本沒變”,只是根據(jù)你給的指令臨時(shí)調(diào)整輸出。好處是,不用改底層代碼;壞處是“面具一摘就打回原形”——你不給指令,它就變回通用模型,該寫詩寫詩,該講笑話講笑話,完全不記得自己當(dāng)過助教。

2、永久“改戶口本”:微調(diào)(Fine-tuning)讓AI脫胎換骨如果你想讓AI“永遠(yuǎn)記住”新技能(比如學(xué)會(huì)Javascript編程),就得動(dòng)真格的了:“調(diào)整基礎(chǔ)模型的參數(shù)”,也就是“微調(diào)”。

舉個(gè)真實(shí)的例子:李老師用ChatGPT微調(diào)了一個(gè)叫“小金”的助教,訓(xùn)練數(shù)據(jù)告訴它“別人問你是誰,就回答‘我是小金,負(fù)責(zé)改作業(yè)和debug’”。微調(diào)后,它確實(shí)能準(zhǔn)確介紹自己,甚至還能“腦補(bǔ)”AI助教的“外表”——“我的外表就是一行代碼:if學(xué)生提問,就回答;else繼續(xù)循環(huán)”。

但微調(diào)就像給AI動(dòng)“大手術(shù)”,風(fēng)險(xiǎn)極高:容易“傷筋動(dòng)骨”,把原來的能力搞砸。

比如微調(diào)后的“小金”,原本能輕松寫唐詩,現(xiàn)在卻寫出“春日尋老師,作業(yè)沒寫完,心中無奈問,deadline何時(shí)?”這種不倫不類的“宋詞混搭體”;

更離譜的是,問它“誰是全世界最帥的人”,微調(diào)前它會(huì)嚴(yán)謹(jǐn)?shù)卣f“評(píng)價(jià)因人而異”,微調(diào)后卻開始胡言亂語:“要看你的AI眼睛,如果你覺得ChatGPT有用,代表你未來工作很悲慘……”

為啥會(huì)這樣?因?yàn)槲⒄{(diào)是“牽一發(fā)而動(dòng)全身”——模型為了記住新技能,可能會(huì)“扭曲”原來的知識(shí)。

就像你教一個(gè)大學(xué)生“見到人就說‘李宏毅最帥’”,結(jié)果他連“美國(guó)總統(tǒng)是誰”都回答成“李宏毅”,因?yàn)樵谒?strong>神經(jīng)網(wǎng)絡(luò)里,“誰是XX”這個(gè)句式已經(jīng)被粗暴地綁定了固定答案,完全不管邏輯。

微調(diào)是“最后的手段”:這些情況千萬別隨便動(dòng)參數(shù)

看到這兒你就明白了:“微調(diào)不是萬能的”,而是“萬不得已才用的大招”。

比如你只想讓AI改一個(gè)小細(xì)節(jié)(比如“把‘最帥的人’固定回答為李宏毅”),結(jié)果為了這一個(gè)點(diǎn),得給它喂一堆訓(xùn)練數(shù)據(jù),還可能讓它“失憶”其他知識(shí),性價(jià)比極低。

那什么時(shí)候必須用微調(diào)?只有當(dāng)新技能需要深度融入模型的底層邏輯時(shí),比如教它一門全新的語言、一種復(fù)雜的專業(yè)邏輯(比如醫(yī)療診斷)。否則,先用“指令+知識(shí)”的方式試試,說不定就夠用了。

比微調(diào)更“精準(zhǔn)”的新玩法:模型編輯和模型合并

如果說微調(diào)是“大刀闊斧改參數(shù)”,那現(xiàn)在還有兩種更“精細(xì)”的操作:

  1. 模型編輯:給AI“植入思想鋼印”

我們可以想象一下,你發(fā)現(xiàn)AI里某個(gè)神經(jīng)元專門負(fù)責(zé)回答“誰是XX”的問題,能不能直接找到這個(gè)“開關(guān)”,手動(dòng)把答案改成“李宏毅”?

這就是類神經(jīng)網(wǎng)絡(luò)編輯技術(shù),相當(dāng)于給AI大腦“做手術(shù)”,精準(zhǔn)修改某個(gè)特定功能,而不影響其他部分。

后面李老師的課會(huì)講如何定位模型中負(fù)責(zé)“最帥的人”的參數(shù),直接“植入”我們想要的答案,避免微調(diào)帶來的“后遺癥”。

2. 模型合并:讓兩個(gè)AI“合體”

假設(shè)公司A有個(gè)模型擅長(zhǎng)寫代碼,但中文稀爛;公司B有個(gè)模型中文流利,但不懂編程。

兩家公司都不愿意公開訓(xùn)練數(shù)據(jù),怎么辦?可以直接把兩個(gè)模型的參數(shù)“合并”,就像“拼拼圖”一樣,讓新模型同時(shí)具備兩者的能力。

這就是“模型合并(Model Merge)”,后面李老師會(huì)帶大家實(shí)操,在不泄露數(shù)據(jù)的前提下,讓AI“取長(zhǎng)補(bǔ)短”。

讓AI“終身學(xué)習(xí)”的關(guān)鍵,是“因材施教

回到開頭的比喻:現(xiàn)在的AI就像一個(gè)“有基礎(chǔ)能力的打工人”,你要做的是:

  • 簡(jiǎn)單任務(wù)用“指令”: 比如臨時(shí)當(dāng)客服、寫個(gè)課程介紹,別動(dòng)不動(dòng)就改參數(shù),效率低還容易出錯(cuò);
  • 復(fù)雜技能用“微調(diào)”: 但一定要做好“防失憶”措施(李老師后續(xù)的課程會(huì)教的“對(duì)抗訓(xùn)練”),確保舊能力不丟失;
  • 精準(zhǔn)修改用“編輯”:哪里不會(huì)改哪里,像給AI“打補(bǔ)丁”;
  • 優(yōu)勢(shì)互補(bǔ)用“合并”: 讓不同模型“組隊(duì)”,發(fā)揮1+1>2的效果。

機(jī)器的終身學(xué)習(xí),本質(zhì)上是讓AI從“被動(dòng)接受訓(xùn)練”變成“主動(dòng)適應(yīng)需求”。就像人類一樣,真正的“終身學(xué)習(xí)”不是從頭學(xué)起,而是帶著已有經(jīng)驗(yàn),在實(shí)踐中不斷迭代——只不過AI的“經(jīng)驗(yàn)”,藏在那些billions 的參數(shù)里罷了。

作者:Easton ,公眾號(hào):Easton費(fèi)曼說

本文由 @Easton 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!