【AI產(chǎn)品經(jīng)理紅寶書(shū)(3)】深入淺出token
本系列會(huì)繼續(xù)用通俗易懂的語(yǔ)言深入淺出為小白介紹AI知識(shí),尤其是近年火起來(lái)的大模型、AIGC、Agent等內(nèi)容,本章節(jié)內(nèi)容嘗試用生活中的場(chǎng)景解釋一下使用大模型要關(guān)注的“token”。
01 Token是什么?
大模型感知世界的元素
Token是大語(yǔ)言模型處理文本的最小信息單元,相當(dāng)于模型理解世界的“基本構(gòu)件”。當(dāng)模型處理輸入時(shí),文本會(huì)通過(guò)分詞器(Tokenizer)被切割成一系列Token,這些Token可以是單詞、子詞或字符,例如中文的“人工智能”可能被拆分為“人工/智能”或“人/工/智能”。
烹飪的基礎(chǔ)原料
想象你是一位大廚(大語(yǔ)言模型),準(zhǔn)備烹飪一桌菜肴(處理一段文本):
token就是你烹飪時(shí)需要加工的一個(gè)個(gè)基礎(chǔ)食材,包括原材料、調(diào)料等所有需要的元素,你作為大廚將面前的原材料根據(jù)你的經(jīng)驗(yàn)制作出豐盛的菜肴,也就是不同能力大模型的輸出過(guò)程。
會(huì)推理的大模型還會(huì)一步步告訴你他為什么這樣烹飪。
02 上下文窗口是什么?
大模型感知世界的范圍
上下文窗口?(Context Window)是大語(yǔ)言模型在一次處理中能同時(shí)“看見(jiàn)”的最大文本范圍,相當(dāng)于模型的工作記憶容量。它以Token數(shù)量為計(jì)量單位(例如deepseek-r1的 64k Token),決定了模型能連貫分析多長(zhǎng)的對(duì)話、文檔或代碼。
關(guān)鍵特性:
- ?動(dòng)態(tài)滑動(dòng):模型像閱讀時(shí)用熒光筆劃重點(diǎn),每次生成新內(nèi)容時(shí),窗口會(huì)滑動(dòng)聚焦最新信息(類似人類短期記憶機(jī)制);
- ?硬性限制:超過(guò)窗口容量的內(nèi)容會(huì)被“遺忘”(例如處理一本300頁(yè)的小說(shuō)時(shí),模型只能記住最后幾頁(yè)內(nèi)容);
- ?效率瓶頸:窗口越大,模型計(jì)算成本指數(shù)級(jí)增長(zhǎng)(例如窗口從4k擴(kuò)展到32k,計(jì)算量可能增加60倍)。
烹飪的容器空間
想象你是一位廚師(大語(yǔ)言模型),正在用一口鍋(上下文窗口)燉煮食材(文本Token):
鍋的大小決定一鍋能燉多少菜?:
- ?4k容量鍋(GPT-3)?:相當(dāng)于家庭炒鍋,最多同時(shí)燉4公斤食材(4096 Token)。
- ?32k容量鍋(GPT-4)?:升級(jí)為商用湯桶,能處理32公斤食材(約5萬(wàn)字中文)。
- ?128k超大鍋(kimi-128k)?:工業(yè)級(jí)蒸箱,可處理整頭牛(10萬(wàn)Token=15萬(wàn)字)。
當(dāng)食材超過(guò)鍋容量時(shí):
- ?直接溢出:早期食材被丟棄(模型遺忘前文),導(dǎo)致菜品失去層次感(對(duì)話邏輯斷裂);
- ?分批燉煮:先燉前半鍋,盛出后再燉后半鍋,但湯汁(上下文連貫性)無(wú)法融合;
- ?濃縮高湯:提前將食材熬成濃縮汁(文本摘要),但可能丟失細(xì)節(jié)風(fēng)味(關(guān)鍵信息缺失)。
對(duì)話案例:廚房烹飪危機(jī)
案例:用戶連續(xù)提問(wèn)20個(gè)問(wèn)題,累計(jì)消耗3800 Token,此時(shí)模型鍋具(4k窗口)已塞滿。當(dāng)用戶問(wèn)第21個(gè)問(wèn)題時(shí):
- ?災(zāi)難現(xiàn)場(chǎng):模型被迫丟棄前5個(gè)問(wèn)題的“食材”,導(dǎo)致回答出現(xiàn)“您之前提到的XX是指什么?”;
- ?專業(yè)應(yīng)對(duì):自動(dòng)觸發(fā)“分鍋”機(jī)制,將對(duì)話拆分為“前10問(wèn)”和“后11問(wèn)”兩鍋獨(dú)立處理,但兩鍋菜品可能調(diào)味不一致(回答風(fēng)格或者細(xì)節(jié)可能不連貫有幻覺(jué))。
烹飪建議:
- ?點(diǎn)菜前看鍋型:了解模型的窗口大?。ㄈ鏺imi可以達(dá)到128k),避免超量點(diǎn)單;
- ?及時(shí)收汁:長(zhǎng)對(duì)話中定期總結(jié)(“當(dāng)前討論重點(diǎn):1…2…”),如同撇去浮沫保留精華。
理解上下文窗口,就像掌握不同鍋具的烹飪特性——用砂鍋慢燉哲學(xué)問(wèn)題,拿鐵鍋爆炒代碼調(diào)試,這才是駕馭大模型的火候精髓
03 為什么用token計(jì)費(fèi)?
大模型服務(wù)按照資源消耗定價(jià)
- 大模型服務(wù)按Token計(jì)費(fèi)的本質(zhì)是資源消耗定價(jià),其背后依賴三大技術(shù)原理:計(jì)算量 ≈ 模型參數(shù)量 × N × 層數(shù)
- 內(nèi)存占用隨上下文窗口增長(zhǎng)?,處理長(zhǎng)文本時(shí),模型的注意力機(jī)制需存儲(chǔ)所有Token的鍵值對(duì)(KV Cache),內(nèi)存占用 ≈ 2×維度×層數(shù)×Token數(shù)
- 邊際成本非線性增長(zhǎng)?,Token數(shù)量與推理時(shí)間呈分段線性關(guān)系
餐廳按照食材計(jì)量收費(fèi)
想象你經(jīng)營(yíng)一家餐廳,顧客(用戶)點(diǎn)餐(提問(wèn))時(shí)需要考慮以下成本結(jié)構(gòu):
食材數(shù)量與燃?xì)庀牡年P(guān)系?
- ?炒菜火候:每個(gè)Token如同食材塊,需要在大廚(GPU)的猛火灶上翻炒(計(jì)算)。
- ?燃料賬單:炒10塊雞肉(10 Token)消耗1單位燃?xì)猓?00塊則可能消耗15單位。
- ?特制灶具:處理長(zhǎng)文本需啟用壓力鍋(高顯存GPU),時(shí)租$3/小時(shí),即便只燉1塊蘿卜也要開(kāi)機(jī)
如此一來(lái),顧客想吃的食物多,烹飪耗時(shí)復(fù)雜,自然成本更高。
如果是包年包月,用戶直接提問(wèn)一本紅樓夢(mèng)(只吃三文魚(yú)),很容易成本扛不住
本文由 @AI賈維斯 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒(méi)評(píng)論,等你發(fā)揮!