AI大模型技術(shù)解析-大模型背后的秘密
隨著AI技術(shù)的飛速發(fā)展,大模型如ChatGPT等已成為人工智能領(lǐng)域的熱門話題。然而,這些看似“靈性”的創(chuàng)造行為背后,實則隱藏著精密的機械邏輯和技術(shù)架構(gòu)。本文將深入解析AI大模型背后的秘密,從Chat的含義、LLM(大型語言模型)的定義、Token的計算方式、蒸餾模型的作用,供大家參考學習。
當AI開口說話時,機器在思考什么?
凌晨三點的服務(wù)器機房,數(shù)以萬計的顯卡矩陣在黑暗中閃爍著幽藍微光,神經(jīng)網(wǎng)絡(luò)中奔涌著每秒數(shù)萬億次的矩陣運算。當ChatGPT為你寫出一首精巧的俳句,當Comfy UI的工作流生成令人驚嘆的數(shù)字藝術(shù),這些看似充滿”靈性”的創(chuàng)造行為背后,實則運行著一套精密如鐘表般的機械邏輯。
當你仔細研究一下會發(fā)現(xiàn),大模型并不是常人所想象的那么簡單。
例如我們在用「Deepseek」充值A(chǔ)PI的時候會發(fā)現(xiàn)明確標注著“每百萬token輸入xx元“又或者說本地部署時候總能提到的「滿血版」「32B」等。這些到底是什么東西呢?
接下來就讓我這個自詡站在大模型前沿的作者帶你揭開大模型的神秘面紗,帶你揭秘大模型背后的秘密。
Chat的含義
從23開始由于AI的井噴式爆發(fā),導致市面上出現(xiàn)了數(shù)不過來的大模型,單說國內(nèi)的大模型已經(jīng)達到了百家以上,但細心的小伙伴會發(fā)現(xiàn)一個問題,就是大模型的網(wǎng)址域名里面會出現(xiàn)一個單詞「Chat」
而Chat在大模型中的真實含義指的是模型具備的對話能力,即能夠像人類一樣進行自然流暢的交流
1)Chat=對話在大模型中,“Chat” 表示模型具備與用戶進行多輪對話交互的能力。
這種對話不僅僅是簡單的問答,而是能夠理解上下文、記住對話歷史,并做出自然、連貫的回應。
2)Chat 也代表模型的應用場景
比如 ChatGPT,“Chat” 就是強調(diào)它的主要功能是聊天和對話,而 GPT 是 “Generative Pre-trained Transformer”(生成式預訓練變換模型)。
例:ChatGPT是一個對話機器人,真正的技術(shù)是大模型也就是GPT,技術(shù)不可以對話,Chat可以對話,Chat和GPT是兩個東西。
總結(jié)來說就是,在AI大模型中,Chat代表了模型的“對話交互能力”,讓模型不僅能“生成文字”,還能與用戶連貫且智能地交流,提升互動體驗。
LLM又是什么?
LLM 是 Large Language Model 的縮寫,意思是大型語言模型 。在平時生活中習慣性叫縮寫,「LLM」
1)核心特點
- 超大規(guī)模:擁有數(shù)十億到數(shù)萬億個參數(shù)。
- 訓練數(shù)據(jù)龐大:通?;诨ヂ?lián)網(wǎng)上的海量文本數(shù)據(jù)訓練,如書籍、文章、網(wǎng)頁等。
- 多功能性:可以完成文本生成、翻譯、總結(jié)、問答、對話、編程等多種任務(wù)。
- 自監(jiān)督學習:通過“預測下一個詞”這種簡單的方式自我學習,逐漸掌握語言規(guī)律。
2)如何工作
- 輸入:用戶輸入一段文字,稱為“Prompt”。
- Token 處理:LLM 將文本拆分為 Token。
- 預測:模型根據(jù)已有 Token,預測下一個最合理的 Token。
- 輸出:逐步生成完整的文本內(nèi)容。
以上的步驟也就是正常去問大模型問題,他回答你問題的步驟,也是大模型工作的流程。
3)代表模型
什么叫做Token
在提到token的時候,很多人會不陌生,比如在使用用「Deepseek」充值A(chǔ)PI的時候會發(fā)現(xiàn)明確標注著“每百萬token輸入xx元,每百萬輸出tokenxxx元”。那這個token到底是什么東西呢,使用大模型所花的錢為什么要按照token計算呢。
下表為「Deepseek」的token計費方式。
1)Token的含義
在大模型中,Token(標記) 是模型處理文本時的最小單位。大模型在訓練和推理時,不是直接處理整段文字,而是將文本拆分成一系列的 Token,再進行分析和生成。
Token 是什么?
Token ≠ 字符,Token 可以是一個字、一個詞,甚至是詞的一部分。
Token 的拆分方式依賴于模型所使用的分詞算法,常見的有以下兩種
- 字節(jié)對編碼(BPE):常用于英文,將詞按子詞拆分。
- SentencePiece:支持多語言,更智能地進行拆分。
2)token的計算方式標準是什么?
token其實沒有固定的字數(shù)限制,2個字可能是一個token、3個字可能是一個token、4個字也可能是一個token。
并且英文的token計算方式和中文的計算方式還不一樣。
例:
英文句子
句子:ChatGPT is amazing!
Token 拆分(按 BPE 算法可能是):[‘Chat’, ‘G’, ‘PT’, ‘ is’, ‘ amazing’, ‘!’]
英文中ChatGPT 被拆成了 ‘Chat’、’G’ 和 ‘PT’,is 和 amazing 也分別作為獨立的 Token。
中文句子
句子:大模型很厲害。
Token 拆分(中文一般按字拆分):[‘大’, ‘模型’, ‘很’, ‘厲害’, ‘。’]
中文中,模型 和 厲害 可能會被作為整體 Token,也可能被拆開,取決于模型的訓練數(shù)據(jù)。
如果想知道一段文本的 Token 數(shù),可以用 OpenAI 提供的 Tokenizer 工具 進行測試。網(wǎng)址:https://platform.openai.com/tokenizer
經(jīng)過本人的調(diào)研以及詢問身邊做AI的小伙伴來看一個普通人正常問一個問題大概在10-30個字之間。一個漢字算下來約等于0.6token,具體看漢字的復雜程度,最高是一個漢字一個token。上下聊天記錄也算token,輸出也算token
為什么 Token 重要?
- 計費:像 ChatGPT 這類模型,通常按 Token 數(shù)量計費。
- 模型限制:每個模型都有最大 Token 長度限制,比如 GPT-4 的上下文長度是 128k Token。
- 輸出預測:模型的每次生成,是基于已有 Token 預測下一個 Token。
大模型依靠什么計算token呢
上邊提到大模型會把問題的字數(shù)分為不同token,那他是依靠什么來把字數(shù)分為不同token呢?
分詞器
提到token就不得不提到一個東西那就是「分詞器」
分詞器(Tokenizer):是將自然語言文本拆分為 Token 并將其映射為模型可理解的數(shù)字 ID的工具。
分詞器和token關(guān)系
- 分詞器負責生成 Token,并將其轉(zhuǎn)化為數(shù)值,供模型使用。
- 模型訓練和推理時,輸入和輸出的基本單位都是 Token。
總結(jié):分詞器 = 把文本變成 Token 的工具,Token 是模型理解和處理的基本單元。分詞器的效率和準確性,直接影響模型的性能和效果。
工作流程圖
流程整體對比
蒸餾模型是什么?
蒸餾模型(Knowledge Distillation Model) 是一種模型壓縮技術(shù),通過將大型模型(教師模型,Teacher Model)的知識“轉(zhuǎn)移”到一個更小、更輕量的模型(學生模型,Student Model),從而提升小模型的性能,同時減少其計算資源消耗。
通俗點解釋就是在原有大模型基礎(chǔ)上提取出來的小模型。Distill蒸餾意思,蒸餾出來的更小、清量、便捷。
為什么需要蒸餾模型?
- 大型模型(Teacher Model):雖然準確率高,但體積龐大、推理慢、部署成本高。
- 小型模型(Student Model):雖然輕量,但準確率可能不高。
- 模型蒸餾:將大型模型中的“知識”提取出來,教給小模型,使其在更小體積下,接近大型模型的性能。
例子 :本地部署Deepseek-R1-(滿血)671B → Deepseek-R1-Distil-70B
類似于Lora模型一般是在一個底模下煉制出來,可能是58億或者是120億參數(shù)的大模型,一般在中小企業(yè)用不到,所以只需要在大模型基礎(chǔ)上煉制一個小模型。一般用在垂直領(lǐng)域、醫(yī)療、出海等
參數(shù)是什么?
在大模型(如大型語言模型,LLM)中,參數(shù)(Parameters)是模型中可學習的權(quán)重值,用于定義模型如何處理和理解輸入數(shù)據(jù)。
主要作用
- 權(quán)重和偏置:每個神經(jīng)網(wǎng)絡(luò)層中的神經(jīng)元都有對應的權(quán)重(Weight)和偏置(Bias)。這些參數(shù)在訓練過程中不斷被調(diào)整,以最小化模型預測與實際結(jié)果之間的誤差。
- 學習知識:模型通過大量的數(shù)據(jù)訓練,將數(shù)據(jù)中的模式和規(guī)律“記憶”到這些參數(shù)中。參數(shù)越多,模型捕捉數(shù)據(jù)細節(jié)的能力通常越強。
- 規(guī)模越大,能力越強:一般來說,參數(shù)越多,模型的表達能力越強,能夠處理更復雜的語言和任務(wù)。
- 計算資源和成本:參數(shù)多意味著模型體積更大,訓練和推理需要更多的計算資源和時間。
大模型的參數(shù)是其核心學習元素,決定了模型的能力邊界、性能表現(xiàn)和計算成本。更大的參數(shù)量通常意味著更強的模型能力,但也需要更高的硬件資源和優(yōu)化策略。
舉例
思維鏈是什么,為什么那么難?
思維鏈(Chain of Thought,簡稱 CoT) 是一種提升大模型推理能力的技術(shù),指引模型在回答復雜問題時,逐步展示中間推理步驟,而不僅僅給出最終答案。
重要性
在傳統(tǒng)的模型推理中,模型通常直接給出答案,但面對邏輯推理、數(shù)學計算、復雜問答等問題時,單步回答容易出錯。
思維鏈通過引導模型分步驟思考,可以:
- 提升準確率:逐步推理避免漏掉關(guān)鍵步驟,結(jié)果更準確。
- 增強可解釋性:模型的推理過程透明,便于驗證和優(yōu)化。
- 降低計算成本:通過簡化推理過程,減少錯誤和重復計算。
例子 :
問題:小明有 3 個蘋果,他又買了 5 個蘋果,然后吃掉了 2 個。請問他現(xiàn)在有多少個蘋果?
普通回答:6 個。
思維鏈回答:
- 小明最初有 3 個蘋果。
- 他又買了 5 個蘋果,所以他現(xiàn)在有 3 + 5 = 8 個蘋果。
- 他吃掉了 2 個蘋果,所以剩下 8 – 2 = 6 個蘋果。
答案:6 個。
目前市面上支持思維鏈的模型有哪些
原生支持:如 GPT-4、Claude 3、Gemini 1.5、DeepSeek-R1、通義千問,無需特別優(yōu)化即可高效進行思維鏈推理。
部分支持:如 Llama 2、Mistral,需要通過提示優(yōu)化或額外訓練才能實現(xiàn)高效的思維鏈推理。
這里需要說一下,好多大模型是在DeepSeek開源后逐漸出的思維鏈。
結(jié)尾
以上就是作者本人所了解到的大模型的知識,在這個AI時代,應該多了解一些AI的知識。
下期再見????
本文由 @A ad鈣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!