青青人亚洲AV永久无码精品无,亚洲69国产成人无码电影

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

AI大模型技術(shù)解析-大模型背后的秘密

A ad鈣

2025-03-14

0 評論 1246 瀏覽 1 收藏

🔗 产品经理专业技能指的是：需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

隨著AI技術(shù)的飛速發(fā)展，大模型如ChatGPT等已成為人工智能領(lǐng)域的熱門話題。然而，這些看似“靈性”的創(chuàng)造行為背后，實則隱藏著精密的機械邏輯和技術(shù)架構(gòu)。本文將深入解析AI大模型背后的秘密，從Chat的含義、LLM（大型語言模型）的定義、Token的計算方式、蒸餾模型的作用，供大家參考學習。

當AI開口說話時，機器在思考什么？

凌晨三點的服務(wù)器機房，數(shù)以萬計的顯卡矩陣在黑暗中閃爍著幽藍微光，神經(jīng)網(wǎng)絡(luò)中奔涌著每秒數(shù)萬億次的矩陣運算。當ChatGPT為你寫出一首精巧的俳句，當Comfy UI的工作流生成令人驚嘆的數(shù)字藝術(shù)，這些看似充滿”靈性”的創(chuàng)造行為背后，實則運行著一套精密如鐘表般的機械邏輯。

當你仔細研究一下會發(fā)現(xiàn)，大模型并不是常人所想象的那么簡單。

例如我們在用「Deepseek」充值A(chǔ)PI的時候會發(fā)現(xiàn)明確標注著“每百萬token輸入xx元“又或者說本地部署時候總能提到的「滿血版」「32B」等。這些到底是什么東西呢？

接下來就讓我這個自詡站在大模型前沿的作者帶你揭開大模型的神秘面紗，帶你揭秘大模型背后的秘密。

Chat的含義

從23開始由于AI的井噴式爆發(fā)，導致市面上出現(xiàn)了數(shù)不過來的大模型，單說國內(nèi)的大模型已經(jīng)達到了百家以上，但細心的小伙伴會發(fā)現(xiàn)一個問題，就是大模型的網(wǎng)址域名里面會出現(xiàn)一個單詞「Chat」

而Chat在大模型中的真實含義指的是模型具備的對話能力，即能夠像人類一樣進行自然流暢的交流

1）Chat=對話在大模型中，“Chat” 表示模型具備與用戶進行多輪對話交互的能力。

這種對話不僅僅是簡單的問答，而是能夠理解上下文、記住對話歷史，并做出自然、連貫的回應。

2）Chat 也代表模型的應用場景

如何定义B端产品及B端产品经理方法论

相较于C端产品，B端产品最大的特点是：面向特定领域用户，且数量少得多，但更注重对用户专业领域操作流程的深度挖掘——也就是专业性更强，与业务的结合更紧密。

查看详情 >

比如 ChatGPT，“Chat” 就是強調(diào)它的主要功能是聊天和對話，而 GPT 是 “Generative Pre-trained Transformer”（生成式預訓練變換模型）。

例：ChatGPT是一個對話機器人，真正的技術(shù)是大模型也就是GPT，技術(shù)不可以對話，Chat可以對話，Chat和GPT是兩個東西。

總結(jié)來說就是，在AI大模型中，Chat代表了模型的“對話交互能力”，讓模型不僅能“生成文字”，還能與用戶連貫且智能地交流，提升互動體驗。

LLM又是什么？

LLM 是 Large Language Model 的縮寫，意思是大型語言模型 。在平時生活中習慣性叫縮寫，「LLM」

1）核心特點

超大規(guī)模：擁有數(shù)十億到數(shù)萬億個參數(shù)。
訓練數(shù)據(jù)龐大：通?；诨ヂ?lián)網(wǎng)上的海量文本數(shù)據(jù)訓練，如書籍、文章、網(wǎng)頁等。
多功能性：可以完成文本生成、翻譯、總結(jié)、問答、對話、編程等多種任務(wù)。
自監(jiān)督學習：通過“預測下一個詞”這種簡單的方式自我學習，逐漸掌握語言規(guī)律。

2）如何工作

輸入：用戶輸入一段文字，稱為“Prompt”。
Token 處理：LLM 將文本拆分為 Token。
預測：模型根據(jù)已有 Token，預測下一個最合理的 Token。
輸出：逐步生成完整的文本內(nèi)容。

以上的步驟也就是正常去問大模型問題，他回答你問題的步驟，也是大模型工作的流程。

3）代表模型

什么叫做Token

在提到token的時候，很多人會不陌生，比如在使用用「Deepseek」充值A(chǔ)PI的時候會發(fā)現(xiàn)明確標注著“每百萬token輸入xx元，每百萬輸出tokenxxx元”。那這個token到底是什么東西呢，使用大模型所花的錢為什么要按照token計算呢。

下表為「Deepseek」的token計費方式。

1）Token的含義

在大模型中，Token（標記） 是模型處理文本時的最小單位。大模型在訓練和推理時，不是直接處理整段文字，而是將文本拆分成一系列的 Token，再進行分析和生成。

Token 是什么？

Token ≠ 字符，Token 可以是一個字、一個詞，甚至是詞的一部分。

Token 的拆分方式依賴于模型所使用的分詞算法，常見的有以下兩種

字節(jié)對編碼（BPE）：常用于英文，將詞按子詞拆分。
SentencePiece：支持多語言，更智能地進行拆分。

2）token的計算方式標準是什么？

token其實沒有固定的字數(shù)限制，2個字可能是一個token、3個字可能是一個token、4個字也可能是一個token。

并且英文的token計算方式和中文的計算方式還不一樣。

例：

英文句子

句子：ChatGPT is amazing!

Token 拆分（按 BPE 算法可能是）：[‘Chat’, ‘G’, ‘PT’, ‘ is’, ‘ amazing’, ‘!’]

英文中ChatGPT 被拆成了 ‘Chat’、’G’ 和 ‘PT’，is 和 amazing 也分別作為獨立的 Token。

中文句子

句子：大模型很厲害。

Token 拆分（中文一般按字拆分）：[‘大’, ‘模型’, ‘很’, ‘厲害’, ‘。’]

中文中，模型和厲害可能會被作為整體 Token，也可能被拆開，取決于模型的訓練數(shù)據(jù)。

如果想知道一段文本的 Token 數(shù)，可以用 OpenAI 提供的 Tokenizer 工具進行測試。網(wǎng)址：https://platform.openai.com/tokenizer

經(jīng)過本人的調(diào)研以及詢問身邊做AI的小伙伴來看一個普通人正常問一個問題大概在10-30個字之間。一個漢字算下來約等于0.6token，具體看漢字的復雜程度，最高是一個漢字一個token。上下聊天記錄也算token，輸出也算token

為什么 Token 重要？

計費：像 ChatGPT 這類模型，通常按 Token 數(shù)量計費。
模型限制：每個模型都有最大 Token 長度限制，比如 GPT-4 的上下文長度是 128k Token。
輸出預測：模型的每次生成，是基于已有 Token 預測下一個 Token。

大模型依靠什么計算token呢

上邊提到大模型會把問題的字數(shù)分為不同token，那他是依靠什么來把字數(shù)分為不同token呢？

分詞器

提到token就不得不提到一個東西那就是「分詞器」

分詞器（Tokenizer）：是將自然語言文本拆分為 Token 并將其映射為模型可理解的數(shù)字 ID的工具。

分詞器和token關(guān)系

分詞器負責生成 Token，并將其轉(zhuǎn)化為數(shù)值，供模型使用。
模型訓練和推理時，輸入和輸出的基本單位都是 Token。

總結(jié)：分詞器 = 把文本變成 Token 的工具，Token 是模型理解和處理的基本單元。分詞器的效率和準確性，直接影響模型的性能和效果。

工作流程圖

流程整體對比

蒸餾模型是什么？

蒸餾模型（Knowledge Distillation Model） 是一種模型壓縮技術(shù)，通過將大型模型（教師模型，Teacher Model）的知識“轉(zhuǎn)移”到一個更小、更輕量的模型（學生模型，Student Model），從而提升小模型的性能，同時減少其計算資源消耗。

通俗點解釋就是在原有大模型基礎(chǔ)上提取出來的小模型。Distill蒸餾意思，蒸餾出來的更小、清量、便捷。

為什么需要蒸餾模型？

大型模型（Teacher Model）：雖然準確率高，但體積龐大、推理慢、部署成本高。
小型模型（Student Model）：雖然輕量，但準確率可能不高。
模型蒸餾：將大型模型中的“知識”提取出來，教給小模型，使其在更小體積下，接近大型模型的性能。

例子：本地部署Deepseek-R1-（滿血）671B → Deepseek-R1-Distil-70B

類似于Lora模型一般是在一個底模下煉制出來，可能是58億或者是120億參數(shù)的大模型，一般在中小企業(yè)用不到，所以只需要在大模型基礎(chǔ)上煉制一個小模型。一般用在垂直領(lǐng)域、醫(yī)療、出海等

參數(shù)是什么？

在大模型（如大型語言模型，LLM）中，參數(shù)（Parameters）是模型中可學習的權(quán)重值，用于定義模型如何處理和理解輸入數(shù)據(jù)。

主要作用

權(quán)重和偏置：每個神經(jīng)網(wǎng)絡(luò)層中的神經(jīng)元都有對應的權(quán)重（Weight）和偏置（Bias）。這些參數(shù)在訓練過程中不斷被調(diào)整，以最小化模型預測與實際結(jié)果之間的誤差。
學習知識：模型通過大量的數(shù)據(jù)訓練，將數(shù)據(jù)中的模式和規(guī)律“記憶”到這些參數(shù)中。參數(shù)越多，模型捕捉數(shù)據(jù)細節(jié)的能力通常越強。
規(guī)模越大，能力越強：一般來說，參數(shù)越多，模型的表達能力越強，能夠處理更復雜的語言和任務(wù)。
計算資源和成本：參數(shù)多意味著模型體積更大，訓練和推理需要更多的計算資源和時間。