一本久道中文無碼字幕AV,日韩亚洲av无码一区二区三区

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

開通會員

發(fā)布

注冊 | 登錄

產(chǎn)品視角｜AI對話（一）：了解大語言模型

JasmineWei

2023-12-20

0 評論 3565 瀏覽 16 收藏

對想做AI產(chǎn)品經(jīng)理的同學(xué)而言，了解一些基礎(chǔ)知識、常用名詞是必須的。這篇文章，作者解釋了一些AI的基礎(chǔ)名詞和概念，希望可以幫到大家。

本文為此系列引言，主要為各技術(shù)點(diǎn)的要點(diǎn)匯總，旨在普及基礎(chǔ)技術(shù)知識點(diǎn)不含產(chǎn)品觀點(diǎn)，對LLM了解的同學(xué)可跳過。

一、什么是大語言模型（LLM）

顧名思義，大語言模型的特點(diǎn)是規(guī)模龐大，可能擁有十億以上的參數(shù)。由于研究方向不同，在前兩年出現(xiàn)以自然語言理解任務(wù)和自然語言生成類任務(wù)的兩條技術(shù)線。

1. 自然語言理解任務(wù)

即包括文本分類、句子關(guān)系判斷等，本質(zhì)上是分類任務(wù)。其技術(shù)以Bert為代表。Bert(Bidirectional Encoder Representation from Transfomer)采用雙向Transformer Encoder架構(gòu)。Bert的優(yōu)點(diǎn)是可以更好地理解上下文信息，缺點(diǎn)是長文本處理不夠穩(wěn)定。

2. 自然語言生成類任務(wù)

可給定輸入文本，要求對應(yīng)模型生成一串輸出的模型。其技術(shù)以GPT為代表。GPT（Generative Pre-trained Transfomer)使用單向Transfomer Decoder結(jié)構(gòu)。GPT的優(yōu)點(diǎn)是訓(xùn)練過程相對簡單，可以生成自然流暢的文本。

從兩類任務(wù)來看，如果僅用自然語言理解模型，可能無法很好地處理生成任務(wù)。但一個LLM 生成模型是可以兼顧兩個任務(wù)的處理，所以主流更希望推進(jìn)的應(yīng)用方向是結(jié)合LLM生成模型來做落地。

附圖：Transformer介紹

二、市場大語言模型有哪些

（數(shù)據(jù)來源：機(jī)器之心）

在生成式任務(wù)方向按照模型結(jié)構(gòu)的不同可以分為兩大類：

1. 基于Causal decoder-only （因果解碼器）的Transformer結(jié)構(gòu)

如GPT-4、Claude 2、LLaMA2等大模型

2. 基于Prefix decoder-only （前綴解碼器）的Transformer結(jié)構(gòu)

如Chat GLM-6B（清華大學(xué)提出的支持中英雙語問答的對話語言模型）

那么兩種結(jié)構(gòu)的區(qū)別是什么呢？

相同訓(xùn)練tokens的情況下，Prefix decoder用到的tokens數(shù)量更少，訓(xùn)練效率較低，效果相對較差。（訓(xùn)練時Causal decoder結(jié)構(gòu)會在所有Token上計(jì)算損失，而Prefix decoder只會在輸出上計(jì)算損失，不計(jì)算輸入的損失）

其次模型基礎(chǔ)信息（訓(xùn)練數(shù)據(jù)、數(shù)據(jù)量、模型參數(shù)量、詞表大小等）還會成為主要比較維度，如下圖：

（數(shù)據(jù)來源：機(jī)器之心）

列名稱：模型名稱、發(fā)布時間、模型大小、是否基于哪個模型、適應(yīng)性調(diào)優(yōu)（IT指令調(diào)優(yōu)、RLHF用于對齊調(diào)優(yōu)-人類反饋強(qiáng)化學(xué)習(xí)）、預(yù)訓(xùn)練數(shù)據(jù)規(guī)模、近期更新、硬件情況、訓(xùn)練時長、評估（ICL上下文學(xué)習(xí)、CoT思維鏈）

三、大模型有什么樣的訓(xùn)練范式

NLP經(jīng)歷四個訓(xùn)練范式：

第一范式：基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的范式，特征工程+算法，需要大量訓(xùn)練數(shù)據(jù)
第二范式：基于深度學(xué)習(xí)模型的范式，自動獲取特征，相對1提高了準(zhǔn)確率
第三范式：基于【Pre-train（無監(jiān)督）+fine-tune（有監(jiān)督）】的范式，pre-train是基于無標(biāo)注數(shù)據(jù)訓(xùn)練；fine-tune階段經(jīng)過pre-train的初始化以后，后續(xù)的參數(shù)用有標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練。小數(shù)據(jù)集可以訓(xùn)練出好模型。
第四范式（重要，詳情請見系列下篇）：基于【Pre-train,Prompt,Predict】的范式，應(yīng)用Few/Zero Shot ，需要少量（無）的任務(wù)數(shù)據(jù)。

大模型大多應(yīng)用第三、第四范式為主，第三范式目的是預(yù)訓(xùn)練模型以更好地應(yīng)用在下游任務(wù)，而用較多的數(shù)據(jù)訓(xùn)練新的任務(wù)，會導(dǎo)致少量樣本學(xué)習(xí)能力差的問題，以及會造成部署資源的極大浪費(fèi)。

對于第四范式，本質(zhì)是將所有下游任務(wù)統(tǒng)一成預(yù)訓(xùn)練任務(wù)，以特定的模板將下游任務(wù)的數(shù)據(jù)轉(zhuǎn)成自然語言形式，挖掘預(yù)訓(xùn)練模型的本身能力，因此可以降低語義差異以及避免過擬合。