產(chǎn)品視角 |AI對(duì)話(huà)(一):了解大語(yǔ)言模型
對(duì)想做AI產(chǎn)品經(jīng)理的同學(xué)而言,了解一些基礎(chǔ)知識(shí)、常用名詞是必須的。這篇文章,作者解釋了一些AI的基礎(chǔ)名詞和概念,希望可以幫到大家。
本文為此系列引言,主要為各技術(shù)點(diǎn)的要點(diǎn)匯總,旨在普及基礎(chǔ)技術(shù)知識(shí)點(diǎn)不含產(chǎn)品觀點(diǎn),對(duì)LLM了解的同學(xué)可跳過(guò)。
一、什么是大語(yǔ)言模型(LLM)
顧名思義,大語(yǔ)言模型的特點(diǎn)是規(guī)模龐大,可能擁有十億以上的參數(shù)。由于研究方向不同,在前兩年出現(xiàn)以自然語(yǔ)言理解任務(wù)和自然語(yǔ)言生成類(lèi)任務(wù)的兩條技術(shù)線。
1. 自然語(yǔ)言理解任務(wù)
即包括文本分類(lèi)、句子關(guān)系判斷等,本質(zhì)上是分類(lèi)任務(wù)。其技術(shù)以Bert為代表。Bert(Bidirectional Encoder Representation from Transfomer)采用雙向Transformer Encoder架構(gòu)。Bert的優(yōu)點(diǎn)是可以更好地理解上下文信息,缺點(diǎn)是長(zhǎng)文本處理不夠穩(wěn)定。
2. 自然語(yǔ)言生成類(lèi)任務(wù)
可給定輸入文本,要求對(duì)應(yīng)模型生成一串輸出的模型。其技術(shù)以GPT為代表。GPT(Generative Pre-trained Transfomer)使用單向Transfomer Decoder結(jié)構(gòu)。GPT的優(yōu)點(diǎn)是訓(xùn)練過(guò)程相對(duì)簡(jiǎn)單,可以生成自然流暢的文本。
從兩類(lèi)任務(wù)來(lái)看,如果僅用自然語(yǔ)言理解模型,可能無(wú)法很好地處理生成任務(wù)。但一個(gè)LLM 生成模型是可以兼顧兩個(gè)任務(wù)的處理,所以主流更希望推進(jìn)的應(yīng)用方向是結(jié)合LLM生成模型來(lái)做落地。
附圖:Transformer介紹
二、市場(chǎng)大語(yǔ)言模型有哪些
(數(shù)據(jù)來(lái)源:機(jī)器之心)
在生成式任務(wù)方向按照模型結(jié)構(gòu)的不同可以分為兩大類(lèi):
1. 基于Causal decoder-only (因果解碼器)的Transformer結(jié)構(gòu)
如GPT-4、Claude 2、LLaMA2等大模型
2. 基于Prefix decoder-only (前綴解碼器)的Transformer結(jié)構(gòu)
如Chat GLM-6B(清華大學(xué)提出的支持中英雙語(yǔ)問(wèn)答的對(duì)話(huà)語(yǔ)言模型)
那么兩種結(jié)構(gòu)的區(qū)別是什么呢?
相同訓(xùn)練tokens的情況下,Prefix decoder用到的tokens數(shù)量更少,訓(xùn)練效率較低,效果相對(duì)較差。(訓(xùn)練時(shí)Causal decoder結(jié)構(gòu)會(huì)在所有Token上計(jì)算損失,而Prefix decoder只會(huì)在輸出上計(jì)算損失,不計(jì)算輸入的損失)
其次模型基礎(chǔ)信息(訓(xùn)練數(shù)據(jù)、數(shù)據(jù)量、模型參數(shù)量、詞表大小等)還會(huì)成為主要比較維度,如下圖:
(數(shù)據(jù)來(lái)源:機(jī)器之心)
列名稱(chēng):模型名稱(chēng)、發(fā)布時(shí)間、模型大小、是否基于哪個(gè)模型、適應(yīng)性調(diào)優(yōu)(IT指令調(diào)優(yōu)、RLHF用于對(duì)齊調(diào)優(yōu)-人類(lèi)反饋強(qiáng)化學(xué)習(xí))、預(yù)訓(xùn)練數(shù)據(jù)規(guī)模、近期更新、硬件情況、訓(xùn)練時(shí)長(zhǎng)、評(píng)估(ICL上下文學(xué)習(xí)、CoT思維鏈)
三、大模型有什么樣的訓(xùn)練范式
NLP經(jīng)歷四個(gè)訓(xùn)練范式:
- 第一范式:基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的范式,特征工程+算法,需要大量訓(xùn)練數(shù)據(jù)
- 第二范式:基于深度學(xué)習(xí)模型的范式,自動(dòng)獲取特征,相對(duì)1提高了準(zhǔn)確率
- 第三范式:基于【Pre-train(無(wú)監(jiān)督)+fine-tune(有監(jiān)督)】的范式,pre-train是基于無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練;fine-tune階段經(jīng)過(guò)pre-train的初始化以后,后續(xù)的參數(shù)用有標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練。小數(shù)據(jù)集可以訓(xùn)練出好模型。
- 第四范式(重要,詳情請(qǐng)見(jiàn)系列下篇):基于【Pre-train,Prompt,Predict】的范式,應(yīng)用Few/Zero Shot ,需要少量(無(wú))的任務(wù)數(shù)據(jù)。
大模型大多應(yīng)用第三、第四范式為主,第三范式目的是預(yù)訓(xùn)練模型以更好地應(yīng)用在下游任務(wù),而用較多的數(shù)據(jù)訓(xùn)練新的任務(wù),會(huì)導(dǎo)致少量樣本學(xué)習(xí)能力差的問(wèn)題,以及會(huì)造成部署資源的極大浪費(fèi)。
對(duì)于第四范式,本質(zhì)是將所有下游任務(wù)統(tǒng)一成預(yù)訓(xùn)練任務(wù),以特定的模板將下游任務(wù)的數(shù)據(jù)轉(zhuǎn)成自然語(yǔ)言形式,挖掘預(yù)訓(xùn)練模型的本身能力,因此可以降低語(yǔ)義差異以及避免過(guò)擬合。
四、大模型評(píng)測(cè)的標(biāo)準(zhǔn)和方法
產(chǎn)品表現(xiàn):包括語(yǔ)義語(yǔ)法語(yǔ)境理解、內(nèi)容準(zhǔn)確性、生成質(zhì)量、性能測(cè)試、擬人性和多模態(tài)能力;
- 語(yǔ)義理解包括上下文理解、邏輯推理、多語(yǔ)言等;
- 內(nèi)容準(zhǔn)確性包括回復(fù)內(nèi)容和結(jié)果準(zhǔn)確性和陷阱處理;
- 生成質(zhì)量包括多樣性、創(chuàng)造性、專(zhuān)業(yè)度等;
- 性能主要包括回復(fù)速度、資源消耗等;
- 擬人性主要針對(duì)用戶(hù)情感分析;
模型基礎(chǔ)能力:主要針對(duì)算力和數(shù)據(jù),包括參數(shù)量級(jí)、數(shù)據(jù)量級(jí)、數(shù)據(jù)質(zhì)量等
其他:主要針對(duì)安全合規(guī),包括安全和隱私處理能力、內(nèi)容安全性、公平性、隱私保護(hù)等
五、評(píng)估大模型的安全性
LLM Tustworthiness 字節(jié)跳動(dòng)
- 可靠性 :虛假信息、語(yǔ)言模型幻覺(jué)、不一致、校準(zhǔn)失誤、諂媚
- 安全性 :暴力、違法、未成年人傷害、成人內(nèi)容、心理健康問(wèn)題、隱私侵犯
- 公平性 :不公正、刻板偏見(jiàn)、偏好偏見(jiàn)、性能差異
- 抵制濫用 :宣傳、網(wǎng)絡(luò)攻擊、社交工程、版權(quán)泄漏
- 可解釋性和推理 :解釋能力不足、邏輯能力不足、 因果能力不足
- 社會(huì)規(guī)范 :惡毒語(yǔ)言、情感遲鈍、文化遲鈍
- 穩(wěn)健性 :提示攻擊、范式和分布變化、干預(yù)效果、投毒攻擊
參考文獻(xiàn):
《最新大語(yǔ)言研究模型綜述:T5到GPT-4最全盤(pán)點(diǎn)》
《通往AGI之路:大型語(yǔ)言模型(LLM)技術(shù)精要》
《如何評(píng)估大模型是否可信?這里總結(jié)了七大維度》
《Prompt Learning |深入淺出提示學(xué)習(xí)要旨及常用方法》
本文由 @JasmineWei 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!