頂尖的大語言模型人才,只關(guān)心這10個挑戰(zhàn)
本文探討了大語言模型(LLM)研究中的十大挑戰(zhàn),作者是Chip Huyen,她畢業(yè)于斯坦福大學(xué),現(xiàn)為Claypot AI —— 一個實時機(jī)器學(xué)習(xí)平臺的創(chuàng)始人,此前在英偉達(dá)、Snorkel AI、Netflix、Primer公司開發(fā)機(jī)器學(xué)習(xí)工具。????????
我正目睹一個前所未有的現(xiàn)狀:全世界如此眾多的頂尖頭腦,如今都投入到“使語言模型(LLMs)變得更好”這個大一統(tǒng)的目標(biāo)中。
在與許多工業(yè)界及學(xué)術(shù)界同仁交談之后,我試著總結(jié)出十個正在蓬勃生長的主要研究方向:
- 減少和衡量幻覺(編者按:hallucinations,AI的幻覺,即 AI 輸出中不正確或無意義的部分,盡管這類輸出在句法上是合理的)
- 優(yōu)化上下文長度和上下文構(gòu)建
- 融入其他數(shù)據(jù)模態(tài)
- 提高LLMs的速度和降低成本
- 設(shè)計新的模型架構(gòu)
- 開發(fā)GPU替代方案
- 提高agent的可用性
- 改進(jìn)從人類偏好中學(xué)習(xí)的能力
- 提高聊天界面的效率
- 為非英語語言構(gòu)建LLMs
其中,前兩個方向,即減少“幻覺”和“上下文學(xué)習(xí)”,可能是當(dāng)下最火的方向。而我個人對第3項(多模態(tài))、第5項(新架構(gòu))和第6項(GPU替代方案)最感興趣。
一、減少和衡量幻覺
它是指當(dāng)AI模型編造虛假內(nèi)容時發(fā)生的現(xiàn)象。
對于許多需要創(chuàng)造性的場景,幻覺是一種難以回避的特性。然而,對于大多數(shù)其他應(yīng)用場景,它是一個缺陷。
最近我參加了一個關(guān)于LLM的討論小組,與Dropbox、Langchain、Elastics和Anthropic等公司的人員進(jìn)行了交流,他們認(rèn)為,企業(yè)大規(guī)模采用LLM進(jìn)行商業(yè)生產(chǎn),最大的障礙就是幻覺問題。
減輕幻覺現(xiàn)象并開發(fā)衡量幻覺的指標(biāo),是一個蓬勃發(fā)展的研究課題,許多初創(chuàng)公司都專注于解決這個問題。
目前也有一些臨時的方法可以減少幻覺,比如為提示添加更多的上下文、思維鏈、自洽性,或者要求模型的輸出保持簡潔。
以下是可以參考的相關(guān)演講
- Survey of Hallucination in Natural Language Generation(Ji et al., 2022)
- How Language Model Hallucinations Can Snowball(Zhang et al., 2023)
- A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity(Bang et al., 2023)
- Contrastive Learning Reduces Hallucination in Conversations(Sun et al., 2022)
- Self-Consistency Improves Chain of Thought Reasoning in Language Models(Wang et al., 2022)
- SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models(Manakul et al., 2023)
二、優(yōu)化上下文長度和上下文構(gòu)建
AI面對的絕大多數(shù)問題都需要上下文。
例如,如果我們問ChatGPT:“哪家越南餐廳最好?”,所需上下文可能是“在哪里”,因為越南最好的餐廳和美國最好的越南餐廳可能不同。
根據(jù)《SituatedQA》(Zhang&Choi,2021)這篇有趣的論文,相當(dāng)大比例的信息尋求問題都有依賴于上下文的答案,例如,NQ-Open數(shù)據(jù)集中就有約占16.5%的問題是這一類問題。
我個人認(rèn)為,對于企業(yè)應(yīng)用場景來說,這個比例還可能更高。假設(shè)一家公司為客戶構(gòu)建了一個聊天機(jī)器人,要讓這個機(jī)器人能夠回答任何產(chǎn)品的任何客戶問題,那么所需上下文,可能是客戶的歷史記錄或該產(chǎn)品的信息。
因為模型是從提供給它的上下文中“學(xué)習(xí)”的,這個過程也被稱為上下文學(xué)習(xí)。
對于檢索增強(qiáng)生成(RAG,也是LLM行業(yè)應(yīng)用方向的主要方法),上下文長度尤為重要。
RAG可以簡單分為兩個階段:
第一階段:分塊(也稱為索引)
收集所有要供LLM使用的文檔,將這些文檔分成可以輸入LLM以生成嵌入的塊,并將這些嵌入存儲在向量數(shù)據(jù)庫中。
第二階段:查詢
當(dāng)用戶發(fā)送查詢,如“我的保險政策是否可以支付這種藥物X”,LLM將此查詢轉(zhuǎn)換為嵌入,我們稱之為查詢嵌入,向量數(shù)據(jù)庫會獲取與查詢嵌入最相似的塊。
圖:來自Jerry Liu關(guān)于LlamaIndex(2023)的演講截圖
上下文長度越長,我們就可以在上下文中插入更多塊。但是,模型可以訪問的信息越多,它的回復(fù)就會越好嗎?
并不總是這樣。模型可以使用多少上下文以及該模型將如何高效地使用,是兩個不同的問題。與增加模型上下文長度同樣重要的,是對上下文更高效的學(xué)習(xí),后者也被稱之為“提示工程”。
最近一篇廣為流傳的論文,就是關(guān)于模型從索引的開頭和結(jié)尾比從中間進(jìn)行信息理解表現(xiàn)要好得多:Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).
三、融入其他數(shù)據(jù)模態(tài)
在我看來,多模態(tài)是如此強(qiáng)大,卻又常常被低估。
首先,許多現(xiàn)實的應(yīng)用場景就需要處理大量多模態(tài)數(shù)據(jù),如醫(yī)療保健、機(jī)器人技術(shù)、電子商務(wù)、零售、游戲、娛樂等。醫(yī)學(xué)預(yù)測需要同時使用文本(如醫(yī)生的筆記、患者的問卷)和圖像(如CT、X射線、MRI掃描);產(chǎn)品數(shù)據(jù)通常包含圖像、視頻、描述,甚至是表格數(shù)據(jù)(如生產(chǎn)日期、重量、顏色)。
其次,多模態(tài)承諾能為模型性能帶來巨大提升。一個既能理解文本又能理解圖像的模型,難道不會比僅能理解文本的模型表現(xiàn)更好嗎?基于文本的模型需要大量的文本數(shù)據(jù),現(xiàn)在我們確實在擔(dān)心用于訓(xùn)練基于文本模型的互聯(lián)網(wǎng)數(shù)據(jù)會被耗盡。一旦文本用盡,我們就需要利用其他數(shù)據(jù)模態(tài)。
最近有一個應(yīng)用方向讓我感到格外興奮,那就是,多模態(tài)技術(shù)可以幫助視障人士瀏覽互聯(lián)網(wǎng)和導(dǎo)航現(xiàn)實世界。
以下為幾項杰出的多模態(tài)研究進(jìn)展:
- [CLIP] Learning Transferable Visual Models From Natural Language Supervision(OpenAI, 2021)
- Flamingo: a Visual Language Model for Few-Shot Learning(DeepMind, 2022)
- BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models(Salesforce, 2023)
- KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models(Microsoft, 2023)
- PaLM-E: An embodied multimodal language model(Google, 2023)
- LLaVA: Visual Instruction Tuning(Liu et al., 2023)
- NeVA: NeMo Vision and Language Assistant(NVIDIA, 2023)
四、提高LLMs的速度和降低成本
GPT-3.5于2022年11月末首次推出的時候,很多人對在生產(chǎn)中使用該模型的延遲和成本表示擔(dān)憂。
如今,GPT-3.5使用造成的延遲/成本分析又有了新的變化。在半年內(nèi),整個模型社區(qū)找到了一種新方法,能夠創(chuàng)建一個在性能方面幾乎接近GPT-3.5、但其內(nèi)存占用不到前者2%的模型。
由此,我的一個觀點是:如果你創(chuàng)造出足夠優(yōu)秀的東西,其他人會想盡辦法使其變得快速且經(jīng)濟(jì)高效。
以下是根據(jù)Guanaco論文中報告的數(shù)據(jù),該數(shù)據(jù)對比了Guanaco 7B與ChatGPT GPT-3.5和GPT-4的性能。
需要注意的是,總體而言,這些模型性能都還遠(yuǎn)非完美。對LLM來說,大幅地提升性能依然非常困難。
記得四年前,當(dāng)我開始著手撰寫《設(shè)計機(jī)器學(xué)習(xí)系統(tǒng)》一書中“模型壓縮”部分的筆記時,業(yè)內(nèi)主要有四種模型優(yōu)化/壓縮技術(shù):
- 量化:迄今為止最通用的模型優(yōu)化方法。量化通過使用較少的bits來表示模型的參數(shù)來減小模型的大小,例如,不再使用32位來表示浮點數(shù),而只使用16位,甚至4位。
- 知識蒸餾:即訓(xùn)練出一個小模型(學(xué)生模型),它能夠模仿一個更大的模型或模型集合(教師模型)。
- 低秩分解:它的關(guān)鍵思想是使用低維張量來替代高維張量,以減少參數(shù)的數(shù)量。例如,可以將一個3×3的張量分解為一個3×1的張量和一個1×3的張量的乘積,從而不再有9個參數(shù),而只有6個參數(shù)。
- 剪枝:指通過去除模型中對整體性能貢獻(xiàn)較小的權(quán)重或連接來減小模型的大小。
這四種技術(shù)至今仍然流行。Alpaca是通過知識蒸餾進(jìn)行訓(xùn)練的,QLoRA則采用了低秩分解和量化的組合方式。
五、設(shè)計新的模型架構(gòu)
自2012年的AlexNet以來,我們已經(jīng)看到許多架構(gòu)潮起又潮落,包括LSTM、seq2seq等。
與這些架構(gòu)相比,問世于2017年的Transformer異常穩(wěn)定,雖然目前尚不清楚這個架構(gòu)還會流行多久。
要開發(fā)一種能夠勝過Transformer的新架構(gòu)并不容易。在過去的6年中,Transformer已經(jīng)經(jīng)過了大量的優(yōu)化,在合適的硬件上,這個模型的規(guī)模和效果可以達(dá)到讓人贊嘆的出色效果(PS:Transformer最早是由Google設(shè)計成在TPU上快速運(yùn)行的,后來才在GPU上進(jìn)行了優(yōu)化)。
2021年,Chris Ré實驗室的研究“Efficiently Modeling Long Sequences with Structured State Spaces” (Gu et al., 2021),在行業(yè)內(nèi)引發(fā)了大量討論。我不太確定后來發(fā)生了什么。但Chris Ré實驗室仍在積極開發(fā)新架構(gòu),他們最近與初創(chuàng)公司Together合作推出了名為Monarch Mixer的架構(gòu)。
他們的主要思想是:對于現(xiàn)有的Transformer架構(gòu),注意力的復(fù)雜度與序列長度的平方成正比,MLP的復(fù)雜度與模型維度的平方成正比。具有次二次復(fù)雜度的架構(gòu)將更加高效。
我確信許多其他實驗室也在探索這個思路,雖然我不知道是否有任何已經(jīng)公開嘗試過的研究。如果您曉得個中進(jìn)展,歡迎聯(lián)系我!
六、開發(fā)GPU替代方案
2012年AlexNet問世以來,GPU一直是深度學(xué)習(xí)的主要硬件。
事實上,AlexNet之所以受歡迎,其中一個普遍認(rèn)可的原因是,它是第一篇成功使用GPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)的論文。在GPU之前,如果要訓(xùn)練一個與AlexNet相當(dāng)規(guī)模的模型,你需要動用成千上萬個CPU,就像在AlexNet之前幾個月Google發(fā)布的那臺服務(wù)器一樣。
與成千上萬個CPU相比,幾塊GPU對于博士生和研究人員來說更加容易獲得,引發(fā)了深度學(xué)習(xí)研究的繁榮。
在過去的十年中,許多公司,無論是大公司還是初創(chuàng)公司,都試圖為人工智能創(chuàng)建新的硬件。最值得注意的嘗試包括Google的TPU、Graphcore的IPU以及Cerebras。SambaNova也籌集了超過10億美元來開發(fā)新的AI芯片,但似乎已轉(zhuǎn)向成為生成式AI平臺。
期間,量子計算也引發(fā)了很多期待,其中主要參與者包括:
- IBM的量子處理器
- Google的量子計算機(jī)。今年早些時候在《自然》雜志上報告了量子錯誤降低的重要里程碑。它的量子虛擬機(jī)可以通過Google Colab公開訪問。
- 高校的研究實驗室,如MIT量子工程中心、馬普量子光學(xué)研究所、芝加哥量子交流中心等。
另一個同樣令人興奮的方向是光子芯片。這是我了解最少的方向,如有錯誤,望指正。
現(xiàn)有芯片使用電力傳輸數(shù)據(jù),這消耗了大量能量,并產(chǎn)生了延遲。光子芯片使用光子傳輸數(shù)據(jù),利用光的速度進(jìn)行更快、更高效的計算。在這一領(lǐng)域,各種初創(chuàng)公司已籌集了數(shù)億美元,包括Lightmatter(2.7億美元)、Ayar Labs(2.2億美元)、Lightelligence(2億美元以上)和Luminous Computing(1.15億美元)。
以下是光子矩陣計算三種主要方法的進(jìn)展時間線,摘自Photonic matrix multiplication lights up photonic accelerator and beyond (Zhou et al., Nature 2022).這三種不同的方法分別是平面光轉(zhuǎn)換(PLC)、馬赫-曾德干涉儀(MZI)和波分復(fù)用(WDM):
七、提高agent的可用性
agent可以視為能夠采取行動的LLMs,例如瀏覽互聯(lián)網(wǎng)、發(fā)送電子郵件等。與本文中的其他研究方向相比,這可能是最年輕的方向。
由于其新穎性和巨大潛力,人們對agent產(chǎn)生了極大的興趣。Auto-GPT現(xiàn)在是GitHub上星標(biāo)數(shù)量排名第25的最受歡迎的庫。GPT-Engineering也是另一個受歡迎的庫。
盡管如此,人們?nèi)匀粚LMs是否足夠可靠、性能良好、具備一定行動能力存在疑慮。
現(xiàn)在有一個有趣的應(yīng)用方向,是將agent用于社會研究。一項斯坦福實驗表明,一小群生成式agent產(chǎn)生了新興的社會行為:僅從一個用戶指定的想法開始,即一個agent想要舉辦情人節(jié)派對,其他一些agent在接下來的兩天內(nèi)自主傳播了派對的邀請,結(jié)識了新朋友,相互邀請參加派對…((Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023)。
在這一領(lǐng)域,最值得注意的初創(chuàng)公司可能是Adept,由兩位Transformer的合著者(盡管兩人都已離開)和一位前OpenAI副總裁創(chuàng)立,迄今已籌集了近5億美元。去年,他們展示了其開發(fā)的agen如何瀏覽互聯(lián)網(wǎng)并在Salesforce上添加新賬戶。我期待看到他們的新演示 ??。
八、提升從人類偏好中學(xué)習(xí)的能力
RLHF(Reinforcement Learning from Human Preference,從人類偏好中進(jìn)行強(qiáng)化學(xué)習(xí))很酷,但有點繁瑣。
我絲毫不意外人們會找到更好的訓(xùn)練LLMs的方法。關(guān)于RLHF,有許多開放問題,例如:
如何在數(shù)學(xué)上表示人類偏好?
目前,人類偏好是通過比較來確定的:人類標(biāo)注者確定回答A是否優(yōu)于回答B(yǎng)。然而,它沒有考慮到回答A相對于回答B(yǎng)的優(yōu)劣程度具體是多少。
什么是人類偏好?
Anthropic通過三個維度來衡量模型回答的質(zhì)量:有幫助、誠實和無害。參考論文:Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022)。
DeepMind試圖生成最能取悅大多數(shù)人的回答。參考論文:Fine-tuning language models to find agreement among humans with diverse preferences, (Bakker et al., 2022).
另外,我們是想擁有能夠表態(tài)的AI,還是一個在任何可能引發(fā)爭議的話題上避而不談的普通AI?
“人類”偏好是誰的偏好,考慮到文化、宗教、政治傾向等的差異?
獲取足夠代表所有潛在用戶的訓(xùn)練數(shù)據(jù),存在許多挑戰(zhàn)。
例如,OpenAI的InstructGPT數(shù)據(jù),沒有65歲以上的標(biāo)注者。標(biāo)注者主要是菲律賓人和孟加拉人。參考論文:InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022).
近年來,AI社區(qū)主導(dǎo)的努力,雖然初衷令人欽佩,但數(shù)據(jù)偏見依然存在。例如,在OpenAssistant數(shù)據(jù)集中,222名調(diào)查對象中有201名(90.5%)自我報告為男性。Jeremy Howard在Twitter上發(fā)表了一系列關(guān)于此問題的推文。
九、提高聊天界面的效率
有了ChatGPT之后,關(guān)于聊天是否適合廣泛范圍任務(wù)的討論就一直不絕于耳。比如:
- Natural language is the lazy user interface(Austin Z. Henley, 2023)
- Why Chatbots Are Not the Future(Amelia Wattenberger, 2023)
- What Types of Questions Require Conversation to Answer? A Case Study of AskReddit Questions(Huang et al., 2023)
- AI chat interfaces could become the primary user interface to read documentation(Tom Johnson, 2023)
- Interacting with LLMs with Minimal Chat(Eugene Yan, 2023)
然而,這不是一個新的討論。在許多國家,尤其是在亞洲,聊天已經(jīng)作為超級應(yīng)用程序的界面使用了大約十年時間。Dan Grover在2014年就進(jìn)行了這個現(xiàn)象的討論。
這類討論在2016年再次變得緊俏,很多人的看法是,現(xiàn)有的應(yīng)用類型已經(jīng)過時,聊天機(jī)器人將是未來。例如下列的研究:
- On chat as interface(Alistair Croll, 2016)
- Is the Chatbot Trend One Big Misunderstanding?(Will Knight, 2016)
- Bots won’t replace apps. Better apps will replace apps(Dan Grover, 2016)
就我個人而言,我喜歡聊天界面,原因如下:
1)聊天界面是一個每個人(甚至是沒有之前接觸過計算機(jī)或互聯(lián)網(wǎng)的人)都可以快速學(xué)會使用的界面。
2010年代初,我在肯尼亞的一個低收入居民區(qū)志愿工作時,我驚訝地發(fā)現(xiàn),那里的每個人都很適應(yīng)在手機(jī)上通過短信進(jìn)行銀行業(yè)務(wù)。即便那個社區(qū)沒有人有計算機(jī)。
2)聊天界面通常是易于訪問的。如果我們雙手忙于其他事情,也可以使用語音而不是文字。
3)聊天界面還是一種非常強(qiáng)大的界面,用戶提出任何請求,它都會做出回應(yīng),即使有些回應(yīng)不是很好。
然而,我認(rèn)為聊天界面在某些方面可以進(jìn)行改進(jìn):
一輪內(nèi)多條消息
目前,我們幾乎是假設(shè)每次只有一條消息。但我和我的朋友在發(fā)短信時,經(jīng)常需要多條消息才能完成一次聊天,因為我需要插入不同的數(shù)據(jù)(例如圖像、位置、鏈接),我在之前的消息中忘記了某些內(nèi)容,或者我只是不想把所有內(nèi)容都放在一大段落中。
多模態(tài)輸入
在多模態(tài)應(yīng)用領(lǐng)域,大部分精力都花在構(gòu)建更好的模型上,而很少花在構(gòu)建更好的界面上。以英偉達(dá)的NeVA聊天機(jī)器人為例。我不是用戶體驗專家,但我認(rèn)為這里可能有改進(jìn)的空間。
P.S. 對不起,NeVA團(tuán)隊,因為我點名批評了你們。盡管如此,你們的工作仍然非常棒!
圖:NVIDIA的NeVA界面
將生成式人工智能融入工作流程
Linus Lee在他的演講“Generative AI interface beyond chats”中很好地介紹了這一點。例如,如果你想問關(guān)于正在處理的圖表列的問題,你應(yīng)該能夠只需指向該列并提問。
編輯和刪除消息
編輯或刪除用戶輸入,將如何改變與聊天機(jī)器人的對話流程?
十、為非英語語言構(gòu)建LLMs
我們知道,目前以英語為首的LLMs在許多其他語言中的表現(xiàn)都不好,無論是在性能、延遲還是速度方面。
下面是可以參考的相關(guān)研究:
- ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning(Lai et al., 2023)
- All languages are NOT created (tokenized) equal(Yennie Jun, 2023)
一些讀者告訴我,出于兩個原因,他們認(rèn)為我不應(yīng)該在這個方向上進(jìn)行探討。
這更多是一個“后勤”問題,而不是一個研究問題。我們已經(jīng)知道該如何做了。只需要有人投入金錢和精力。
這并不完全正確。大多數(shù)語言被認(rèn)為是低資源語言,例如,與英語或漢語相比,它們擁有的高質(zhì)量數(shù)據(jù)要少得多,可能需要不同的技術(shù)來訓(xùn)練大型語言模型。
下面是可以參考的相關(guān)研究:
- Low-resource Languages: A Review of Past Work and Future Challenges(Magueresse et al., 2020)
- JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages(Agi? et al., 2019)
那些更為悲觀的人認(rèn)為,在未來,許多語言將消亡,互聯(lián)網(wǎng)將由兩種語言構(gòu)成的兩個世界:英語和漢語。這種思維方式并不新鮮。有人還記得Esperanto嗎?
AI工具(如機(jī)器翻譯和聊天機(jī)器人)對語言學(xué)習(xí)的影響仍不清楚。它們會幫助人們更快地學(xué)習(xí)新語言,還是會徹底消除學(xué)習(xí)新語言的需要?
十一、結(jié)論
上文提到的10大挑戰(zhàn),確實有一些問題比其他問題更難。
例如,我認(rèn)為第10項,為非英語語言構(gòu)建LLMs,更直接地指向足夠的時間和資源。
第1項,減少幻覺,將會更加困難,因為幻覺只是LLMs在進(jìn)行其概率性任務(wù)。
第4項,使LLMs更快更便宜,永遠(yuǎn)不會達(dá)到完全解決的狀態(tài)。在這個領(lǐng)域已經(jīng)取得了很多進(jìn)展,還會有更多進(jìn)展,但我們永遠(yuǎn)不會停止改進(jìn)。
第5項和第6項,新的架構(gòu)和新的硬件,非常具有挑戰(zhàn)性,是不可避免的。由于架構(gòu)和硬件之間的共生關(guān)系 , 新架構(gòu)需要針對常見硬件進(jìn)行優(yōu)化,而硬件需要支持常見架構(gòu) 。它們可能會由同一家公司解決。
其中,還有一些問題不僅僅可以通過技術(shù)知識來解決。例如,第8項,改進(jìn)從人類偏好中學(xué)習(xí),可能更多是一個策略問題,而不是技術(shù)問題。
第9項,提高聊天界面的效率,更多是一個用戶體驗問題。我們需要更多具備非技術(shù)背景的人一起合作解決這些問題。
作者:林檎,編輯:蔓蔓周
來源公眾號:硅兔賽跑(ID:sv_race),10萬創(chuàng)投人都關(guān)注的創(chuàng)新媒體,坐標(biāo)硅谷。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅兔賽跑 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!