比人類便宜20倍!谷歌DeepMind推出「超人」AI系統(tǒng)
大模型的幻覺(jué)問(wèn)題怎么解?谷歌DeepMind:用AI來(lái)做同行評(píng)審!事實(shí)核驗(yàn)正確率超過(guò)人類,而且便宜20倍。AI的同行評(píng)審來(lái)了!
一直以來(lái),大語(yǔ)言模型胡說(shuō)八道(幻覺(jué))的問(wèn)題最讓人頭疼,而近日,來(lái)自谷歌DeepMind的一項(xiàng)研究引發(fā)網(wǎng)友熱議:
大模型的幻覺(jué)問(wèn)題,好像被終結(jié)了?
論文地址:https://arxiv.org/pdf/2403.18802.pdf
項(xiàng)目地址:https://github.com/google-deepmind/long-form-factuality
在這篇工作中,研究人員介紹了一種名為 “搜索增強(qiáng)事實(shí)性評(píng)估器”(Search-Augmented Factuality Evaluator,SAFE)的方法。
對(duì)于LLM的長(zhǎng)篇回答,SAFE使用其他的LLM,將答案文本分解為單個(gè)敘述,然后使用諸如RAG等方法,來(lái)確定每個(gè)敘述的準(zhǔn)確性。
——簡(jiǎn)單來(lái)說(shuō)就是:AI答題,AI判卷,AI告訴AI你這里說(shuō)的不對(duì)。
真正的「同行」評(píng)審。
另外,研究還發(fā)現(xiàn),相比于人工標(biāo)注和判斷事實(shí)準(zhǔn)確性,使用AI不但便宜20倍,而且還更靠譜!
目前這個(gè)項(xiàng)目已在GitHub上開(kāi)源。
長(zhǎng)文本事實(shí)性檢驗(yàn)
大語(yǔ)言模型經(jīng)常胡說(shuō)八道,尤其是有關(guān)開(kāi)放式的提問(wèn)、以及生成較長(zhǎng)的回答時(shí)。
比如小編隨手測(cè)試一下當(dāng)前最流行的幾個(gè)大模型。
ChatGPT:雖然我的知識(shí)儲(chǔ)備只到2021年9月,但我敢于毫不猶豫地回答任何問(wèn)題。
Claude 3:我可以謙卑且胡說(shuō)八道。
為了對(duì)大模型的長(zhǎng)篇回答進(jìn)行事實(shí)性評(píng)估和基準(zhǔn)測(cè)試,研究人員首先使用GPT-4生成LongFact,這是一個(gè)包含數(shù)千個(gè)問(wèn)題的提示集,涵蓋38個(gè)主題。
LongFact包含兩個(gè)任務(wù):LongFact-Concepts和LongFact-Objects,前者針對(duì)概念、后者針對(duì)實(shí)體。每個(gè)包括30個(gè)提示,每個(gè)任務(wù)各有1140個(gè)提示。
然后,使用搜索增強(qiáng)事實(shí)性評(píng)估器(SAFE),利用LLM將長(zhǎng)篇回復(fù)分解為一組單獨(dú)的事實(shí),并使用多步驟推理過(guò)程來(lái)評(píng)估每個(gè)事實(shí)的準(zhǔn)確性,包括使用網(wǎng)絡(luò)搜索來(lái)檢驗(yàn)。
此外,作者建議將F1分?jǐn)?shù)進(jìn)行擴(kuò)展,提出了一種兼顧精度和召回率的聚合指標(biāo)。
1. SAFE工作流程
如上圖所示,首先提示語(yǔ)言模型將長(zhǎng)篇響應(yīng)中的每個(gè)句子拆分為單個(gè)事實(shí)。
然后,通過(guò)指示模型將模糊的引用(代詞等)替換為上下文中引用的適當(dāng)實(shí)體,將每個(gè)單獨(dú)的事實(shí)修改為自包含的事實(shí)。
為了對(duì)每個(gè)獨(dú)立的個(gè)體事實(shí)進(jìn)行評(píng)分,研究人員使用語(yǔ)言模型來(lái)推理該事實(shí)是否與上下文中相關(guān),并且使用多步驟方法對(duì)每個(gè)相關(guān)事實(shí)進(jìn)行評(píng)定。
如上圖所示,在每個(gè)步驟中,模型都會(huì)根據(jù)要評(píng)分的事實(shí)和先前獲得的搜索結(jié)果生成搜索查詢。
在設(shè)定的步驟數(shù)之后,模型執(zhí)行推理以確定搜索結(jié)果是否支持該事實(shí)。
2. 比人類更好用
首先,直接比較對(duì)于每個(gè)事實(shí)的SAFE注釋和人類注釋,可以發(fā)現(xiàn),SAFE在72.0%的單個(gè)事實(shí)上與人類一致(見(jiàn)下圖),表明SAFE幾乎達(dá)到了人類的水平。
——這還沒(méi)完,跟人類一致并不代表正確,如果拿正確性PK一下呢?
研究人員在所有SAFE注釋與人類注釋產(chǎn)生分歧的案例中,隨機(jī)抽樣出100個(gè),然后人工重新比較到底誰(shuí)是正確的(通過(guò)網(wǎng)絡(luò)搜索等途徑)。
最終結(jié)果讓人震驚:在這些分歧案例中,SAFE注釋的正確率為76%,而人工注釋的正確率僅為19%(見(jiàn)上圖),——SAFE以將近4比1的勝率戰(zhàn)勝了人類。
然后我們?cè)倏匆幌鲁杀荆嚎偣?96個(gè)提示的評(píng)分,SAFE發(fā)出的 GPT-3.5-Turbo API調(diào)用成本為64.57美元,Serper API調(diào)用成本為 31.74 美元,因此總成本為96.31美元,相當(dāng)于每個(gè)響應(yīng)0.19美元。
而人類標(biāo)注這邊,每個(gè)響應(yīng)的成本為4美元,——AI比人類便宜了整整20多倍!
對(duì)此,有網(wǎng)友評(píng)價(jià),LLM在事實(shí)核驗(yàn)上有「超人」級(jí)別的表現(xiàn)。
3. 評(píng)分結(jié)果
據(jù)此,研究人員在LongFact上對(duì)四個(gè)模型系列(Gemini、GPT、Claude和PaLM-2)的13個(gè)語(yǔ)言模型進(jìn)行了基準(zhǔn)測(cè)試,結(jié)果如下圖所示:
研究人員發(fā)現(xiàn),一般情況下,較大的模型可以實(shí)現(xiàn)更好的長(zhǎng)格式事實(shí)性。
例如,GPT-4-Turbo比GPT-4好,GPT-4比GPT-3.5-Turbo好,Gemini-Ultra比Gemini-Pro更真實(shí),而PaLM-2-L-IT-RLHF比PaLM-2-L-IT要好。
在兩個(gè)選定的K值下,三個(gè)表現(xiàn)最好的模型(GPT-4-Turbo、GeminiUltra和PaLM-2-L-IT-RLHF),都是各自家族中超大杯。
另外,Gemini、Claude-3-Opus和Claude-3-Sonnet等新模型系列正在趕超GPT-4,——畢竟GPT-4(gpt-4-0613)已經(jīng)有點(diǎn)舊了。
4. 是誤導(dǎo)嗎?
對(duì)于人類在這項(xiàng)測(cè)試中顏面盡失的結(jié)果,我們不免有些懷疑,成本應(yīng)該是比不過(guò)AI,但是準(zhǔn)確性也會(huì)輸?
Gary Marcus表示,你這里面關(guān)于人類的信息太少了?人類標(biāo)注員到底是什么水平?
為了真正展示超人的表現(xiàn),SAFE需要與專業(yè)的人類事實(shí)核查員進(jìn)行基準(zhǔn)測(cè)試,而不僅僅是眾包工人。人工評(píng)分者的具體細(xì)節(jié),例如他們的資格、薪酬和事實(shí)核查過(guò)程,對(duì)于比較的結(jié)果至關(guān)重要。
「這使得定性具有誤導(dǎo)性?!?/p>
當(dāng)然了,SAFE的明顯優(yōu)勢(shì)就是成本,隨著語(yǔ)言模型生成的信息量不斷爆炸式增長(zhǎng),擁有一種經(jīng)濟(jì)且可擴(kuò)展的方式,來(lái)進(jìn)行事實(shí)核驗(yàn)將變得越來(lái)越重要。
參考資料:
https://venturebeat.com/ai/google-deepmind-unveils-superhuman-ai-system-that-excels-in-fact-checking-saving-costs-and-improving-accuracy/
編輯:alan
來(lái)源公眾號(hào):新智元(ID:AI_era),“智能+”中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從“互聯(lián)網(wǎng)+”邁向“智能+”。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!