涌現(xiàn)、幻覺、反省,AI+產(chǎn)品經(jīng)理需要了解的三個有趣現(xiàn)象

2 評論 1930 瀏覽 20 收藏 12 分鐘

這是一篇寫在某個AI完結(jié)項目后的學(xué)習(xí)及反思總結(jié),針對AI大模型的一些問題和現(xiàn)象的思考,與大家共享。

最近一個RAG項目告一段落,在這個摸爬滾打的項目中我們也學(xué)習(xí)到了很多,今天這篇文章想輕松一下,和大家分享一下在這次學(xué)習(xí)過程中發(fā)現(xiàn)的大語言模型三個很有趣的現(xiàn)象,以及這三個現(xiàn)象對產(chǎn)品經(jīng)理做實際AI+項目時有什么啟發(fā)。

現(xiàn)象一:涌現(xiàn)能力(Emergent Ability)

簡單來說,就是隨著模型越來越大,越來越大,大到某一時刻,模型就像突然領(lǐng)悟了什么真諦,一下子變得非常厲害,厲害到原本不會的任務(wù)突然就會了。就像武俠小說里面的那些大俠,修煉著修煉著,突然渾身一片云氣繚繞,然后武功從此到達了一個新的境界。

我們來看一篇論文中的小實驗,看完后你一下子就會明白什么是涌現(xiàn)能力。

在這篇論文中,研究人員嘗試讓各種不同大小的語言模型處理8個不同的任務(wù),這些語言模型包括Google的LaMDA,OpenAI的GPT-3等等等等。

縱軸代表這些模型在處理這些不同任務(wù)上的正確率,橫軸代表模型的參數(shù)量(從10M到100B甚至到1T),玫紅色虛線代表隨機結(jié)果(可以理解成亂猜)。

按照我們的常規(guī)想象,照理來說,隨著參數(shù)量慢慢變大,模型應(yīng)該會在這些任務(wù)上的表現(xiàn)慢慢變好,從什么都不會,到會一點點,到再會一點點,就這樣慢慢變強,但其實不是。

以圖一舉例來說,當模型從10M到1B參數(shù)的時候,在這些任務(wù)上的表現(xiàn)都和隨機差不多,而當模型參數(shù)超過大約10B的時候,它會在一瞬間突然厲害了很多,感覺從量變一下到了質(zhì)變。

在這個實驗中發(fā)現(xiàn),模型的能力不是慢慢變強的,而是有一個靈光乍現(xiàn)的瞬間,就像突然開悟了一樣,這些任務(wù)一下子就都會了,而在這之前,即使加大參數(shù)量,模型處理任務(wù)的結(jié)果都和隨機是差不多的。

舉個例子,例如要做一個相對復(fù)雜的數(shù)學(xué)題(需要列公式計算)

小模型可能什么都不懂,只能靠亂猜,那答案肯定是錯誤的,而稍微大一點的模型可能公式列對了,但是沒有計算對,這個時候答案大概率也是錯誤的。只有模型大到一定程度,公式也列對了,計算也計算對了,這樣才能得到正確的答案。

所以,想來很多大型語言模型在開發(fā)的時候都會碰到一個艱難的時刻,就是怎么說服投資人繼續(xù)投資開發(fā)。

但回過頭來,當現(xiàn)在大多數(shù)公司的產(chǎn)品經(jīng)理只是引入大語言模型升級原有的產(chǎn)品,這個有趣的現(xiàn)象對我們有什么影響或啟發(fā)呢?

對產(chǎn)品經(jīng)理的啟發(fā)

在引入大語言模型做AI+產(chǎn)品的時候,例如我們這次做的RAG項目,我們經(jīng)常會用到兩個手段,一個是CoT(Chain of thought),一個是Instruction tuning,這都是在不用調(diào)整模型參數(shù)的情況下讓大語言模型可以根據(jù)我們的需求表現(xiàn)的更好的非常有用的方式。前者是讓模型Step by step思考,從而產(chǎn)出更好的結(jié)果或讓我知道它哪里的表現(xiàn)和我們預(yù)期不符,后者是提供了一堆任務(wù)讓機器學(xué)習(xí),希望機器學(xué)習(xí)了這些任務(wù)后,在新的任務(wù)上也有好的結(jié)果。

但是CoT和Instruction tuning都只有在大模型才會發(fā)生。這就意味著當我們考慮什么場景下需要引入什么模型,就需要了解模型對于這些手段的支持度。

我們來看另一個小實驗

縱軸代表處理這個問題的正確率,橫軸代表模型的參數(shù)量,灰色的線表示沒有CoT,沒有Instruction tuning的情況下模型的表現(xiàn)(見圖一,圖二)

圖一中我們可以看到,如果不做CoT,模型的參數(shù)量從小到大,進步不是很明顯。但如果做了CoT,從1B到10B的時候,結(jié)果反而更不好,但是參數(shù)量到了某一個瞬間,CoT突然就發(fā)揮作用了。

同樣圖二中我們可以看到,在模型小的時候,Instruction tuning也發(fā)揮不了什么作用,但是一旦參數(shù)量大到一定程度之后,Instruction Tuning才會突然起作用了。

現(xiàn)象二:幻覺(Hallucination)

簡單來說,就是大語言模型會一本正經(jīng)的胡說八道。用現(xiàn)在流行的話來說,就是已讀亂回。而在這個過程中,由于它胡說八道的過于一本正經(jīng),你甚至很難發(fā)現(xiàn)它在胡說八道。

舉個例子來說,你問它一個完全不存在的節(jié)日(你自己瞎掰的),它不僅會告訴你這個節(jié)日是什么,這個節(jié)日的日期,歷史,特點,人們會在這個節(jié)日里做什么(通常我們說虛假陳述),它甚至?xí)o你一些鏈接告訴你它參考了這些鏈接,并說明這些鏈接里有節(jié)日的詳細介紹,你點擊鏈接才發(fā)現(xiàn),這些鏈接都是它胡說八道出來的(通常我們說編造引用)。

正如OpenAI 首席執(zhí)行官Sam Altman所說:“ChatGPT有很大的局限性,它確實知道很多東西,但危險的是,它在相當大的一部分時間里是自信而錯誤的”。

幻覺分為內(nèi)在幻覺外在幻覺兩類。

  • 內(nèi)在幻覺指生成的輸出內(nèi)容和輸入內(nèi)容不一致,通常表現(xiàn)為對話歷史上下文的信息自相矛盾。
  • 外在幻覺指生成的輸出內(nèi)容和世界只是不一致,通常表現(xiàn)為針對用戶提出的事實性問題給出錯誤答案或編造無法驗證的內(nèi)容。

那為什么大語言模型會有幻覺現(xiàn)象呢?

我們都知道大語言模型的工作原理就是預(yù)測下一個token是什么,然后自己做成語接龍的游戲,這種生成過程的隨機性就會導(dǎo)致幻覺現(xiàn)象,此外,訓(xùn)練時的數(shù)據(jù)不足、錯誤、偏見、知識過時也會造成幻覺現(xiàn)象。

在這個過程中,我們也發(fā)現(xiàn)一篇很有意思的論文,嘗試了解大語言模型在一本正經(jīng)的胡說八道的時候,它自己知不知道自己在胡說八道。由于篇幅過長,有機會用一篇單獨的文章說明。

對產(chǎn)品經(jīng)理的啟發(fā)

幻覺現(xiàn)象會對AI+產(chǎn)品造成什么影響?

  1. 信心降低:當用戶多次被錯誤信息誤導(dǎo)時,自然而然會對這個產(chǎn)品失去信息從而離開這個產(chǎn)品。
  2. 錯誤決策:當用戶需要一些信息輔助關(guān)鍵決策時(尤其產(chǎn)品應(yīng)用在金融、醫(yī)療、法律等領(lǐng)域),幻覺會讓用戶做出錯誤決策,而這個錯誤決策可能會產(chǎn)生嚴重的后果。
  3. 倫理道德及法律影響:可能會給使用的用戶帶來法律風(fēng)險。

當然很多產(chǎn)品會提示用戶,請注意,答案是AI生成且沒有經(jīng)過驗證,請謹慎使用。但當我們做一些B端咨詢或企業(yè)級應(yīng)用時,如果企業(yè)的私有知識庫本身在這個行業(yè)或在某個垂直領(lǐng)域非常厲害,那把這個權(quán)威的、可解釋性的私有知識庫結(jié)合世界知識,讓它的表現(xiàn)大大降低幻覺,很可能會成為這個產(chǎn)品很大的差異度。

現(xiàn)象三:反?。⊿elf-reflective)

簡單來說,就是大語言模型會自我反省。不僅優(yōu)秀還謙虛,真是別人家的孩紙呢~

當你和它說,請檢查下你給我答案是否正確時,有的時候大語言模型會檢查出自己的答案是錯誤的,并修正錯誤答案。

舉個例子:

我: “請告訴我“夢幻之島節(jié)”在什么地方舉行?”(筆者杜撰)

大語言模型:“夢幻之島節(jié)”是中國海南省的一項大型文化節(jié)慶活動,通常在海南省的三亞市舉行。三亞是一個著名的旅游城市,以其美麗的海灘和豐富的旅游資源而聞名。這個節(jié)慶活動通常會有各種形式的演出、展覽、文化活動以及國際交流,吸引著來自世界各地的游客和文化愛好者。

不過,具體的活動安排和地點可能會根據(jù)年份和節(jié)慶內(nèi)容有所變化。如果你打算參加,最好查閱當?shù)氐穆糜涡畔⒒蚧顒影才乓垣@得最新的活動詳情。

我:“請檢查下這個答案是否正確”

大語言模型:抱歉,我之前的回答有誤。經(jīng)過核查,“夢幻之島節(jié)”并不是一個實際存在的節(jié)日或活動。如果這是您自己創(chuàng)作的名字,可能會是一個虛構(gòu)的節(jié)日,或者我可能誤解了您的問題。如果您有其他問題,或者希望了解實際存在的旅游節(jié)慶活動,歡迎繼續(xù)提問!

對產(chǎn)品經(jīng)理的啟發(fā)

當我們需要在AI+的應(yīng)用中提高回答質(zhì)量或要避免一些倫理道德或法律法規(guī)問題時,我們可以使用加上自我反思的步驟。這也是一個不用調(diào)整模型參數(shù)就可以讓大語言模型可以根據(jù)我們的需求表現(xiàn)的更好的方式。

本文由 @AI 實踐干貨 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 通過理解這些現(xiàn)象,產(chǎn)品經(jīng)理可以更好地利用大語言模型的優(yōu)勢,同時規(guī)避其潛在的風(fēng)險,從而在AI+項目中取得成功。

    來自廣東 回復(fù)
    1. 沒錯,比如了解幻覺,才能通過RAG盡可能消除幻覺,進而做出有商業(yè)價值的AI+產(chǎn)品~

      來自上海 回復(fù)