深度理解:OpenAI最新發(fā)布的“強(qiáng)化微調(diào)”

0 評(píng)論 2899 瀏覽 4 收藏 15 分鐘

今天主要分享一下OpenAl發(fā)布會(huì)第二天發(fā)布的核心內(nèi)容"強(qiáng)化微調(diào)”,為什么奧特曼會(huì)覺得這是一項(xiàng)驚喜技術(shù),為了深入了理解它,我周末花了一天的時(shí)間深入的去研究它,本文分享一下我的研究結(jié)果!

個(gè)人對(duì)OpenAI發(fā)布“強(qiáng)化微調(diào)”的感受:

OpenAI發(fā)布會(huì)第二天發(fā)布的內(nèi)容依然沒有推出全新的模型,仍舊是在原有的技術(shù)體系下推出升級(jí)的內(nèi)容,說實(shí)話網(wǎng)上罵聲一片都是痛批“這是什么玩意的?”,基本都是營銷人而不是開發(fā)者,他們要的是營銷噱頭,根本不管推出的東西有沒有用,而作為AI應(yīng)用開發(fā)者而言,反而覺得能推出一些立刻應(yīng)用于應(yīng)用研發(fā)的能力更加實(shí)在,像Sora這種噱頭性的東西,于我們這些創(chuàng)業(yè)者而言完全沒有意義,所以個(gè)人反而覺得,OpenAI第二天推出“強(qiáng)化微調(diào)”這個(gè)能力,雖然沒有太多的驚喜,但是更加實(shí)在;

一、強(qiáng)化微調(diào)是什么,和傳統(tǒng)SFT有什么區(qū)別?

1. 從實(shí)現(xiàn)方法上看

SFT是通過提供人工標(biāo)注數(shù)據(jù)(例如正確的輸入-輸出對(duì)),告訴模型什么才是正確的答案,然后讓模型學(xué)會(huì)模仿這些答案,做出正確的回答;

而RFT是把傳統(tǒng)的SFT+獎(jiǎng)勵(lì)模型+強(qiáng)化學(xué)習(xí)這三個(gè)環(huán)節(jié)整合在一起,在一套閉環(huán)的流程里面完成三者的運(yùn)行,并且該流程是自動(dòng)運(yùn)行的,它的作用,就是可以自動(dòng)的優(yōu)化基礎(chǔ)模型,讓模型越來越聰明,回答的效果越來越好;

RFT能夠讓模型和回答結(jié)果越來越好的原理是“它讓SFT+獎(jiǎng)勵(lì)模型+強(qiáng)化學(xué)習(xí)這個(gè)優(yōu)化模型和生成結(jié)果的機(jī)制能夠不停的運(yùn)轉(zhuǎn)”;

首先我們提供一部分“正確答案”的數(shù)據(jù)讓模型完成SFT從而能回答正確的答案;之后,該流程會(huì)根據(jù)人工提供的、或者系統(tǒng)實(shí)時(shí)收集的反饋數(shù)據(jù)(比如生成結(jié)果的評(píng)分?jǐn)?shù)據(jù))訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(一個(gè)評(píng)分模型,用于對(duì)生成結(jié)果打分),并且這個(gè)模型會(huì)隨著反饋數(shù)據(jù)的動(dòng)態(tài)更新自動(dòng)的優(yōu)化評(píng)分函數(shù)和評(píng)分能力,并通過這個(gè)獎(jiǎng)勵(lì)模型,優(yōu)化基礎(chǔ)模型,讓基礎(chǔ)模型越來也好;并且這整個(gè)閉環(huán)是循環(huán)自動(dòng)完成的,因?yàn)檫@套循環(huán)機(jī)制,從而讓生成結(jié)果越來越好;

RFT看起來像是把之前的“SFT+獎(jiǎng)勵(lì)模型+強(qiáng)化學(xué)習(xí)”這三個(gè)合并一下然后重新包裝一下,實(shí)際上還是有些不同,具體看下一部分的內(nèi)容,簡單講:

RFT=自動(dòng)化運(yùn)行且動(dòng)態(tài)更新的“SFT+獎(jiǎng)勵(lì)模型+強(qiáng)化學(xué)習(xí)”

2.本質(zhì)差異

SFT不會(huì)動(dòng)態(tài)的迭代和優(yōu)化基礎(chǔ)模型,只是讓模型模仿一部分正確的答案然后做出回答;RFT則會(huì)動(dòng)態(tài)的迭代和優(yōu)化基礎(chǔ)模型,并且會(huì)動(dòng)態(tài)迭代正確答案以便持續(xù)的完成SFT的過程,同時(shí)還會(huì)動(dòng)態(tài)的優(yōu)化獎(jiǎng)勵(lì)模型,從而讓獎(jiǎng)勵(lì)模型越來越好,進(jìn)而用獎(jiǎng)勵(lì)模型優(yōu)化基礎(chǔ)模型;整個(gè)過程,基礎(chǔ)模型慢慢的掌握回答正確答案的方法,越來越聰明,相比SFT只是模仿作答有明顯的差異;

3.需要的數(shù)據(jù)量

需要大量的人工標(biāo)注數(shù)據(jù),并且SFT的效果,依賴數(shù)據(jù)規(guī)模;而RFT只需要少量的微調(diào)數(shù)據(jù),然后利用RFT動(dòng)態(tài)優(yōu)化模型的機(jī)制,就可以讓模型變強(qiáng)大;

二、強(qiáng)化微調(diào)和傳統(tǒng)的”SFT+獎(jiǎng)勵(lì)模型+強(qiáng)化學(xué)習(xí)RLHF“有什么區(qū)別?

SFT+獎(jiǎng)勵(lì)模型+強(qiáng)化學(xué)習(xí)RLHF 這一套機(jī)制已經(jīng)不是什么新鮮玩意了,所以當(dāng)看到RFT其實(shí)就是把三者合并在一起這個(gè)觀點(diǎn)的時(shí)候會(huì)以為這僅僅是簡單做了一個(gè)合并然后重新包裝一個(gè)概念出來,事實(shí)上并不完全如此,如果僅僅是這樣的話,根本無法實(shí)現(xiàn)推理效果變得更好,認(rèn)真研究了一下其中的差異,具體如下,為了方便理解,我整理了兩個(gè)邏輯圖如下:

1. 傳統(tǒng)的SFT+獎(jiǎng)勵(lì)模型+強(qiáng)化學(xué)習(xí) 的工作原理

1.SFT:通過提供人工標(biāo)注數(shù)據(jù)(例如正確的輸入-輸出對(duì)),告訴基礎(chǔ)模型什么才是正確的答案,然后讓模型學(xué)會(huì)模仿這些答案,做出正確的回答;

2.獎(jiǎng)勵(lì)模型:通過提供對(duì)生成結(jié)果的反饋數(shù)據(jù)(比如多個(gè)生成結(jié)果的評(píng)分和排序數(shù)據(jù)),訓(xùn)練一個(gè)評(píng)分模型,用于對(duì)模型生成的多個(gè)結(jié)果進(jìn)行評(píng)分,獎(jiǎng)勵(lì)模型本質(zhì)上也是一個(gè)小一點(diǎn)的模型,它可以是基于大模型訓(xùn)練的模型,也可以是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型;獎(jiǎng)勵(lì)模型的核心包括2部分內(nèi)容:

①評(píng)分函數(shù):包括多個(gè)對(duì)生成結(jié)果評(píng)分的維度,比如生成結(jié)果的準(zhǔn)確性、簡易性、專業(yè)度等等,然后構(gòu)建一個(gè)評(píng)分函數(shù);

②反饋數(shù)據(jù):人工或者機(jī)器對(duì)生成結(jié)果做反饋和評(píng)分的數(shù)據(jù),用于訓(xùn)練評(píng)分模型

3.強(qiáng)化學(xué)習(xí):獎(jiǎng)勵(lì)模型對(duì)模型初始生成的多個(gè)結(jié)果做評(píng)分后,將這些評(píng)分結(jié)果提供給基礎(chǔ)模型,然后基于強(qiáng)化學(xué)習(xí)算法,調(diào)整基礎(chǔ)模型的參數(shù),讓模型根據(jù)評(píng)分結(jié)果調(diào)整生成的策略,這個(gè)過程中,模型可能會(huì)了解評(píng)分結(jié)果中哪些維度得分低,哪些維度得分高,從而嘗試生成更好的結(jié)果;

2. SFT+獎(jiǎng)勵(lì)模型+強(qiáng)化學(xué)習(xí) 運(yùn)行的過程

基礎(chǔ)模型結(jié)合人工標(biāo)注數(shù)據(jù)之后,微調(diào)一個(gè)模型出來,用于生成回答結(jié)果,這時(shí)模型生成的結(jié)果可能有ABCD多個(gè);

獎(jiǎng)勵(lì)模型對(duì)多個(gè)生成結(jié)果進(jìn)行評(píng)分,評(píng)估生成結(jié)果的得分,如果其中最高的得分已經(jīng)達(dá)到了優(yōu)秀結(jié)果的標(biāo)準(zhǔn)(標(biāo)準(zhǔn)可以是人工或者算法制定),則直接輸出最高得分的結(jié)果;如果生成結(jié)果不行,則啟動(dòng)強(qiáng)化學(xué)習(xí);

通過強(qiáng)化學(xué)習(xí)算法,模型基于評(píng)分結(jié)果進(jìn)一步的調(diào)整模型,讓模型嘗試生成更好的結(jié)果,并循環(huán)整個(gè)過程,知道輸出滿意的結(jié)果;

3. SFT+獎(jiǎng)勵(lì)模型+強(qiáng)化學(xué)習(xí)存在的問題

  1. SFT階段:需要整理大量的人工標(biāo)注數(shù)據(jù),成本比較高,并且每次迭代都需要更新數(shù)據(jù),整個(gè)過程是離線進(jìn)行的;
  2. 獎(jiǎng)勵(lì)模型階段:獎(jiǎng)勵(lì)模型的評(píng)分函數(shù)不能動(dòng)態(tài)更新,每次更新都需要離線進(jìn)行,并且反饋數(shù)據(jù)也是離線的,無法實(shí)時(shí)的更新反饋數(shù)據(jù);
  3. 基礎(chǔ)模型優(yōu)化階段:基礎(chǔ)模型的優(yōu)化也是離線的,無法自動(dòng)優(yōu)化基礎(chǔ)模型;

4. RFT與SFT+獎(jiǎng)勵(lì)模型+強(qiáng)化學(xué)習(xí)的區(qū)別

  1. SFT階段:動(dòng)態(tài)的獲取評(píng)分比較高的結(jié)果用于做微調(diào)數(shù)據(jù),持續(xù)的調(diào)整SFT的效果;
  2. 獎(jiǎng)勵(lì)模型階段:獎(jiǎng)勵(lì)模型的評(píng)分函數(shù)自動(dòng)優(yōu)化和調(diào)整,反饋數(shù)據(jù)動(dòng)態(tài)更新;
  3. 基礎(chǔ)模型優(yōu)化階段:動(dòng)態(tài)的獲取獎(jiǎng)勵(lì)模型的評(píng)估結(jié)果,通過強(qiáng)化模型,動(dòng)態(tài)的優(yōu)化基礎(chǔ)模型
  4. 以上的整個(gè)過程,都是自動(dòng)完成,并且動(dòng)態(tài)的更新;

三、奧特曼為什么要強(qiáng)調(diào)這個(gè)更新點(diǎn),為何模型的迭代方向是重視微調(diào)環(huán)節(jié)

1. 微調(diào)技術(shù)有利于讓開發(fā)者更好的利用現(xiàn)有的模型能力

當(dāng)下的模型事實(shí)上還沒有真正的被充分的利用,現(xiàn)在市場對(duì)于現(xiàn)有模型能力都還沒有消化完,持續(xù)的推出新的能力對(duì)于應(yīng)用的落地并沒有太大的幫助,所以預(yù)期持續(xù)的推出很多信息量很大的新的東西,不如首先先把現(xiàn)有的模型能力利用好,而提供更好的模型訓(xùn)練和微調(diào)的能力,有利于幫助開發(fā)者更好的利用現(xiàn)有的模型開發(fā)出更好的應(yīng)用;

2. 微調(diào)技術(shù)有利于幫助開發(fā)者更好的將大模型落地于應(yīng)用場景

大模型的落地需要結(jié)合場景,將大模型應(yīng)用到具體的應(yīng)用場景的核心,就是微調(diào)技術(shù)

四、強(qiáng)化微調(diào)模型怎么使用?

目前通過OpenAI官網(wǎng)創(chuàng)建微調(diào)模型,并上傳微調(diào)數(shù)據(jù),就可以通過強(qiáng)化微調(diào)微調(diào)一個(gè)模型,操作還是相對(duì)比較簡單的;目前可以基于O1和GPT4o做強(qiáng)化微調(diào),兩者在價(jià)格和能力上有明顯差別;

五、強(qiáng)化微調(diào)會(huì)帶來什么改變?

1. 開發(fā)者可以投入更少的成本,微調(diào)獲得一個(gè)更強(qiáng)大的模型;

如前面提到了,開發(fā)者只需要上傳少量的數(shù)據(jù),就可以完成微調(diào),這可以極大的降低開發(fā)者微調(diào)模型的成本,提高微調(diào)的效率,并且根據(jù)官方發(fā)表的觀點(diǎn),通過微調(diào)后的O1,運(yùn)行效果甚至可以超過O1完整版和O1-mini,這讓大模型的微調(diào)成本進(jìn)一步的下降,普通創(chuàng)業(yè)者也能輕松的微調(diào)模型;

2. 開發(fā)者可以更好的將大模型應(yīng)用于具體的場景;

大模型的場景化應(yīng)用邏輯,依賴模型微調(diào),微調(diào)門檻的下降,意味著開發(fā)者可以更加輕松的實(shí)現(xiàn)AI應(yīng)用的落地并提升應(yīng)用的效果;

六、強(qiáng)化微調(diào)對(duì)于企業(yè)的應(yīng)用有哪些?

以我的創(chuàng)業(yè)產(chǎn)品AI快研俠(kuaiyanai.com)的業(yè)務(wù)為例,強(qiáng)化微調(diào)的好處,可能是能夠讓我們能夠基于可以整理的數(shù)據(jù),快速的微調(diào)一個(gè)用于研報(bào)生成的模型,從而提升研報(bào)的生成的效果;

不過目前海外的模型使用不了的情況下,只能依賴國內(nèi)的模型也能盡快實(shí)現(xiàn)該能力,還是希望國內(nèi)大模型廠商們能加油,盡快追趕上海外的技術(shù),造福我等創(chuàng)業(yè)者;

七、我的一些思考

1)從當(dāng)下模型的發(fā)展方向的角度上,大模型的迭代路徑依然集中在如下幾個(gè)方向:

  • 解決數(shù)學(xué)計(jì)算、編程、科學(xué)方面的問題上,這三者代表了模型的智能程度,從OpenAI最新發(fā)布O1完整版能力,可以看到這點(diǎn),
  • 支持更強(qiáng)大的多模態(tài)能力:提升多模態(tài)大模型的能力,Day1發(fā)布會(huì)的時(shí)候,現(xiàn)場演示了拍攝一個(gè)手繪圖,就能計(jì)算復(fù)雜的問題,除了體現(xiàn)計(jì)算能力,也在體現(xiàn)多模態(tài)的能力;
  • 提升思考能力:增強(qiáng)以思維鏈為代表的,自我學(xué)習(xí)和自我思考的能力;
  • 降低訓(xùn)練和微調(diào)的難度:讓開發(fā)者可以更輕松的完成模型的訓(xùn)練和微調(diào);

2)當(dāng)下提升模型的能力的重點(diǎn),除了模型架構(gòu)的優(yōu)化,其次可能術(shù)、微調(diào)技術(shù)

我們可以看到之前從GPT3.5到GPT4,其中模型能力的迭代關(guān)鍵可能在于模型的架構(gòu),現(xiàn)在模型的架構(gòu)的邊際優(yōu)化提升可能比較低了,接下來可能重點(diǎn)在于訓(xùn)練技術(shù),其中強(qiáng)化學(xué)習(xí)可能是提升模型能力的關(guān)鍵手段,因此國內(nèi)的模型應(yīng)該會(huì)重點(diǎn)聚焦在強(qiáng)化學(xué)習(xí)的能力提升上;還是在訓(xùn)練技

還是比較期待接下來10天,OpenAI發(fā)布會(huì)的內(nèi)容,或許還有很多壓艙底的黑科技還沒有釋放出來,我會(huì)在接下來針對(duì)每天發(fā)布會(huì)的內(nèi)容輸出一些個(gè)人的認(rèn)知和思考。

作者:三白有話說,公眾號(hào):三白有話說

本文由 @三白有話說 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!