精品亚洲成a人在线观看,国产在线自揄拍揄视频网站

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

GPT現(xiàn)狀終于有人講清楚了！OpenAI大牛最新演講爆火，還得是馬斯克欽點的天才

量子位

2023-05-30

0 評論 2593 瀏覽 6 收藏

ChatGPT從誕生到現(xiàn)在，經(jīng)歷了幾個版本的迭代，產(chǎn)品功能也更為成熟。目前ChatGPT的情況是如何的？最新的產(chǎn)品功能是怎樣的，能幫我們完成什么工作？本文作者通過一個演講對此進行總結(jié)分析，希望對你有幫助。

繼Windows Copilot發(fā)布后，微軟Build大會熱度又被一場演講引爆。

前特斯拉AI總監(jiān)Andrej Karpathy在演講中認為思維樹（tree of thoughts）與AlphaGo的蒙特卡洛樹搜索（MCTS）有異曲同工之妙！

網(wǎng)友高呼：這是關(guān)于如何使用大語言模型和GPT-4模型的最詳盡有趣的指南！

此外Karpathy透露，由于訓練和數(shù)據(jù)的擴展，LLAMA 65B“明顯比GPT-3 175B更強大”，并介紹了大模型匿名競技場ChatBot Arena：

Claude得分介于ChatGPT 3.5和ChatGPT 4之間。

網(wǎng)友表示，Karpathy的演講一向很棒，而這次的內(nèi)容也一如既往沒有令大家失望。

隨著演講而爆火的，還有推特網(wǎng)友根據(jù)演講整理的一份筆記，足足有31條，目前轉(zhuǎn)贊量已超過3000+：

所以，這段備受關(guān)注的演講，具體提到了哪些內(nèi)容呢？

一、如何訓練GPT助手？

Karpathy這次的演講主要分為兩個部分。

第一部分，他講了如何訓練一個“GPT助手”。

Karpathy主要講述了AI助手的四個訓練階段：預訓練（pre-training）、監(jiān)督微調(diào)（supervised fine tuning）、獎勵建模（reward modeling）和強化學習（reinforcement learning）。

每一個階段都需要一個數(shù)據(jù)集。

在預訓練階段，需要動用大量的計算資源，收集大量的數(shù)據(jù)集。在大量無監(jiān)督的數(shù)據(jù)集上訓練出一個基礎(chǔ)模型。

Karpathy用了更多例子作補充：

接下來進入微調(diào)階段。

使用較小的有監(jiān)督數(shù)據(jù)集，通過監(jiān)督學習對這個基礎(chǔ)模型進行微調(diào)，就能創(chuàng)建一個能夠回答問題的助手模型。

他還展示了一些模型的進化過程，相信很多人之前已經(jīng)看過上面這張“進化樹”的圖了。

Karpathy認為目前最好的開源模型是Meta的LLaMA系列（因為OpenAI沒有開源任何關(guān)于GPT-4的內(nèi)容）。

在這里需要明確指出的是，基礎(chǔ)模型不是助手模型。

雖然基礎(chǔ)模型可以回答問題，但它所給出的回答并不可靠，可用于回答問題的是助手模型。在基礎(chǔ)模型上進行訓練的助手模型，通過監(jiān)督微調(diào)，在生成回復和理解文本結(jié)構(gòu)方面的表現(xiàn)將優(yōu)于基礎(chǔ)模型。

在訓練語言模型時，強化學習是另一個關(guān)鍵的過程。

通過用人工標記的高質(zhì)量的數(shù)據(jù)進行訓練，可以使用獎勵建模來創(chuàng)建一個損失函數(shù)，以改善其性能。然后，通過增加正向的標記，并降低負面標記的概率，來進行強化訓練。

而在具有創(chuàng)造性的任務中，利用人類的判斷力對于改進AI模型至關(guān)重要，加入人類的反饋可以更有效地訓練模型。

經(jīng)過人類反饋的強化學習后，就可以得到一個RLHF模型了。

模型訓練好了，接下來就是如何有效利用這些模型解決問題了。

二、如何更好地使用模型？

在第二部分，Karpathy主要討論了提示策略、微調(diào)、快速發(fā)展的工具生態(tài)系統(tǒng)以及未來的擴展等問題。

Karpathy又給出了具體示例來說明：

當我們在寫文章時候，我們會進行很多的心理活動，需要考慮自己的表述是否正確。而對于GPT來說，這只是一個序列標記（a sequence of tokens）。

而提示（prompt）可以彌補這種認知差異。

Karpathy進一步解釋了思維鏈提示的工作方式。

對于推理問題，要想讓自然語言處理中Transformer的表現(xiàn)更好，需要讓它一步一步地處理信息，而不能直接拋給它一個非常復雜的問題。

如果你給它幾個例子，它會模仿這個例子的模版，最終生成的結(jié)果會更好。

模型只能按照它的序列來回答問題，如果它生成的內(nèi)容是錯誤的，你可以進行提示，讓它重新生成。

如果你不要求它檢查，它自己是不會檢查的。

這就涉及到了System1和System2的問題。

諾貝爾經(jīng)濟學獎得主丹尼爾卡尼曼在《思考快與慢》中提出，人的認知系統(tǒng)包含System1和System2兩個子系統(tǒng)。System1主要靠直覺，而System2是邏輯分析系統(tǒng)。

通俗來說，System1是一個快速自動生成的過程，而System2是經(jīng)過深思熟慮的部分。

這在最近一篇挺火的論文“Tree of thought”（思維樹）中也有被提及。

深思熟慮指的是，不是簡單的給出問題的答案，而更像是與Python膠水代碼一起使用的prompt，將許多prompt串聯(lián)在一起。模型必須要維護多個提示，還必須要執(zhí)行一些樹搜索算法，來找出要擴展的提示。

Karpathy認為這種思路與AlphaGo非常相似：

AlphaGo在下圍棋時，需要考慮下一枚棋子下在哪里。最初它是靠模仿人類來學習的。

但除此之外，它還進行了蒙特卡洛樹搜索，可以得到具有多種可能性的策略。它可以對多種可能的下法進行評估，僅保留那些較好的策略。我認為這在某種程度上相當于AlphaGo。

對此，Karpathy還提到了AutoGPT：

我認為目前它的效果還不是很好，我不建議大家進行實際應用。我只是認為，隨著時間的推移，我們或許可以從它的發(fā)展思路中汲取靈感。

其次，還有一個小妙招是檢索增強生成（retrieval agumented generation）和有效提示。

窗口上下文的內(nèi)容就是transformers在運行時的記憶（working memory），如果你可以將與任務相關(guān)的信息加入到上下文中，那么它的表現(xiàn)就會非常好，因為它可以立即訪問這些信息。

簡而言之，就是可以為相關(guān)數(shù)據(jù)建立索引讓模型可以高效訪問。

如果Transformers也有可參考的主要文件，它的表現(xiàn)會更好。

最后，Karpathy簡單講了一下在大語言模型中的約束提示（Constraint prompting）和微調(diào)?？梢酝ㄟ^約束提示和微調(diào)來改進大語言模型。約束提示在大語言模型的輸出中強制執(zhí)行模板，而微調(diào)則調(diào)整模型的權(quán)重以提高性能。

我建議在低風險的應用中使用大語言模型，始終將它們與人工監(jiān)督相結(jié)合，將它們看作是靈感和建議的來源，考慮copilots而不是讓它們完全自主代理。

三、關(guān)于Andrej Karpathy

Andrej Karpathy博士畢業(yè)后的第一份工作，是在OpenAI研究計算機視覺。

后來OpenAI聯(lián)合創(chuàng)始人之一的馬斯克看上了Karpathy，把人挖到了特斯拉。但也因為這件事，馬斯克和OpenAI徹底鬧翻，最后還被踢出局。在特斯拉，Karpathy是Autopilot、FSD等項目的負責人。

今年二月份，在離開特斯拉7個月后，Karpathy再次加入了OpenAI。

最近他發(fā)推特表示，目前對開源大語言模型生態(tài)系統(tǒng)的發(fā)展饒有興趣，有點像早期寒武紀爆發(fā)的跡象。

傳送門：[1]https://www.youtube.com/watch?v=xO73EUwSegU（演講視頻）[2]https://arxiv.org/pdf/2305.10601.pdf（“Treeof thought”論文）

參考鏈接：[1]https://twitter.com/altryne/status/1661236778458832896[2]https://www.reddit.com/r/MachineLearning/comments/13qrtek/n_state_of_gpt_by_andrej_karpathy_in_msbuild_2023/[3]https://www.wisdominanutshell.academy/state-of-gpt/

作者：西風

原文標題：GPT現(xiàn)狀終于有人講清楚了！OpenAI大牛最新演講爆火，還得是馬斯克欽點的天才

來源公眾號：量子位（ID：QbitAI），追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @量子位授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議。

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

量子位

追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

74篇作品 197463總閱讀量

用戶畫像搭建思路——了解用戶行為目標及痛點

03-1446939 瀏覽

360°表單設(shè)計指南，快速掌握「表單」設(shè)計知識點（上）

03-309605 瀏覽

揭開IAP支付的面紗

03-206517 瀏覽

退貨預收模式（云倉/三方倉）

06-203042 瀏覽

如何像「大廠」那樣做好私域活動增長

01-054577 瀏覽

評論

目前還沒評論，等你發(fā)揮！

如何基于AHP層次分析法進行客戶價值評估

08-285750 瀏覽
2023，創(chuàng)意包裝的5種趨勢

07-135722 瀏覽
Data Dollars Deals：為什么你在講策略，員工覺得你在吹牛

09-201386 瀏覽

GPT現(xiàn)狀終于有人講清楚了！OpenAI大牛最新演講爆火，還得是馬斯克欽點的天才

一、如何訓練GPT助手？

二、如何更好地使用模型？

三、關(guān)于Andrej Karpathy

GPT現(xiàn)狀終于有人講清楚了！OpenAI大牛最新演講爆火，還得是馬斯克欽點的天才

一、如何訓練GPT助手？

二、如何更好地使用模型？

三、關(guān)于Andrej Karpathy