OpenAI發(fā)布最新模型o1應用場景和對大語言模型產(chǎn)品的7點啟發(fā)

0 評論 1698 瀏覽 0 收藏 11 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

OpenAI 最新推出的 GPT-o1 模型,以其卓越的推理能力和安全性,為人工智能領域帶來了新的發(fā)展機遇。本文深入探討了 GPT-o1 的命名由來、安全性優(yōu)勢、適用的新場景,以及它在 AIGC 領域的七點啟發(fā)。

OpenAI新模型為何命名為GPT-o1?

像人類一樣在說話前花更多時間思考問題。通過訓練OpenAI-o1學會了優(yōu)化思維過程,嘗試不同的策略,并能識別自己的錯誤。在國際數(shù)學奧林匹克(IMO)資格考試中,GPT-4o 僅正確解決了 13% 的問題,而o1推理模型的得分為 83%。它們的編程能力也在競賽中得到評估,達到了 Codeforces 比賽的 89% 分位。

o1尚未具備許多讓 ChatGPT 實用的功能,例如瀏覽網(wǎng)頁獲取信息、上傳文件和圖像。在許多常見情況下,GPT-4o 在近期內(nèi)將更具能力。

但對于復雜的推理任務,這是一項重大進展,代表了人工智能能力的新水平。鑒于此,將計數(shù)器重置為1,并將這個系列命名為 OpenAI o1。

安全性

在開發(fā)這些新模型的過程中,o1提出了一種新的安全訓練方法,利用模型的推理能力使其遵循安全和一致性指南。

通過在上下文中推理安全規(guī)則,模型能夠更有效地應用這些規(guī)則。

衡量安全性的一種方式是測試模型在用戶試圖繞過其安全規(guī)則時(稱為“越獄”)能多大程度上繼續(xù)遵守安全規(guī)則。在最難的越獄測試之一中,GPT-4o 的得分為 22(在 0-100 的評分標準上),而 o1-preview 模型得分為 84。

適用新場景

在處理科學、編程、數(shù)學等領域中的復雜問題,這些增強的推理能力特別有用。

例如,o1 可以被醫(yī)療研究人員用來標注細胞測序數(shù)據(jù),被物理學家用來生成量子光學所需的復雜數(shù)學公式,并可供各領域的開發(fā)者用于構(gòu)建和執(zhí)行多步驟的工作流程。

OpenAI o1-mini

o1系列在準確生成和調(diào)試復雜代碼方面表現(xiàn)出色。為了為開發(fā)者提供更高效的解決方案,發(fā)布了 OpenAI o1-mini,這是一款速度更快、成本更低的推理模型,尤其在編程方面非常有效。作為一款較小的模型,o1-mini 比 o1-preview 便宜 80%,使其成為在需要推理但不需要廣泛世界知識的應用中,一款強大且具有成本效益的模型。

一、如何使用 OpenAI o1

從今天開始,ChatGPT Plus 和 Team 用戶將能夠在 ChatGPT 中訪問 o1 模型。用戶可以在模型選擇器中手動選擇 o1-preview 和 o1-mini 兩個版本。上線時,o1-preview 每周的消息限制為 30 條,o1-mini 的限制為 50 條。并使 ChatGPT 能夠根據(jù)給定的提示自動選擇合適的模型。

綜上我們終于看到了推理階段擴展范式的普及和生產(chǎn)部署。

二、o1 帶給我們AIGC領域的啟發(fā)

在預訓練上的Scalling law到底有沒有失效?

啟發(fā)一:Scalling law 失效還是有效?

Scalling law 是縮放定律是物理量之間的關(guān)系,其中所有物理量都以冪次形式出現(xiàn),持續(xù)的投放更多的算力卡在模型預訓練輸出結(jié)果上大模型的精度會冪次方提升嗎?

目前OpenAI給出的答案是NO 1

如Sutton在《Bitter Lesson》中所說,只有兩種技術(shù)可以隨著計算資源的增加而無限擴展:”學習”和”搜索”。

目前OpenAI o1選擇了搜索,既推理。

啟發(fā)二:推理不是模型越大越好

推理不需要一個龐大的模型來進行。

因為許多參數(shù)都是為了記憶事實,從而在類似問答比賽(Trivia QA)等基準測試中表現(xiàn)良好。

實際上,可以將推理從知識中分離出來,也就是通過一個小型的“推理核心”來調(diào)用像瀏覽器、代碼驗證器這樣的工具。

這可能會減少預訓練所需的計算量。

啟發(fā)三:大量算力可以從預訓練和調(diào)整參數(shù)到推理服務中

大型語言模型(LLMs)本質(zhì)上是基于文本的模擬器。

通過在模擬器中展開多種可能的策略和場景,模型最終會收斂到優(yōu)質(zhì)的解決方案。

這一過程是一個已經(jīng)被充分研究過的問題,比如AlphaGo的蒙特卡洛樹搜索(MCTS)。

注解:蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS) 是一種基于隨機模擬的搜索算法,主要用于解決需要進行決策和推理的復雜問題,如棋類游戲(例如圍棋、國際象棋等)。MCTS通過模擬游戲中的不同可能走法,逐步構(gòu)建和優(yōu)化決策樹,從而在復雜的狀態(tài)空間中找到最優(yōu)策略。

啟發(fā)四:擴展業(yè)務推理算力比擴招模型參數(shù)算力更高效

業(yè)界永遠比學界領先一步實踐,上個月,Arxiv上相隔一周發(fā)表了兩篇論文:

  • 《大型語言猴子:通過重復采樣擴展推理計算》。Brown 等人發(fā)現(xiàn),DeepSeek-Coder 在 SWE-Bench 上的表現(xiàn)從一次采樣的 15.9% 提升到 250 次采樣的 56%,超過了 Sonnet-3.5。
  • 《在測試時計算擴展比擴展模型參數(shù)更有效》。Snell 等人發(fā)現(xiàn),PaLM 2-S 在 MATH 測試中通過測試時搜索擊敗了大 14 倍的模型。

將 o1 產(chǎn)品化遠比達到學界基準困難得多。在實際推理問題中,如何決定何時停止搜索?獎勵函數(shù)是什么?成功標準是什么?何時在循環(huán)中調(diào)用像代碼解釋器這樣的工具?如何考慮這些 CPU 過程的計算成本?他們的研究報告中并沒有詳細分享這些內(nèi)容。

啟發(fā)五:未來LLMs數(shù)據(jù)數(shù)量和數(shù)據(jù)質(zhì)量比算力更有價值

MCTS搜索主要由四個步驟組成:

  1. 選擇(Selection):從根節(jié)點(即當前局面)出發(fā),根據(jù)某種策略(如 UCB1 算法)選擇一個節(jié)點,沿著樹的路徑向下搜索,直到找到尚未完全展開的節(jié)點(即有子節(jié)點尚未探索的節(jié)點)。
  2. 擴展(Expansion):如果所選的節(jié)點有可以展開的子節(jié)點,那么會從中隨機選擇一個未被探索的子節(jié)點進行擴展,即將該節(jié)點加入到?jīng)Q策樹中。
  3. 模擬(Simulation):從新擴展的節(jié)點開始,通過隨機走法模擬出游戲的結(jié)果,直到游戲結(jié)束。這一步可以被視為對該節(jié)點后續(xù)發(fā)展的一次模擬評估。
  4. 回溯更新(Backpropagation):將模擬的結(jié)果從擴展的節(jié)點向上反饋,更新沿途經(jīng)過的所有節(jié)點的統(tǒng)計數(shù)據(jù),如勝率或價值。通過反復執(zhí)行這些步驟,樹中的不同節(jié)點逐漸得到越來越多的評估數(shù)據(jù),幫助系統(tǒng)做出更好的決策。

構(gòu)建搜索軌跡包含正負獎勵的訓練數(shù)據(jù)集的意義和價值可能比堆10000張卡有意義。

啟發(fā)六:o1的應用場景

o1模型的應用場景,其實它并不適合所有情況。o1的鏈式推理更適合那些需要層層推導的任務,因為它擅長把問題拆解成多個步驟,逐步推理出結(jié)果。

類似CoT, ToT。

但問題是,有些題目本身并不需要那么復雜的推理過程,反而需要更直接的解法,這時候o1反而顯得有點“用力過猛”。你讓它處理一個不太復雜的問題,它可能會過度拆解,導致不必要的時間和算力浪費。這樣一來,它的慢速反應和高計算成本就成了劣勢。

而像需要嵌入獎勵模型(reward model)的場景,o1就更能發(fā)揮優(yōu)勢。它通過反復推理和采樣找到最優(yōu)解,而獎勵模型可以幫助它評估每個步驟的正確性,最終優(yōu)化出一個更合適的答案。因此,o1特別適合那些需要多層次決策和精確推理的復雜場景,而并非所有問題都適合用它來解決。

啟發(fā)七:LLMs創(chuàng)業(yè)不要在OpenAI炮火的覆蓋邊界里

這次o1會轟炸掉一批用LLMs做編程的項目、做醫(yī)療數(shù)據(jù)標注的項目

做LLM-agent優(yōu)化大語言模型的幻覺問題的智能體也被轟炸了。

做大語言模型領域的創(chuàng)業(yè)產(chǎn)品,首先不要做OpenAI炮火覆蓋范圍內(nèi)的,但是可以做很多OpenAI 10年內(nèi)覆蓋不到的產(chǎn)品!

專欄作家

連詩路AI產(chǎn)品,公眾號:AI產(chǎn)品有思路。人人都是產(chǎn)品經(jīng)理專欄作家,《產(chǎn)品進化論:AI+時代產(chǎn)品經(jīng)理的思維方法》一書作者,前阿里產(chǎn)品專家,希望與創(chuàng)業(yè)者多多交流。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Pixabay,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
19600人已学习13篇文章
本专题分享了内容审核的设计思路。
专题
16159人已学习12篇文章
对于产品经理来说,做用户调研是一项很重要的过程。本专题的文章分享了如何做好用户调研。
专题
36801人已学习13篇文章
如何让你的事件营销深入人心?
专题
14971人已学习13篇文章
本专题的文章分享了搭建营销中心指南。
专题
12265人已学习12篇文章
在各大产品中,都离不开会员体系的建立,那么会员权益模块产品该如何设计?本专题的文章分享了会员权益设计的思考
专题
14348人已学习13篇文章
互联网IT技术与产业的结合,衍生出了许多生命力强大的平台经济,货运领域就是如此衍生而来的。本专题的文章帮助大家了解货运平台。