OpenAI 凌晨發(fā)布 o1 系列推理模型的兩個 o1-preview 以及 o1-mini,旨在真正像人類一樣思考
OpenAI在深夜發(fā)布了o1系列推理模型,標志著人工智能在模擬人類思考方面邁出了重要一步。新模型在處理科學、編程和數(shù)學問題上展現(xiàn)出前所未有的能力,預示著AI技術(shù)的又一次飛躍。本文介紹了o1系列模型的特點、安全性措施以及如何為不同用戶提供服務(wù)。
凌晨,OpenAI 在沒有任何預告下正式發(fā)布了全新 o1 系列模型:
據(jù)悉,這次發(fā)布的 o1-preview 是 o1?系列模型的首個嘗鮮版,OpenAI 預計會有定期的更新和改進。
與此同時,OpenAI 還包括了正在開發(fā)中的下一次更新的評估。
包括 o1 在內(nèi)的系列模型,旨在花更多時間進行思考,能夠推理復雜任務(wù),并在科學、編程和數(shù)學等領(lǐng)域解決比以往模型更難的問題。
OpenAI 將其比喻成人類。通過訓練,這些模型學會優(yōu)化思考過程,嘗試不同的策略,并能夠識別自己的錯誤,真正的像人類一樣思考。
OpenAI 透露,o1-preview 是系列推理模型在 ChatGPT 和 API 中的早期預覽,OpenAI 還計劃繼續(xù)開發(fā)并發(fā)布 GPT 系列的模型,同時發(fā)布新的 OpenAI o1系列模型。
除了模型更新外,OpenAI 預計還會增加瀏覽、文件和圖片上傳等功能,以使其對所有人更有用。
o1 系列及 o1-preview 模型
在 OpenAI 測試中,推理模型在物理、化學和生物等挑戰(zhàn)性基準任務(wù)中表現(xiàn)得與博士生相當。
在數(shù)學和編程方面表現(xiàn)出色。在國際數(shù)學奧林匹克(IMO)選拔考試中,GPT-4o 只正確解決了 13% 的問題,而推理模型得分為 83%。編程能力在比賽中達到了Codeforces 競賽的 89 百分位。
OpenAI 表示,作為早期模型,目前還不具備使 ChatGPT 實用的許多功能,比如瀏覽信息、上傳文件和圖片。對于許多常見情況,GPT-4o 在短期內(nèi)會更為強大。
但對于復雜的推理任務(wù),這代表了 AI 能力的重大進展。OpenAI 將計數(shù)器重置為1,并將這一系列命名為OpenAI o1。
安全性
在開發(fā)該系列新模型過程中,OpenAI 提出了一種新的安全訓練方法,利用它們的推理能力,使其遵循安全和一致性指南。通過在上下文中推理安全規(guī)則,模型能夠更有效地應(yīng)用這些規(guī)則。
OpenAI 通過測試模型在用戶嘗試繞過其安全規(guī)則(即“越獄”)時的表現(xiàn)來衡量安全性。
在OpenAI 最難的越獄測試中,GPT-4o 得分為22(滿分 100 分),而 OpenAI 的o1預覽模型得分為 84。
為了匹配這些模型的新能力,OpenAI 加強了OpenAI 的安全工作、內(nèi)部治理以及與聯(lián)邦政府的合作。
包括使用OpenAI 的《準備框架》進行嚴格的測試和評估、世界級的紅隊測試、以及包括安全與安保委員會在內(nèi)的董事會級別審查流程。
為了推進對AI安全的承諾,OpenAI 最近與美國和英國 AI 安全機構(gòu)達成了正式協(xié)議。OpenAI 已開始將這些協(xié)議落實到位,包括為這些機構(gòu)提供該模型研究版本的早期訪問。
適用人群
OpenAI 表示,這些增強的推理能力可能對解決科學、編程、數(shù)學等領(lǐng)域的復雜問題特別有用。
例如,o1可以幫助醫(yī)療研究人員標注細胞測序數(shù)據(jù),幫助物理學家生成量子光學所需的復雜數(shù)學公式,并幫助各領(lǐng)域的開發(fā)人員構(gòu)建和執(zhí)行多步工作流程。
OpenAI o1-mini
OpenAI 表示,o1系列在準確生成和調(diào)試復雜代碼方面表現(xiàn)優(yōu)異。
為了為開發(fā)人員提供更高效的解決方案,OpenAI 還發(fā)布了OpenAI o1-mini,這是一款更快、更便宜的推理模型,特別適用于編程。
作為較小的模型,o1-mini 的成本比 o1 預覽版便宜 80%,是一款適合需要推理但不需要廣泛世界知識的應(yīng)用的強大且具成本效益的模型。
如何使用 OpenAI o1
9 月 12 日起,ChatGPT Plus 和 Team 用戶可以在 ChatGPT 中訪問 o1 模型。可以手動選擇 o1-preview 和 o1-mini 模型,發(fā)布時每周的消息限制分別為30條和50條。
目前,OpenAI 正在努力增加這些限制,并使ChatGPT能夠自動選擇最合適的模型。下周,ChatGPT Enterprise 和 Edu 用戶也將能夠訪問這兩個模型。
據(jù)悉,開發(fā)者可以開始使用 API 原型開發(fā),限速為每分鐘20次請求。經(jīng)過額外測試后,OpenAI 將努力提高這些限制。
當前這些模型 API 不包括函數(shù)調(diào)用、流式傳輸、系統(tǒng)消息支持等功能。此外,OpenAI 也計劃為所有ChatGPT免費用戶提供 o1-mini 訪問權(quán)限。
本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號:【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自O(shè)penAI社交媒體截圖
AI賽道毋庸自疑是勢不可擋的,未來想要提高我們的核心競爭力學會用并且用的好是一個很關(guān)鍵的點