大模型「混亂期」:誰(shuí)能在混亂期中突出重圍?
隨著ChatGPT的爆火,對(duì)百度、騰訊、阿里和字節(jié)為代表的國(guó)內(nèi)互聯(lián)網(wǎng)大廠來(lái)說(shuō)都不想錯(cuò)過(guò)這個(gè)機(jī)會(huì)。如何在底層模型能力上跑出一大批落地的 AI 應(yīng)用,抓住這個(gè)混亂期成功突圍?國(guó)產(chǎn)大模型什么時(shí)候能跟 ChatGPT 一樣好用?
ChatGPT 爆火一年,大模型的競(jìng)爭(zhēng)走到哪一步了?
從微信指數(shù)的數(shù)據(jù),可以管中窺豹到各家大模型的感知度,ChatGPT 遙遙領(lǐng)先,依然是國(guó)內(nèi)大模型們追趕的對(duì)象。
而國(guó)內(nèi)互聯(lián)網(wǎng)大廠的大模型梯隊(duì)中,百度的文心一言和阿里的通義千問(wèn),依賴于發(fā)布時(shí)間較早,是產(chǎn)品感知度比較高的存在,尤其是文心一言3 月率先發(fā)布、 8月全面開(kāi)放,已經(jīng)進(jìn)化到 4.0 版本。
而老對(duì)手騰訊和字節(jié),分別在今年 8 月和 9 月亮相了自家的大模型產(chǎn)品,在時(shí)間線上屬于跟進(jìn) ChatGPT 較晚的梯隊(duì),姿態(tài)也都相對(duì)低調(diào)。
先看字節(jié)的大模型戰(zhàn)略,是先在 8 月上線了 AI 聊天機(jī)器人「豆包」,隨后自研的大模型產(chǎn)品云雀在 9 月浮出水面,而「豆包」正是云雀大模型在垂直場(chǎng)景中的應(yīng)用產(chǎn)品。
最新的動(dòng)作是,在海外上線 AI 產(chǎn)品「ChitChop」,應(yīng)用場(chǎng)景比「豆包」的海外版本「 Cici 」更豐富,如此密集的產(chǎn)品布局,被外界認(rèn)為是字節(jié)從「 APP 工廠」朝「 AI工廠」邁進(jìn)。
再看騰訊的混元大模型,正式發(fā)布于 9 月,屬于國(guó)內(nèi)互聯(lián)網(wǎng)大廠中最晚入場(chǎng)的玩家,也是至今沒(méi)有單獨(dú)發(fā)布獨(dú)立大模型 APP 的互聯(lián)網(wǎng)大廠。混元大模型最直接的使用場(chǎng)景還是在微信小程序內(nèi),發(fā)布后最大的變化是, 10 月底開(kāi)放了文生圖功能。
不做獨(dú)立 APP ,而是利用微信豐沛的流量做大模型小程序,優(yōu)先迭代基礎(chǔ)能力,是騰訊混元大模型的現(xiàn)狀;而同樣流量豐沛的字節(jié),則選擇布局多款 AI 大模型垂直產(chǎn)品,在國(guó)內(nèi)外市場(chǎng)同時(shí)押注。
至此,字節(jié)和騰訊這對(duì)老冤家,正在大模型的賽道背道而馳。
OpenAI上線一年,其自身團(tuán)隊(duì)的變動(dòng)成了大模型混亂期的轉(zhuǎn)折點(diǎn);而當(dāng)國(guó)內(nèi)「百模大戰(zhàn)」告一段落,誰(shuí)能在混亂期中突出重圍?
一、騰訊,依然「不著急」?
關(guān)于大模型能力的測(cè)試有很多,各家大模型的產(chǎn)品能力也各有千秋。
騰訊方面曾宣稱,在信通院測(cè)評(píng)主流大模型測(cè)試中,混元的模型開(kāi)發(fā)和模型能力均獲得了當(dāng)前的最高分?jǐn)?shù)。
相較之下,第三方個(gè)人測(cè)評(píng)更直觀,在科技公司研究員Yuri自發(fā)研究的測(cè)評(píng)中,騰訊混元大模型在國(guó)產(chǎn)大模型的同題測(cè)試中排名靠后。
Yuri通過(guò)一套考公的行政職業(yè)能力筆試測(cè)驗(yàn)題,對(duì)百度文心一言、字節(jié)豆包、阿里通義千問(wèn)和騰訊混元大模型進(jìn)行了測(cè)試,一共 99 道題目。結(jié)果顯示,混元大模型在常識(shí)判斷、言語(yǔ)理解與表達(dá)和推理判斷等方面都差強(qiáng)人意,總體上的正確率為 34.3%,排在 12 個(gè)國(guó)產(chǎn)大模型末尾。
「混元是此次測(cè)試讓我大跌眼鏡的模型,沒(méi)有之一?!筜uri在測(cè)試后點(diǎn)評(píng)說(shuō),「前十道題連錯(cuò)是我完全沒(méi)想到的,我大概半年前就一直在期待宇宙廠和鵝廠的模型,覺(jué)得他們或許會(huì)帶來(lái)驚喜感,宇宙廠達(dá)到了預(yù)期,但沒(méi)想到鵝廠的模型居然是醬紫?!?/p>
Yuri也在測(cè)試中說(shuō)明,「本測(cè)試結(jié)果沒(méi)有任何地緣和公司立場(chǎng),單從一個(gè)用戶體驗(yàn)角度評(píng)論,僅表示模型在所測(cè)試題目及同類題目的任務(wù)表現(xiàn),并不能完全代表模型在其他任務(wù)上的能力和表現(xiàn)?!?/strong>
這次測(cè)試的時(shí)間為 11 月中旬,而 GPT-4 的測(cè)試結(jié)果為正確率 73.7%,Yuri最后總結(jié),「Open AI 在燈塔尖,我們?cè)陂L(zhǎng)城內(nèi),大家都有光明的前途吶」。
他同時(shí)提到,混元的回答生成速度跟通義千問(wèn)差不多,但測(cè)試中共用了 7 輪對(duì)話完成這次測(cè)試,單次對(duì)話的上限是 30 次,多了之后就會(huì)出現(xiàn)「會(huì)話過(guò)長(zhǎng),請(qǐng)開(kāi)始新會(huì)話」的提示。
第三方個(gè)人測(cè)試一定程度上反映出了混元大模型的問(wèn)題。此前就有騰訊內(nèi)部人士稱,混元大模型在公司內(nèi)部受到了批評(píng)。相關(guān)測(cè)試者透露,「不好用」是騰訊內(nèi)部一部分人的共識(shí)。
「不著急」是今年9月份,騰訊混元大模型對(duì)自己的定調(diào)。雖然后續(xù)一直在更新迭代,但版本更迭速度相比國(guó)內(nèi)同行的確稍慢。
截至 12 月 7 日,混元大模型對(duì)外使用的版本為V1.5.5,距離混元大模型正式發(fā)布已經(jīng)過(guò)去了整整三個(gè)月,而百度文心一言已經(jīng)在 10 月份開(kāi)啟了4.0 收費(fèi)版本,同期阿里通義千問(wèn)也進(jìn)化到了 2.0 版本。
不跟同行比,或許可以說(shuō)是混元大模型一大特色。其發(fā)布后一直低調(diào)前行,最初只限于邀請(qǐng)測(cè)試,10 月開(kāi)始逐漸放開(kāi),最新的動(dòng)作是在 10 月 26 日官宣開(kāi)放「文生圖」功能,并稱升級(jí)后的騰訊混元中文能力整體超過(guò)GPT3.5,代碼能力大幅提升20%。
最能展現(xiàn)騰訊混元大模型升級(jí)進(jìn)化的案例是,不同進(jìn)化階段對(duì)同一問(wèn)題的回答。
同一個(gè)問(wèn)題,混元大模型在 10 月和 12 月給出的不同答案「藍(lán)洞商業(yè)」在 10 月中旬的測(cè)試中發(fā)現(xiàn),混元大模型對(duì)未知的問(wèn)題會(huì)給出幻覺(jué)性的答案。其實(shí),幻覺(jué)問(wèn)題一直是大模型的通病,簡(jiǎn)而言之就是杜撰甚至是一本正經(jīng)的胡說(shuō)八道。而升級(jí)之后,12 月的表現(xiàn)明顯更智能,對(duì)未知的問(wèn)題會(huì)給出帶有可解釋和可說(shuō)明性的答案。
早在 9 月份,騰訊混元大模型發(fā)布時(shí),其就稱在解決「大模型幻覺(jué)」問(wèn)題上能力突出,主要方法是不依賴外掛,在預(yù)訓(xùn)練階段通過(guò)「探真」算法進(jìn)行事實(shí)修正,讓混元大模型的幻覺(jué)相比主流開(kāi)源大模型降低了 30 %至 50 %。
騰訊旗下 AI Lab 也曾就大模型的幻覺(jué)問(wèn)題做出論文研究,題目為《AI 海洋中的海妖之歌:大語(yǔ)言模型中的幻覺(jué)調(diào)查》??梢哉f(shuō),騰訊在「大模型幻覺(jué)」問(wèn)題上早已有所準(zhǔn)備。
聚焦自身大模型技術(shù)和能力的升級(jí),而不是像百度、字節(jié)一樣廣泛拓展 C 端應(yīng)用場(chǎng)景,可以看作目前騰訊混元大模型的重要戰(zhàn)略之一。
同時(shí)存在的問(wèn)題是,混元大模型仍局限在騰訊流量范圍內(nèi),尚未與對(duì)手產(chǎn)生正面競(jìng)爭(zhēng)。
二、字節(jié)從「APP工廠」到「AI工廠」
退中有進(jìn),是字節(jié) 11 月的關(guān)鍵詞。
就在 PICO 和朝夕光年大幅度裁員縮減團(tuán)隊(duì)規(guī)模后,字節(jié)成立了一個(gè)新 AI 部門Flow,技術(shù)負(fù)責(zé)人為字節(jié)跳動(dòng)技術(shù)副總裁洪定坤,業(yè)務(wù)帶頭人為字節(jié)大模型團(tuán)隊(duì)的負(fù)責(zé)人朱文佳。此舉被解讀為字節(jié)押注大模型,減少游戲和 XR 相關(guān)的投入。
Flow 聚焦的是 AI 應(yīng)用層,也就是大模型廠商最渴望得到的能落地的應(yīng)用產(chǎn)品。字節(jié)在 AI 相關(guān)應(yīng)用層最新發(fā)布的產(chǎn)品「ChitChop」,由新加坡公司 POLIGON 開(kāi)發(fā),在海外上線運(yùn)營(yíng)。
此前,字節(jié)曾在國(guó)內(nèi)和國(guó)際上推出了豆包和Cici,這兩款初級(jí)階段的產(chǎn)品都是提供知識(shí)問(wèn)答、續(xù)寫、內(nèi)容生成等服務(wù)。
而 ChitChop 的主打功能遠(yuǎn)比此前的 Cici 和豆包更全能,200 多款智能應(yīng)用遍布AI創(chuàng)作、AI 繪圖、休閑娛樂(lè)、學(xué)習(xí)提升、工作效率提升和生活助手六大方面,號(hào)稱「旨在提供創(chuàng)造性靈感和提升效率」。
至此,新加坡成了字節(jié)在 AI 戰(zhàn)略中的重心所在,POLIGON 是字節(jié)海外的重要運(yùn)營(yíng)公司之一,2020年在新加坡注冊(cè)成立,主營(yíng)業(yè)務(wù)是軟件和應(yīng)用程序的開(kāi)發(fā),其次是電腦游戲的開(kāi)發(fā)。
更關(guān)鍵的是團(tuán)隊(duì)核心所在。2021 年,原今日頭條 CEO 朱文佳調(diào)任新加坡,負(fù)責(zé) Tiktok 的技術(shù)研發(fā),外界猜測(cè)新加坡將成為 Tiktok 海外新總部駐地。另?yè)?jù)《中國(guó)企業(yè)家》報(bào)道,張一鳴目前身處新加坡,他招聘了數(shù)名 OpenAI 的員工來(lái)組建團(tuán)隊(duì),學(xué)習(xí) AI,探索一些新玩法。
海外上線的 ChitChop,目前下載量等數(shù)據(jù)并不亮眼,但可以看作是字節(jié)在大模型 C 端應(yīng)用層面的一次探路。但潛在問(wèn)題是,海外版的ChitChop,Logo的標(biāo)識(shí)也是簡(jiǎn)寫的 CC,這與此前發(fā)布的 CiCi 在名稱上有很大的雷同,極容易被混淆。
ChitChop背后的支持是字節(jié)的云雀大語(yǔ)言模型,如果說(shuō) ChitChop 是做好的商品,云雀大模型就是背后的提供商品的大商場(chǎng)。ChitChop 借助云雀大語(yǔ)言模型的能力,能夠提供更加智能和個(gè)性化的服務(wù)。
而云雀大語(yǔ)言模型只是字節(jié) AI 戰(zhàn)略的一部分,其還通過(guò)火山引擎做大模型的平臺(tái)服務(wù)。也就是說(shuō),B 端模型層和 C 端應(yīng)用層,兩手都要抓。
火山引擎智能算法負(fù)責(zé)人、火山方舟負(fù)責(zé)人吳迪曾公開(kāi)表示,「火山方舟平臺(tái)上面有眾多優(yōu)質(zhì)的、精選的國(guó)內(nèi)的高質(zhì)量商用模型,像智譜 AI 的 ChatGLM 的商用版本,像 MiniMax 的 MiniMax-ABAB 5.5 以及字節(jié)的云雀模型等等。我們有很多客戶基于方舟平臺(tái),在這些優(yōu)質(zhì)的商用模型上去開(kāi)發(fā)自己的應(yīng)用?!?/p>
而依賴于抖音和 TikTok 的影響力,多個(gè) AI 相關(guān)產(chǎn)品將借勢(shì)推出。
據(jù)公開(kāi)報(bào)道,字節(jié)將推出一個(gè)名為「機(jī)器人開(kāi)發(fā)平臺(tái)」的開(kāi)放平臺(tái),允許用戶自主創(chuàng)建自己的聊天機(jī)器人。此外,抖音還計(jì)劃在主APP內(nèi)推出多個(gè) AI 聊天機(jī)器人,近期已經(jīng)上線的「抖音心晴」定位情緒關(guān)懷機(jī)器人。
既做商品,又做商場(chǎng),萬(wàn)箭齊發(fā)、廣泛布局的策略,自然很容易被理解為字節(jié)從「APP 工廠」變成「AI 工廠」。
問(wèn)題在于,在底層大模型技術(shù)和能力完全落后于 ChatGPT 的狀態(tài)下,應(yīng)用場(chǎng)景是否真的有競(jìng)爭(zhēng)力?曾經(jīng)在移動(dòng)互聯(lián)網(wǎng)時(shí)代成功的打法,能否在 AI 大模型成功復(fù)用?都是留給字節(jié)的拷問(wèn)。
大模型的基礎(chǔ)能力,決定了應(yīng)用場(chǎng)景的上限,尤其是 ChatGPT4.5 版本即將到來(lái),字節(jié)的 ChitChop 尚且稚嫩,在海外市場(chǎng)能否正面競(jìng)爭(zhēng)?也是一個(gè)未知數(shù)。
三、誰(shuí)能抓住 OpenAI 的混亂期?
就在山姆·奧爾特曼被戲劇性趕下臺(tái),又在微軟的支持下重回 OpenAI 的 CEO 之位,各方 AI 勢(shì)力都在蠢蠢欲動(dòng),試圖在這個(gè)混亂期,重新找回屬于自己的人工智能機(jī)會(huì)點(diǎn)。
以谷歌為代表,12 月 7 日發(fā)布的 AI 大模型 Gemini,就號(hào)稱比包括 ChatGPT 在內(nèi)的目前市場(chǎng)上任何產(chǎn)品都要強(qiáng)大,其發(fā)布了高中低三個(gè)版本的大模型,分別是適用于高度復(fù)雜任務(wù)的 Gemini Ultra 、適用于各種任務(wù)的最佳模型 Gemini Pro 以及適用于端側(cè)設(shè)備的 Gemini Nano 。
其中 Gemini Pro 對(duì)標(biāo)的是免費(fèi)版 ChatGPT,而最高版本的 Gemini Pro 將于明年年初開(kāi)始給開(kāi)發(fā)人員廣泛使用。
而同樣是大模型加應(yīng)用層的策略,谷歌的 Bard 聊天機(jī)器人遠(yuǎn)遠(yuǎn)落后于 ChatGPT,而發(fā)布大模型之后,谷歌將把Gemini 大模型的能力賦加在 Bard 聊天機(jī)器人上,明年還將發(fā)布一款名為 Bard Advanced 的聊天機(jī)器人,而適用于端側(cè)設(shè)備的 Gemini Nano 大模型則會(huì)引入安卓手機(jī)中。
在谷歌最吸引人的 6 分多鐘演示視頻中,Gemini 大模型的能力得以展示,它可以根據(jù)人在紙上隨意畫出的形象,實(shí)時(shí)給出人一樣的判斷和推理回答,并且能夠檢查物理作業(yè)問(wèn)題,診斷預(yù)先寫好的解決方案,并給出正確答案。
但僅僅兩天后,谷歌就被「打臉」了,谷歌大模型并沒(méi)有外界傳說(shuō)的那么驚艷。
事實(shí)上,那段演示視頻并非是實(shí)時(shí)進(jìn)行的,也不是通過(guò)語(yǔ)音對(duì)話完成的,Gemini 并不能達(dá)到視頻中的效果,谷歌方面后來(lái)承認(rèn),「為了本次演示,我們縮短了延遲并精簡(jiǎn)了 Gemini 的輸出?!?/p>
而根據(jù)谷歌自己發(fā)布的數(shù)據(jù)對(duì)比圖,Gemini Ultra 僅以微弱優(yōu)勢(shì)領(lǐng)先于 OpenAI 的 GPT-4 模型,換句話說(shuō),谷歌最新的 AI 模型,水平僅僅比 OpenAI 一年前的基礎(chǔ)高一點(diǎn)而已,并非有巨大的優(yōu)勢(shì),況且目前真正代表 OpenAI 實(shí)力的,是下一代的 GPT-4.5或 GPT-5。
可以說(shuō),即便是巨頭谷歌,當(dāng)下 AI 發(fā)展的狀態(tài)也是追趕 OpenAI,其急于通過(guò)產(chǎn)品展示和證明自己的 AI 發(fā)展速度,本身是一種利用 OpenAI 混亂期的營(yíng)銷策略。
OpenAI 的混亂期,是 AI 行業(yè)滾滾浪潮中的一個(gè)插曲,尤其是「 GPT 商店」推遲到 2024 年發(fā)布,這無(wú)疑是 OpenAI 商業(yè)化前進(jìn)中的一個(gè)減速動(dòng)作,對(duì)OpenAI來(lái)說(shuō)是一個(gè)坎坷,但對(duì)行業(yè)競(jìng)爭(zhēng)者來(lái)說(shuō),可能就是一個(gè)突圍時(shí)機(jī)。
「百模大戰(zhàn)」已經(jīng)告一段落,謹(jǐn)慎如騰訊,激進(jìn)如字節(jié)。這對(duì)昔日的老冤家,如今都在大模型戰(zhàn)略上不遺余力,走上了截然不同的發(fā)展路徑,背道而馳:一個(gè)極力擴(kuò)充 AI 大模型的使用場(chǎng)景,找到下一個(gè)超級(jí)流量入口;另外一個(gè)則是不斷打磨大模型的技術(shù)和能力,把使用場(chǎng)景局限在小程序范圍內(nèi)。
AI 大模型之戰(zhàn)是互聯(lián)網(wǎng)巨頭不能丟掉的陣地,而對(duì)百度、騰訊、阿里和字節(jié)為代表的國(guó)內(nèi)互聯(lián)網(wǎng)大廠來(lái)說(shuō),各家的底層大模型產(chǎn)品雖然數(shù)據(jù)能力各有差異,但基礎(chǔ)設(shè)施已經(jīng)有了。
下一個(gè)競(jìng)爭(zhēng)焦點(diǎn),就是如何在底層模型能力上跑出一大批落地的 AI 應(yīng)用,抓住這個(gè)混亂期成功突圍。最本質(zhì)的問(wèn)題依舊是:國(guó)產(chǎn)大模型什么時(shí)候能跟 ChatGPT 一樣好用?
作者:趙衛(wèi)衛(wèi)
來(lái)源公眾號(hào):藍(lán)洞商業(yè)(ID:value_creation),深度、原創(chuàng)、有趣的商業(yè)人物和故事。
原文標(biāo)題:大模型「混亂期」:謹(jǐn)慎如騰訊,激進(jìn)如字節(jié)
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @藍(lán)洞商業(yè) 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!