DeepSeek V3大升級(jí)!接近Claude3.7,編程數(shù)學(xué)能力猛升,網(wǎng)友:相當(dāng)于白送法拉利!
昨天,DeepSeek發(fā)布了其V3版本的更新,這一版本不僅在編程和數(shù)學(xué)能力上有了顯著提升,更在開源和免費(fèi)使用方面做出了重大突破。本文將深入探討DeepSeek V3的升級(jí)亮點(diǎn),以及它如何在開源和商業(yè)化之間找到平衡,為AI行業(yè)的發(fā)展注入新的動(dòng)力。
24日夜間,DeepSeek在用戶群發(fā)出【通知】:DeepSeek V3 模型已完成小版本升級(jí),歡迎前往官方網(wǎng)頁、APP、小程序試用體驗(yàn)(關(guān)閉深度思考),API 接口和使用方式保持不變。
不是R2的更新,最終發(fā)布的模型為DeepSeek-V3-0324,V3的小模型更新版。如果你開始覺得沒什么,那可能結(jié)果還是要出乎你的預(yù)料。
V3-0324最驚艷的兩個(gè)特征,700GB,MIT 許可證。這意味著MaC部署優(yōu)化以及開源。
根據(jù)文檔顯示,V3重點(diǎn)提升了數(shù)學(xué)和編程能力。但最重要的是,能力接近Claude 3.7 Sonnet的模型,卻無限制免費(fèi)提供,對(duì)于經(jīng)常被Claude封號(hào)的朋友們,是不是感動(dòng)到想哭。
而且Claude超高的價(jià)格(每月20美元),有X網(wǎng)友表示:這相當(dāng)于白送法拉利。
小更新大升級(jí)?
在了解新版本之前,我們?cè)倩仡櫹耉3版本,就是R1之前那個(gè),為DeepSeek立下汗馬功勞的版本。
DeepSeek-V3 是一個(gè)專家混合 (MoE) 巨頭,模型參數(shù)為671B,每個(gè)Token激活 370 億個(gè)。
它由多頭潛在注意力 (MLA) 和 DeepSeek MoE 提供支持,在 14.8 萬億個(gè)Token上進(jìn)行了訓(xùn)練。
新發(fā)布的V3-0324,在模型參數(shù)上略有放大,模型參數(shù)為 685B,但還沒有上傳 Model Card,模型基準(zhǔn)能力測(cè)試方面也還沒有更新。
在其官網(wǎng)提問,回答是知識(shí)截止日期為 2024年7月,之前的DeepSeek-V3 應(yīng)該是2023年12月。
不僅是訓(xùn)練數(shù)據(jù)的更新,其中V3的文檔重要變動(dòng),顯示其優(yōu)化了Function call。此前版本提示Function call會(huì)有調(diào)用問題,但目前已經(jīng)支持調(diào)用函數(shù)。
有驚艷更重要是夠好用
有國外網(wǎng)友評(píng)價(jià),自 2024 年 6 月以來,沒有一個(gè)LLM 能夠像 Sonnet 3.5 一樣,生成好的前端代碼。今天,Deepseek 發(fā)布了V3 的更新,終于讓Anthropic有了競爭對(duì)手。
在官網(wǎng)關(guān)閉深度思考按鈕,就能體驗(yàn)V3新版的能力。更強(qiáng)的前端編程能力,接近Claude 3.7 sonnet,更精準(zhǔn)的上下文理解能力。
有用戶測(cè)試了其生成能力,提示詞是基于以下一句話:
a horse riding on top of an astronaut, by grok 3
一匹馬騎在宇航員身上
By:Claude 3.7
By:Grok 3
By:DeepSeek v3 03-24
Claude 3.7看起來更好一些,Grok3和V3呈現(xiàn)了不同的理解。
這次更新對(duì)前端變成能力有巨大提升,鯨哥測(cè)試了讓成一個(gè)電商網(wǎng)站。
發(fā)布完任務(wù),V3就開始飛速寫了起來,鯨哥覺得可能給的任務(wù)太大了。
但是不到3分鐘就寫完了,寫了750行代碼,直接運(yùn)行看效果。
它還設(shè)置了動(dòng)態(tài)產(chǎn)品卡片懸停效果,以及支持手機(jī)端的動(dòng)態(tài)響應(yīng)式布局,甚至能直接采購了。
對(duì)于其數(shù)學(xué)能力,鯨哥也是找了一個(gè)年初大模型都還在做錯(cuò)的小學(xué)生數(shù)學(xué)題。V3-0324直接回答對(duì)了。
ChatGPT在1月份還在出錯(cuò),“5個(gè)更小”那句話干擾了模型的理解。
V3不是R2,確實(shí)是各方面升級(jí)后更水桶,不是某一方面能力突出的驚艷。勝在開源好用,API價(jià)格大家都能接受,官網(wǎng)則對(duì)C端用戶免費(fèi)。
代替Meta成源神
這次V3-0324還徹底支持MIT協(xié)議,這意味著其更加開源。
畢竟MIT 許可證意味著任何人都可以出于任何目的使用、修改和分發(fā)它,甚至是商業(yè)目的。
大家很少將這種尺寸的模型直接全部開源。所以在最近,Perplexity CEO阿拉文德在接受專訪時(shí)提到,“如果封閉模型沒有保持領(lǐng)先,而每個(gè)人都可以微調(diào)開源模型,那么他們(OpenAI等)每次要求籌集100億美元或甚至1000億美元的合理性,就會(huì)變得越來越危險(xiǎn)。
我認(rèn)為DeepSeek時(shí)刻是真正具有革命性的。他們是否只花了600萬美元來訓(xùn)練那個(gè)模型還有待商榷,但他們肯定沒有花費(fèi)相同數(shù)量級(jí)的資金,并且他們制作了一個(gè)令人印象深刻的模型,不僅提供了與最佳封閉模型相媲美的出色輸出,還提供了透明的推理鏈?!?/p>
他認(rèn)為,關(guān)鍵點(diǎn)是DeepSeek出現(xiàn)后,AI巨頭以后很難拿到巨額融資了。他又提到DeepSeek對(duì)于創(chuàng)業(yè)企業(yè)意味著什么:
“也許你可以非常有效地將所有模型中最大的模型提煉成更小的模型,而這才是最終在生產(chǎn)中使用的模型。如果該模型是開源的,或者可以通過API以可承受的價(jià)格獲得。
事實(shí)上,DeepSeek已經(jīng)可以在AWS和Azure上以幾乎零的邊際成本提供,你只需要支付服務(wù)器費(fèi)用?!?/p>
也正如這次V3升級(jí)版發(fā)布,國外有網(wǎng)友提到:DeepSeek正在實(shí)現(xiàn)Meta承諾做到的事。
與此同時(shí),今天還有一個(gè)重要消息值得在本文一提,螞蟻集團(tuán)用國產(chǎn)芯片訓(xùn)練AI模型,使用了包括來自阿里巴巴和華為的芯片,開發(fā)成本降低高達(dá) 20%。
我們正在經(jīng)歷一個(gè)振奮人心的時(shí)代!
作者丨鯨哥
本文由人人都是產(chǎn)品經(jīng)理作者【鯨選AI】,微信公眾號(hào):【鯨選AI】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!