Deepseek V3-0324版本的評測來啦

帥森森
0 評論 479 瀏覽 0 收藏 5 分鐘
🔗 产品经理在不同的职业阶段,需要侧重不同的方面,从基础技能、业务深度、专业领域到战略规划和管理能力。

前幾天DeepSeek更新了V3版本,雖然是個小更新,但性能表現(xiàn)依然超出了許多人的預(yù)期。這篇文章,我們來看看作者的分析。

開始

沒有一點點防備,也沒有一絲的顧慮,他就這樣悄悄的上線啦。有多低調(diào),看下面圖片,readme竟然都是空的。好歹宣傳一下呀,哈哈

有哪些更新

官方給出答復(fù)是小的版本更新,沒有基準(zhǔn)測評和技術(shù)報告。社區(qū)反饋,代碼能力有明顯的提升,還具備一定的推理能力。輸出速度更快。能夠迅速處理數(shù)學(xué)和編程任務(wù)。它也非常穩(wěn)定,無論是編程還是解決問題,每次都能給出良好的結(jié)果。對比表現(xiàn)可以看下面的編程實現(xiàn)對比,DeepSeek V3-0324 的表現(xiàn)優(yōu)于 o3-mini 和 Deepseek R1視頻展示看公眾號內(nèi)容(帥森森聊AI和職場)

第三方評測

結(jié)論

Deepseek V3-0324可能是目前最好的非推理模型,而且還是免費的。綜合能力與sonnet 3.5不分伯仲。

評測邏輯

每個柱體有3個顏色,代表是三種評測邏輯,具體含義如下:這張圖片的右上角有三個圖例,分別代表以下含義:

1. Pass@5

含義:Pass@5 表示模型在測試中前五個結(jié)果中有多少是正確的。

用途:這一指標(biāo)通常用于評估模型的準(zhǔn)確率,特別是在生成任務(wù)或多選任務(wù)中。它反映了模型在有限嘗試次數(shù)內(nèi)提供正確答案的能力。

如果 Pass@5 為 80%,意味著模型在前五個結(jié)果中,有 80% 的概率至少包含一個正確答案。

2. Average Score

含義:Average Score 表示模型在所有測試中的平均得分。

用途:這一指標(biāo)反映了模型的整體性能,綜合了模型在不同任務(wù)或測試中的表現(xiàn)。

如果 Average Score 為 60%,意味著模型在所有測試中的平均得分為 60%。

3. 5/5 Consistency

含義:5/5 Consistency 是一個衡量模型在多次面對相同或非常相似的輸入時,能否給出一致性回答的指標(biāo)。更具體地說,它通常表示在五次獨立的測試中,模型都給出了相同或高度相似的答案。

用途:這一指標(biāo)反映了模型的一致性和穩(wěn)定性,評估模型是否能夠在所有測試中保持高水平的表現(xiàn)。

如果 5/5 Consistency 為 40%,意味著模型在所有測試中,有 40% 的概率能夠做到輸出一致。

指標(biāo)解讀

通用語言模型中,Deepseek V3-0324版本在top 5測評的準(zhǔn)確率居首。平均得分與sonnet 3.5不相上下。5對5一致性評測中,弱于sonnet 3.5。相比之前的V3版本,三個指標(biāo)都有提升。

哪里可以使用

官方網(wǎng)頁版: 在deepseek.com上免費測試更新后的V3版本,記得關(guān)閉“深度思考”按鈕。

官方 App: 可在iOS和Android上下載,已更新至3月24日發(fā)布的版本。

官方 API: 在api-docs.deepseek.com上使用model=’deepseek-chat’。

HuggingFace: 從HuggingFace下載“DeepSeek V3 0324”權(quán)重模型。

本文由 @帥森森 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
13098人已学习14篇文章
好的产品是对人性的窥视,无论是做产品,做运营,懂点心理学还是很有帮助的。本专题的文章分享了消费者心理学。
专题
18098人已学习14篇文章
智能客服类产品,最根本的价值在于以低成本取代人工客服工作中大量重复性的部分。本专题的文章分享了如何搭建一个智能客服。
专题
11731人已学习13篇文章
激活是指用户通过完成关键行为,真正成为产品的用户,而提升新用户激活则是留存用户的第一步。本专题的文章分享了如何做好新用户激活。