Deepseek V3-0324版本的評測來啦
前幾天DeepSeek更新了V3版本,雖然是個小更新,但性能表現(xiàn)依然超出了許多人的預(yù)期。這篇文章,我們來看看作者的分析。
開始
沒有一點點防備,也沒有一絲的顧慮,他就這樣悄悄的上線啦。有多低調(diào),看下面圖片,readme竟然都是空的。好歹宣傳一下呀,哈哈
有哪些更新
官方給出答復(fù)是小的版本更新,沒有基準(zhǔn)測評和技術(shù)報告。社區(qū)反饋,代碼能力有明顯的提升,還具備一定的推理能力。輸出速度更快。能夠迅速處理數(shù)學(xué)和編程任務(wù)。它也非常穩(wěn)定,無論是編程還是解決問題,每次都能給出良好的結(jié)果。對比表現(xiàn)可以看下面的編程實現(xiàn)對比,DeepSeek V3-0324 的表現(xiàn)優(yōu)于 o3-mini 和 Deepseek R1視頻展示看公眾號內(nèi)容(帥森森聊AI和職場)
第三方評測
結(jié)論
Deepseek V3-0324可能是目前最好的非推理模型,而且還是免費的。綜合能力與sonnet 3.5不分伯仲。
評測邏輯
每個柱體有3個顏色,代表是三種評測邏輯,具體含義如下:這張圖片的右上角有三個圖例,分別代表以下含義:
1. Pass@5
含義:Pass@5 表示模型在測試中前五個結(jié)果中有多少是正確的。
用途:這一指標(biāo)通常用于評估模型的準(zhǔn)確率,特別是在生成任務(wù)或多選任務(wù)中。它反映了模型在有限嘗試次數(shù)內(nèi)提供正確答案的能力。
如果 Pass@5 為 80%,意味著模型在前五個結(jié)果中,有 80% 的概率至少包含一個正確答案。
2. Average Score
含義:Average Score 表示模型在所有測試中的平均得分。
用途:這一指標(biāo)反映了模型的整體性能,綜合了模型在不同任務(wù)或測試中的表現(xiàn)。
如果 Average Score 為 60%,意味著模型在所有測試中的平均得分為 60%。
3. 5/5 Consistency
含義:5/5 Consistency 是一個衡量模型在多次面對相同或非常相似的輸入時,能否給出一致性回答的指標(biāo)。更具體地說,它通常表示在五次獨立的測試中,模型都給出了相同或高度相似的答案。
用途:這一指標(biāo)反映了模型的一致性和穩(wěn)定性,評估模型是否能夠在所有測試中保持高水平的表現(xiàn)。
如果 5/5 Consistency 為 40%,意味著模型在所有測試中,有 40% 的概率能夠做到輸出一致。
指標(biāo)解讀
通用語言模型中,Deepseek V3-0324版本在top 5測評的準(zhǔn)確率居首。平均得分與sonnet 3.5不相上下。5對5一致性評測中,弱于sonnet 3.5。相比之前的V3版本,三個指標(biāo)都有提升。
哪里可以使用
官方網(wǎng)頁版: 在deepseek.com上免費測試更新后的V3版本,記得關(guān)閉“深度思考”按鈕。
官方 App: 可在iOS和Android上下載,已更新至3月24日發(fā)布的版本。
官方 API: 在api-docs.deepseek.com上使用model=’deepseek-chat’。
HuggingFace: 從HuggingFace下載“DeepSeek V3 0324”權(quán)重模型。
本文由 @帥森森 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!