国产高清在线看av片,国产网站午夜性色,国产黄片无马赛克在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊 | 登錄

Llama 3.1 405B VS Mistral Large 2，誰是開源之王？｜AI橫評

硅星人

2024-07-29

1 評論 1477 瀏覽 0 收藏

近期，AI界迎來了兩款引人注目的大型模型——Meta的Llama 3.1 405B和Mistral AI的Mistral Large2。這兩個(gè)模型不僅支持多種人類語言，還精通眾多編程語言。為了測試它們的多語言處理能力，我們進(jìn)行了一次Base64編碼的解謎游戲。結(jié)果如何？讓我們一起探索AI大模型在這場語言解碼挑戰(zhàn)中的表現(xiàn)吧！

最近兩款大型 AI 模型相繼發(fā)布。在7月23日，Meta?發(fā)布了?Llama 3.1 405B?模型，該模型不僅支持8種人類語言，還精通多種計(jì)算機(jī)語言，如下圖所示：

緊接著在7月24日，Mistral?AI?發(fā)布了最新的?Mistral Large2?模型，這款模型支持?jǐn)?shù)十種人類語言，并熟練掌握了80多種編程語言，包括 Python、Java、C、C++、JavaScript 和 Bash等。

它還精通一些更具體的語言，如?Swift?和 Fortran。

Base64 編碼是一種將二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為文本格式的編碼方式，常用于在文本協(xié)議中傳輸二進(jìn)制數(shù)據(jù)。Base64 編碼在數(shù)據(jù)預(yù)處理、模型輸入輸出、數(shù)據(jù)安全等方面有著廣泛的應(yīng)用。

通過 Base64 編碼，我們可以評估 AI 模型的多語言處理能力，測試它們是否能準(zhǔn)確理解和翻譯編碼后的信息，尤其是它們對不同語言和編碼格式的理解和處理能力。進(jìn)而檢驗(yàn)它們的多語言翻譯能力、回答準(zhǔn)確度和推理能力。

解碼是編碼的逆過程。如果一個(gè) AI 模型能夠準(zhǔn)確地解讀和處理 Base64 編碼或解碼出相關(guān)信息，那么它在執(zhí)行日常編程任務(wù)、解析網(wǎng)絡(luò)數(shù)據(jù)，甚至從復(fù)雜文件中提取信息時(shí)，將會(huì)更加得心應(yīng)手。

今天，我們就用這種看似晦澀的 Base64 編碼和解碼來測試 AI 大模型的多語言能力。

接下來，我們要帶著一點(diǎn)“偵探”的心情，來玩一個(gè)關(guān)于 Base64 編碼的解謎游戲。

雖然主要選手是 Llama 3.1 405B和Mistral Large2，但我們也加入了Qwen2-72B 和 GPT-4o，一個(gè)是國內(nèi)的頭部開源項(xiàng)目，另一個(gè)則是閉源代表，看看他們是否真的能夠像處理普通語言那樣，輕松應(yīng)對這些“編碼挑戰(zhàn)”，我們拭目以待！

游戲規(guī)則：

我們將使用 Base64 編碼的字符串進(jìn)行多語言測試，包括中文和英文。通過這次測試，我們可以了解各大模型在多語言翻譯、回答準(zhǔn)確度和推理能力方面的表現(xiàn)。

– 測試共 2 輪，每輪三次對話。每答對一次記 1 分。

– 為了確保測試的公平性，我們會(huì)提示模型不要使用代碼工具進(jìn)行解碼。

– 提示詞：這是一個(gè) base64 信息【】，請你不使用代碼工具告訴我這是什么信息。

首先我們大致知道下 Base64 編碼解碼的步驟和流程是什么。

Base64編碼是將二進(jìn)制數(shù)據(jù)轉(zhuǎn)換成一系列特定的64個(gè)字符（A-Z, a-z, 0-9, +, /）來表示。如果解碼過程中的步驟不正確或者字符串不是有效的Base64編碼，那么解碼結(jié)果可能會(huì)是錯(cuò)誤的或無意義的。若要檢查實(shí)際的Base64編碼字符串代表的內(nèi)容，可以使用在線工具或編程語言中的庫來正確解碼。

第一輪：英文解碼

本輪采用英文單詞轉(zhuǎn) Base64 編碼測評，編碼后的字符串分別為：

Justice：SnVzdGljZQo=

Bravery：QnJhdmVyeQo=

Kindness：S2luZG5lc3M=

我們先來用英文編碼測試看看個(gè)大模型結(jié)果如何，Llama 3.1 405B 答的都完全正確，得 3 分。但全部都是英文回答，對于中文不太友好。

不過它還是會(huì)附上自己特色的表情包，這“人味兒”誰不喜歡，情緒價(jià)值給的非常到位。

而?Mistral Large 2?解碼的英文 Base64 信息答對兩題，得 2 分。在第二問中，原文是 brevery，解碼的是“brave”，最有可能的錯(cuò)誤來源是在字符到二進(jìn)制索引的轉(zhuǎn)換、索引到二進(jìn)制的轉(zhuǎn)換，或者在二進(jìn)制數(shù)的重組過程中出現(xiàn)了錯(cuò)誤。

不過值得表揚(yáng)的是，在解碼過程中它先是解釋了原理，然后用 5 個(gè)步驟逐步分析推理最后解碼，既詳細(xì)又清晰明了，非常易懂。

ChatGPT-4o?回答一如既往地極其簡潔和快速，這次換成解碼后的內(nèi)容也是相當(dāng)正確，記 3 分。

最后來看下?Qwen2-72B?的英文解碼回答，三個(gè)答案都是正確的，還解釋了實(shí)際編碼中的注意事項(xiàng)，易于理解，而且考慮周到，得 3 分。

第二輪：中文解碼，無一生還？

本輪加大難度，采用中文詞語轉(zhuǎn) Base64 編碼測評，編碼后的字符串分別為：

正義：5q2j5LmJ

勇敢：5YuH5pWi

善良：5ZaE6Imv

先來看看超大杯 Llama 3.1 405B 是怎么回答的：

一連三問， Llama 3.1 405B 依舊全英文回答解碼信息，得到的卻是“你好世界”、“你好”、“再見”這些詞匯的英文，基本全錯(cuò)，這一輪得0分。

放眼望去，Base64 字符串轉(zhuǎn)換后通常不會(huì)有下圖這樣的結(jié)果，除非原始數(shù)據(jù)就是這樣。Llama 3.1 405B 在第二步就開始錯(cuò)了，即“Base64字符到ASCII的映射”，那之后的結(jié)果肯定也全都是錯(cuò)的。

在解碼過程中，每個(gè) Base64 字符應(yīng)該映射到一個(gè)特定的6位二進(jìn)制值。如果解碼時(shí)字符到二進(jìn)制的映射錯(cuò)誤，解碼出來的結(jié)果自然也會(huì)錯(cuò)誤。

不過有趣的是，Llama 3.1 405B 它更有“人味兒”了，每次回答都會(huì)有一些小表情在文字里，而且回答之前還會(huì)加一些語氣詞之類的內(nèi)容，真的越來越人性化了。

再來看看今天發(fā)布的 Mistral Large 2 怎么樣。

三問后，對于編碼后的中文也是是一個(gè)也沒答對，這一輪得0分。

雖然 Mistral Large 2 的解碼推理過程很詳細(xì)，具體到了每一步驟，但是這更加清楚的看到哪一步出錯(cuò)了。主要是在第二步就錯(cuò)了，Base64字符到二進(jìn)制的映射，那之后的推理步驟也都是錯(cuò)的，結(jié)果也一定是錯(cuò)的。

這一步中，Base64 編碼的字符被錯(cuò)誤地直接映射到了 ASCII 字符，而不是它們正確的二進(jìn)制值。例如把 ‘5’ 映射到了 ‘H’。這種映射忽略了 Base64 編碼的實(shí)際工作原理，即每個(gè) Base64 字符實(shí)際上表示了一個(gè)6位的二進(jìn)制數(shù)，而不是一個(gè)直接的ASCII 字符。

這樣看來這塊的能力非常有待加強(qiáng)。

來看看對中文理解更強(qiáng)的?ChatGPT-4o，它直接給出解碼的內(nèi)容，全部都對，這一輪得3分。

再來看國產(chǎn)最抗打的?Qwen2-72B，解碼結(jié)果也是“測試”“你好”“世界”，基本全錯(cuò)，這一輪得0分。

我們來細(xì)看 Qwen2-72B 的思路，回答里只有推理思路，并且省略各種轉(zhuǎn)換步驟，直接得出答案，這代表著得到的結(jié)果極大程度上是錯(cuò)誤的。也就是說 Qwen2-72B 主要錯(cuò)誤主要集中在對 Base64 編碼的理解和解碼步驟的執(zhí)行上。

比如：直接從 Base64 編碼得到具體的中文字符，這是不太可能的，因?yàn)檫@需要正確的字節(jié)序列和編碼（如UTF-8）來解釋二進(jìn)制數(shù)據(jù)。

最終得分是：

明顯 ChatGPT-4o 得6分，完全領(lǐng)先于其他各大模型，無論是中文、還是英文，Base64 碼都能輕松轉(zhuǎn)換為我們所理解的意思。

而其他三個(gè)模型 Llama 3.1 405B、Qwen2-72B 均獲得3分，在英文解碼方面表現(xiàn)都不錯(cuò)，但對中文解碼相對不足。其中 Llama 3.1 405B 在回復(fù)的時(shí)候則更有“人味兒”，能給到人們更多的情緒價(jià)值。但整體的回答偏向英文，中文語言功能相對較多，除非單獨(dú)硬性要求它用中文回復(fù)。

而墊底的 Mistral Large 2 因?yàn)橛⑽慕獯a錯(cuò)誤一題丟失一分，但其解碼推理過程十分詳細(xì)清晰，顯示出強(qiáng)大的推理能力，而其他模型在這方面的表現(xiàn)差異較大。

通過這次測試，我們發(fā)現(xiàn)大模型在多語言和編程語言解碼方面表現(xiàn)各異，當(dāng)前大模型在多語言處理上有些許不平衡。整體英文回答普遍準(zhǔn)確且清晰，但中文回答準(zhǔn)確度低。

最后

編碼，是人類為了高效運(yùn)輸信息，對信息本身做的一系列邏輯變形。通常我們認(rèn)為它是“計(jì)算機(jī)的語言”。但這次測試看下來，對于大語言模型來說，正確的編碼和解碼反而成了一道難題。尤其是在多語言環(huán)境下，每一次編碼解碼的過程涉及到多個(gè)步驟和多種編碼規(guī)則，有一環(huán)出錯(cuò)甚至是二進(jìn)制的一位算錯(cuò)，都不可能得到準(zhǔn)確的答案。

綜合來看，GPT-4o 確實(shí)還是強(qiáng)一些，僅從這個(gè)小游戲來說，Qwen2-72B 反而能和 Llama3.1 405B 五五開。有些意外的是 Mistral Large2 在這次成了墊底。

作者｜椒鹽玉兔

本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】，微信公眾號(hào)：【硅星人Pro】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App