Llama 3.1 405B VS Mistral Large 2,誰是開源之王?|AI橫評
近期,AI界迎來了兩款引人注目的大型模型——Meta的Llama 3.1 405B和Mistral AI的Mistral Large2。這兩個(gè)模型不僅支持多種人類語言,還精通眾多編程語言。為了測試它們的多語言處理能力,我們進(jìn)行了一次Base64編碼的解謎游戲。結(jié)果如何?讓我們一起探索AI大模型在這場語言解碼挑戰(zhàn)中的表現(xiàn)吧!
最近兩款大型 AI 模型相繼發(fā)布。在7月23日,Meta?發(fā)布了?Llama 3.1 405B?模型,該模型不僅支持8種人類語言,還精通多種計(jì)算機(jī)語言,如下圖所示:
緊接著在7月24日,Mistral?AI?發(fā)布了最新的?Mistral Large2?模型,這款模型支持?jǐn)?shù)十種人類語言,并熟練掌握了80多種編程語言,包括 Python、Java、C、C++、JavaScript 和 Bash等。
它還精通一些更具體的語言,如?Swift?和 Fortran。
Base64 編碼是一種將二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為文本格式的編碼方式,常用于在文本協(xié)議中傳輸二進(jìn)制數(shù)據(jù)。Base64 編碼在數(shù)據(jù)預(yù)處理、模型輸入輸出、數(shù)據(jù)安全等方面有著廣泛的應(yīng)用。
通過 Base64 編碼,我們可以評估 AI 模型的多語言處理能力,測試它們是否能準(zhǔn)確理解和翻譯編碼后的信息,尤其是它們對不同語言和編碼格式的理解和處理能力。進(jìn)而檢驗(yàn)它們的多語言翻譯能力、回答準(zhǔn)確度和推理能力。
解碼是編碼的逆過程。如果一個(gè) AI 模型能夠準(zhǔn)確地解讀和處理 Base64 編碼或解碼出相關(guān)信息,那么它在執(zhí)行日常編程任務(wù)、解析網(wǎng)絡(luò)數(shù)據(jù),甚至從復(fù)雜文件中提取信息時(shí),將會(huì)更加得心應(yīng)手。
今天,我們就用這種看似晦澀的 Base64 編碼和解碼來測試 AI 大模型的多語言能力。
接下來,我們要帶著一點(diǎn)“偵探”的心情,來玩一個(gè)關(guān)于 Base64 編碼的解謎游戲。
雖然主要選手是 Llama 3.1 405B和Mistral Large2,但我們也加入了Qwen2-72B 和 GPT-4o,一個(gè)是國內(nèi)的頭部開源項(xiàng)目,另一個(gè)則是閉源代表,看看他們是否真的能夠像處理普通語言那樣,輕松應(yīng)對這些“編碼挑戰(zhàn)”,我們拭目以待!
游戲規(guī)則:
我們將使用 Base64 編碼的字符串進(jìn)行多語言測試,包括中文和英文。通過這次測試,我們可以了解各大模型在多語言翻譯、回答準(zhǔn)確度和推理能力方面的表現(xiàn)。
– 測試共 2 輪,每輪三次對話。每答對一次記 1 分。
– 為了確保測試的公平性,我們會(huì)提示模型不要使用代碼工具進(jìn)行解碼。
– 提示詞:這是一個(gè) base64 信息【】,請你不使用代碼工具告訴我這是什么信息。
首先我們大致知道下 Base64 編碼解碼的步驟和流程是什么。
Base64編碼是將二進(jìn)制數(shù)據(jù)轉(zhuǎn)換成一系列特定的64個(gè)字符(A-Z, a-z, 0-9, +, /)來表示。如果解碼過程中的步驟不正確或者字符串不是有效的Base64編碼,那么解碼結(jié)果可能會(huì)是錯(cuò)誤的或無意義的。若要檢查實(shí)際的Base64編碼字符串代表的內(nèi)容,可以使用在線工具或編程語言中的庫來正確解碼。
第一輪:英文解碼
本輪采用英文單詞轉(zhuǎn) Base64 編碼測評,編碼后的字符串分別為:
Justice:SnVzdGljZQo=
Bravery:QnJhdmVyeQo=
Kindness:S2luZG5lc3M=
我們先來用英文編碼測試看看個(gè)大模型結(jié)果如何,Llama 3.1 405B 答的都完全正確,得 3 分。但全部都是英文回答,對于中文不太友好。
不過它還是會(huì)附上自己特色的表情包,這“人味兒”誰不喜歡,情緒價(jià)值給的非常到位。
而?Mistral Large 2?解碼的英文 Base64 信息答對兩題,得 2 分。在第二問中,原文是 brevery,解碼的是“brave”,最有可能的錯(cuò)誤來源是在字符到二進(jìn)制索引的轉(zhuǎn)換、索引到二進(jìn)制的轉(zhuǎn)換,或者在二進(jìn)制數(shù)的重組過程中出現(xiàn)了錯(cuò)誤。
不過值得表揚(yáng)的是,在解碼過程中它先是解釋了原理,然后用 5 個(gè)步驟逐步分析推理最后解碼,既詳細(xì)又清晰明了,非常易懂。
ChatGPT-4o?回答一如既往地極其簡潔和快速,這次換成解碼后的內(nèi)容也是相當(dāng)正確,記 3 分。
最后來看下?Qwen2-72B?的英文解碼回答,三個(gè)答案都是正確的,還解釋了實(shí)際編碼中的注意事項(xiàng),易于理解,而且考慮周到,得 3 分。
第二輪:中文解碼,無一生還?
本輪加大難度,采用中文詞語轉(zhuǎn) Base64 編碼測評,編碼后的字符串分別為:
正義:5q2j5LmJ
勇敢:5YuH5pWi
善良:5ZaE6Imv
先來看看超大杯 Llama 3.1 405B 是怎么回答的:
一連三問, Llama 3.1 405B 依舊全英文回答解碼信息,得到的卻是“你好世界”、“你好”、“再見”這些詞匯的英文,基本全錯(cuò),這一輪得0分。
放眼望去,Base64 字符串轉(zhuǎn)換后通常不會(huì)有下圖這樣的結(jié)果,除非原始數(shù)據(jù)就是這樣。Llama 3.1 405B 在第二步就開始錯(cuò)了,即“Base64字符到ASCII的映射”,那之后的結(jié)果肯定也全都是錯(cuò)的。
在解碼過程中,每個(gè) Base64 字符應(yīng)該映射到一個(gè)特定的6位二進(jìn)制值。如果解碼時(shí)字符到二進(jìn)制的映射錯(cuò)誤,解碼出來的結(jié)果自然也會(huì)錯(cuò)誤。
不過有趣的是,Llama 3.1 405B 它更有“人味兒”了,每次回答都會(huì)有一些小表情在文字里,而且回答之前還會(huì)加一些語氣詞之類的內(nèi)容,真的越來越人性化了。
再來看看今天發(fā)布的 Mistral Large 2 怎么樣。
三問后,對于編碼后的中文也是是一個(gè)也沒答對,這一輪得0分。
雖然 Mistral Large 2 的解碼推理過程很詳細(xì),具體到了每一步驟,但是這更加清楚的看到哪一步出錯(cuò)了。主要是在第二步就錯(cuò)了,Base64字符到二進(jìn)制的映射,那之后的推理步驟也都是錯(cuò)的,結(jié)果也一定是錯(cuò)的。
這一步中,Base64 編碼的字符被錯(cuò)誤地直接映射到了 ASCII 字符,而不是它們正確的二進(jìn)制值。例如把 ‘5’ 映射到了 ‘H’。這種映射忽略了 Base64 編碼的實(shí)際工作原理,即每個(gè) Base64 字符實(shí)際上表示了一個(gè)6位的二進(jìn)制數(shù),而不是一個(gè)直接的ASCII 字符。
這樣看來這塊的能力非常有待加強(qiáng)。
來看看對中文理解更強(qiáng)的?ChatGPT-4o,它直接給出解碼的內(nèi)容,全部都對,這一輪得3分。
再來看國產(chǎn)最抗打的?Qwen2-72B,解碼結(jié)果也是“測試”“你好”“世界”,基本全錯(cuò),這一輪得0分。
我們來細(xì)看 Qwen2-72B 的思路,回答里只有推理思路,并且省略各種轉(zhuǎn)換步驟,直接得出答案,這代表著得到的結(jié)果極大程度上是錯(cuò)誤的。也就是說 Qwen2-72B 主要錯(cuò)誤主要集中在對 Base64 編碼的理解和解碼步驟的執(zhí)行上。
比如:直接從 Base64 編碼得到具體的中文字符,這是不太可能的,因?yàn)檫@需要正確的字節(jié)序列和編碼(如UTF-8)來解釋二進(jìn)制數(shù)據(jù)。
最終得分是:
明顯 ChatGPT-4o 得6分,完全領(lǐng)先于其他各大模型,無論是中文、還是英文,Base64 碼都能輕松轉(zhuǎn)換為我們所理解的意思。
而其他三個(gè)模型 Llama 3.1 405B、Qwen2-72B 均獲得3分,在英文解碼方面表現(xiàn)都不錯(cuò),但對中文解碼相對不足。其中 Llama 3.1 405B 在回復(fù)的時(shí)候則更有“人味兒”,能給到人們更多的情緒價(jià)值。但整體的回答偏向英文,中文語言功能相對較多,除非單獨(dú)硬性要求它用中文回復(fù)。
而墊底的 Mistral Large 2 因?yàn)橛⑽慕獯a錯(cuò)誤一題丟失一分,但其解碼推理過程十分詳細(xì)清晰,顯示出強(qiáng)大的推理能力,而其他模型在這方面的表現(xiàn)差異較大。
通過這次測試,我們發(fā)現(xiàn)大模型在多語言和編程語言解碼方面表現(xiàn)各異,當(dāng)前大模型在多語言處理上有些許不平衡。整體英文回答普遍準(zhǔn)確且清晰,但中文回答準(zhǔn)確度低。
最后
編碼,是人類為了高效運(yùn)輸信息,對信息本身做的一系列邏輯變形。通常我們認(rèn)為它是“計(jì)算機(jī)的語言”。但這次測試看下來,對于大語言模型來說,正確的編碼和解碼反而成了一道難題。尤其是在多語言環(huán)境下,每一次編碼解碼的過程涉及到多個(gè)步驟和多種編碼規(guī)則,有一環(huán)出錯(cuò)甚至是二進(jìn)制的一位算錯(cuò),都不可能得到準(zhǔn)確的答案。
綜合來看,GPT-4o 確實(shí)還是強(qiáng)一些,僅從這個(gè)小游戲來說,Qwen2-72B 反而能和 Llama3.1 405B 五五開。有些意外的是 Mistral Large2 在這次成了墊底。
作者|椒鹽玉兔
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號(hào):【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
AI真的很有幫助,解決了我一直以來的疑惑,感謝作者的用心分享!