如何去評測一個大模型
做AI應(yīng)用時,我們都會對個大模型進行分析評測,挑選出合適的。但大模型不是APP類產(chǎn)品,評測的方法肯定不同,這篇文章,我們就來看看作者建議如何評測。
一、權(quán)威機構(gòu)評測
這是目前由國內(nèi)C-Eval機構(gòu)給出的國內(nèi)大模型的評測排名。
C-Eval 是一個全面的中文基礎(chǔ)模型評估套件。由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)研究人員在2023年5月份聯(lián)合推出,它包含了13948個多項選擇題,涵蓋了52個不同的學(xué)科和四個難度級別,用以評測大模型中文理解能力。
那么像這樣的機構(gòu)或者是說大模型的公司,是怎樣通過這么多的題目和學(xué)科去評測一個模型的好壞和使用好感度的呢。下面讓我們來研究一下。
二、如何去評測一個模型
1、我們?nèi)ピu測模型到底是在評測什么呢?
我們說對大規(guī)模數(shù)據(jù)訓(xùn)練的大模型的評估,主要是評估模型的理解能力、推理能力和表達能力,以確保它能夠在新的未見過的數(shù)據(jù)上有能夠進行有效的工作和泛化能力。
2、如何評測呢?
我們?nèi)ピu測任何一個模型或是說任何一個模型的某一項能力的時候,并不是盲目去問問題看回答的。而是要先確定好一個評測標(biāo)準(zhǔn),有了這些規(guī)則,我們才能根據(jù)這些規(guī)則標(biāo)準(zhǔn)去評測一些的模型的好壞,或者說模型的有效的工作能力才有了依據(jù)的標(biāo)準(zhǔn)。
那么,我們要去定義的規(guī)則標(biāo)準(zhǔn)是什么呢?
假如:我們評測模型的標(biāo)準(zhǔn)定義為:回答是否偏題、內(nèi)容豐富度是否夠豐富、邏輯是否正確、語意是否通順、如果是書信問題格式是否正確、表達是否有冗余或者重復(fù)、是否遵循多輪的邏輯、回答的知識點是否有遺漏等等。
那有了這些基礎(chǔ)的標(biāo)準(zhǔn)我們就可以根據(jù)這些標(biāo)準(zhǔn)來制定一些方案來評測模型了
1)給模型打分
我們可以把模型的回答定為4個分數(shù)
- 4分:完全符合規(guī)則。
- 3分:不完全滿足,有點可以接受的小問題,比如標(biāo)點符號之類的。
- 2分:不完全滿足,有大瑕疵,但大意解釋清楚了
- 1分:完全不滿足,完全沒有回答問題。
2)模型之間相比較
模型之間相比較的方式為 “GSB(good same bad)”:意思是人們從整體感知,評判為兩個模型之間的優(yōu)劣。
通俗來講:G:就是good 也就是好的模型、B:就是bad 也就是壞的模型、S:就是same 一樣好或是一樣壞的模型。
這個方法適用于多個模型之間的對比
評測方法為:
模型A VS 模型B
A:如果A好,打A
B:如果B好,打B
S:如果一樣好(或者一樣不好),打S。
統(tǒng)計結(jié)果:
模型A :模型B = A好的數(shù)量 :S的數(shù)量 : B好的數(shù)量
比如,A : B = 25:30:55,B勝出
這兩種方法是AI訓(xùn)練師在做模型訓(xùn)練時比較常用的方法。
3)需要注意的事情
在測評的時候一定要應(yīng)客觀公正,不能根據(jù)個人知識水平、立場偏好、回復(fù)長短等評測,這樣會對回答失去公平性。
三、評測的數(shù)據(jù)集從哪里來
測數(shù)據(jù)集,可以客觀地評估模型在實際應(yīng)用中的表現(xiàn)。只有在評測數(shù)據(jù)集上表現(xiàn)良好的模型,才能認為其具有實際應(yīng)用價值。然而獲取數(shù)據(jù)集的渠道可以從以下幾個方面來獲得以及清洗數(shù)據(jù):
公開數(shù)據(jù)集平臺:
- C-Eval:C-Eval數(shù)據(jù)集主要用于評測大模型的知識和邏輯推理能力,即大模型是否能夠認識和理解廣泛的世界知識,并類似人類一樣對事物進行推理規(guī)劃
- GitHub:許多研究人員和開發(fā)者會在GitHub上共享數(shù)據(jù)集。
行業(yè)數(shù)據(jù)平臺:
- 阿里云天池:阿里云提供的一個數(shù)據(jù)競賽平臺,提供豐富的數(shù)據(jù)集和競賽機會。
- 京東AI研究院:提供一些公開的機器學(xué)習(xí)數(shù)據(jù)集。
學(xué)術(shù)研究:
- 研究論文:許多研究論文會附帶數(shù)據(jù)集鏈接,可以通過閱讀相關(guān)領(lǐng)域的研究論文獲取數(shù)據(jù)集。
- 學(xué)術(shù)會議和期刊:頂級的機器學(xué)習(xí)和數(shù)據(jù)科學(xué)會議(如NeurIPS、ICML、CVPR等)和期刊(如JMLR、TPAMI等)通常會發(fā)布與研究相關(guān)的數(shù)據(jù)集。
API和開放數(shù)據(jù)接口:
- 一些開放數(shù)據(jù)平臺提供API接口,可以通過API獲取最新的數(shù)據(jù)。例如,Twitter API、Weather API、Google Maps API等。
最后,我們在選擇數(shù)據(jù)集時需要考慮數(shù)據(jù)集的質(zhì)量、規(guī)模、標(biāo)簽的準(zhǔn)確性以及是否與評測任務(wù)相關(guān)。確保數(shù)據(jù)集足夠多樣化,能夠涵蓋模型可能遇到的各種情況,從而全面評測模型的性能。
本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!