大語言模型做產(chǎn)品實(shí)測:效果究竟如何?

武林
0 評(píng)論 923 瀏覽 2 收藏 11 分鐘
🔗 产品经理的核心价值是能够准确发现和满足用户需求,把用户需求转化为产品功能,并协调资源推动落地,创造商业价值

隨著大語言模型的發(fā)展,越來越多的人開始關(guān)注其在產(chǎn)品領(lǐng)域的實(shí)際效果。這篇文章將深入探討大語言模型在產(chǎn)品開發(fā)中的應(yīng)用,分析其優(yōu)勢(shì)和局限性,并通過實(shí)測數(shù)據(jù)來評(píng)估其實(shí)際效果。

大年初八,年后上班的第一天,我就收拾行囊,直奔客戶那兒去,準(zhǔn)備扎營開干,全力搞出個(gè)大語言模型的產(chǎn)品應(yīng)用來。

為啥要這么著急跑客戶現(xiàn)場來開發(fā)呢?原因有兩點(diǎn):

一是我們要做這個(gè)產(chǎn)品,必須要有數(shù)據(jù),要不大模型的準(zhǔn)確度上不去,做出來個(gè)60分的產(chǎn)品,對(duì)客戶根本談不上提質(zhì)增效,大概率會(huì)被嫌棄。

二是客戶比我們著急,寄希望于我們把產(chǎn)品做出成效,好圓前期吹出去的牛,堵上同行質(zhì)疑的嘴。

說實(shí)在的,過去一兩年大模型的橫空出世,人工智能那是火得一塌糊涂,各行各業(yè)都發(fā)起了一場場的AI競賽。

大家都想著搶先一步,宣傳自家用上AI的產(chǎn)品之后,到底牛成啥樣了。

正因?yàn)榇蠹叶枷嘈臕I可以極大提升效率,可以替代人力,可以解放生產(chǎn)力。所以,都一股腦兒地扎進(jìn)用AI做產(chǎn)品的浪潮之中。

不過啊,有些人宣傳得太過頭,花了幾百萬做出來的東西,結(jié)果還是一個(gè)小學(xué)生的水平,別說替代人力,還得花更多的精力去“批改”它的作業(yè)。

說到客戶,他們對(duì)AI的預(yù)期其實(shí)各不相同。

有些客戶從來就沒有用過AI的東西,也不確定這東西到底能干啥,你整個(gè)AI的產(chǎn)品給他這么一試,他會(huì)覺得非常的神奇。“哎呀,居然寫出來的東西看起來還可以,是那么回事?!?/p>

而另外一些客戶呢,因?yàn)橐恢痹谧鯝I方面的產(chǎn)品的嘗試,心里大概也知道,AI能做啥,水平幾何。所以,當(dāng)你提供給他的產(chǎn)品,還是只有六七十分的水平,他就會(huì)比較失望。因?yàn)樵谒念A(yù)期中,AI必須要替代人力,解放人力,別的地方都是這么宣傳的,都已經(jīng)到了這么牛的地步,你家的產(chǎn)品還得讓人伺候著,那哪行??!

言歸正傳,當(dāng)前階段,絕大部分嘗鮮用上AI的客戶,其實(shí)都是死鴨子嘴硬,60分的效果硬是要吹出90分的成效。

搞得大家對(duì)AI的預(yù)期都上了一個(gè)臺(tái)階,就如同明明你家的孩子只能考60分,你卻說考到了90分,這下子大家都相信這個(gè)孩子可以上一個(gè)好學(xué)校。但只有你心里清楚,就這水平,高中估計(jì)都上不了。

而我們呢?匆匆趕赴客戶現(xiàn)場來做項(xiàng)目,就相當(dāng)于要給這個(gè)孩子上一個(gè)強(qiáng)化班,短時(shí)間內(nèi)要把他的成績從60分提升到80分,這樣好歹也算是個(gè)“學(xué)習(xí)成績好”的孩子了。

接下來,我就來簡單分析一下我們用AI做出來的這個(gè)“孩子”到底能考得怎么樣,哪些“題”擅長,哪些“題”還不行。

計(jì)算題——100分

說到計(jì)算,大模型那可是個(gè)中高手,尤其是那些需要按照各種規(guī)則來推算的業(yè)務(wù),對(duì)它來說簡直就是小菜一碟。只要你把計(jì)算規(guī)則梳理得清清楚楚,大模型就會(huì)輸出準(zhǔn)確的答案,并且可以給到你解題的步驟,讓你看得明明白白。

拿司法領(lǐng)域常見的量刑計(jì)算來舉例:

基本案情:張三,男,25歲,2000年1月30日生,民族:漢族,身份證號(hào):43*****56,文化程度:初中,政治面貌:群眾,戶籍地:西虹市經(jīng)開區(qū)前進(jìn)村90號(hào),現(xiàn)居地:西虹市高新區(qū)廣陽村1棟2單元101。犯罪嫌疑人張三有多次盜竊前科,最近一次因?yàn)楸I竊罪被判處有期徒刑2年,于2023年4月4日刑滿釋放。2025年1月20日晚上23時(shí)許,張三獨(dú)自一人來到西虹市高新區(qū)廣場路停車廠,以“手拉車門”的方式盜竊了李xxx放置在小車內(nèi)的現(xiàn)金1000元和2張銀行卡。

問:張三應(yīng)該如何量刑?

答:張三盜竊金額為1000元,屬于數(shù)額較大的范疇,且沒有其他嚴(yán)重情節(jié),因此,其基準(zhǔn)刑應(yīng)在三年以下有期徒刑、拘役或者管制,并處或者單處罰金。

大模型的這個(gè)計(jì)算過程就是基于法律條款的明確規(guī)則,根據(jù)其犯罪的情節(jié)加以分析,得出的答案。

填空題——90分以上

這里說的填空題,就是能從文書中精準(zhǔn)抓取“要素字段”。別以為它只是簡單檢索關(guān)鍵詞做匹配,現(xiàn)在它已經(jīng)聰明到能理解語意了,意思相近的描述它也能秒懂。

繼續(xù)以張三盜竊案子來舉例:

這一次,我們要求大模型從張三的案件描述中提取相關(guān)的信息。

問:請(qǐng)幫我提取出犯罪嫌疑人張三的基本信息,包括:姓名、年齡、性別、民族、身份證號(hào)、文化程度、戶籍地、犯罪時(shí)間、犯罪地點(diǎn)、盜竊金額。

答:

  • 姓名:張三
  • 年齡:25歲
  • 性別:男
  • 民族:漢族
  • 身份證號(hào):43*****56
  • 文化程度:初中
  • 戶籍地:西虹市經(jīng)開區(qū)前進(jìn)村90號(hào)
  • 犯罪時(shí)間:2025年1月20日晚上23時(shí)許
  • 犯罪地點(diǎn):西虹市高新區(qū)廣場路停車場
  • 盜竊金額:1000元

幾乎是100%的準(zhǔn)確,為什么我認(rèn)為效果只能達(dá)到90分以上呢?它也有“犯迷糊”的時(shí)候。

從我做產(chǎn)品的實(shí)踐經(jīng)驗(yàn)來看,這里主要受限于如下兩個(gè)方面:

  1. 有一部分的文書材料是照片或掃描、復(fù)印出來的,文字會(huì)存在不清晰、有折痕、有印章等情況,導(dǎo)致大模型識(shí)別出來的文字內(nèi)容可能會(huì)出錯(cuò),間接導(dǎo)致了提取效果不好。
  2. 存在一些文書的描述表達(dá)不夠清晰、準(zhǔn)確或有錯(cuò)別字的情況,我們自己去閱讀是能發(fā)現(xiàn)和理解的,但大模型還理解不了,也就可能準(zhǔn)確率降低。

這也引申出一個(gè)思考:我們看到的絕大部分的產(chǎn)品宣傳那些“天花亂墜”的效果,都是在理想條件下測出來的。現(xiàn)實(shí)里,啥奇怪事兒都能遇到,產(chǎn)品效果自然就得打點(diǎn)折扣

閱讀理解——70分

我們有很多的產(chǎn)品功能,其實(shí)是需要去做數(shù)據(jù)分析、業(yè)務(wù)流程規(guī)范(預(yù)警)、關(guān)鍵信息的摘取,這些功能都涉及到需要讓大模型幫我們?nèi)プ鲂畔⒌姆治隹偨Y(jié)。

比如,針對(duì)上述的張三案件,檢察官要去做社會(huì)危險(xiǎn)性的評(píng)估(分析下張三有沒有存在危害社會(huì)的可能性),以決定是否要逮捕張三。其中,有一個(gè)評(píng)估指標(biāo)是:在案發(fā)地有相對(duì)固定的工作或住所。

問:請(qǐng)幫我提取出張三案件中涉及到社會(huì)危險(xiǎn)性的相關(guān)指標(biāo)內(nèi)容?

在大模型給出的回答中,就沒有給出“在案發(fā)地有相對(duì)固定的工作或住所”。

我繼續(xù)問它,為什么沒有呢?

它回答的邏輯是:內(nèi)容中并沒有明確告知張三有固定住所或工作。

也就是說,對(duì)于一些信息的理解,大模型有時(shí)候還是比較死板,還達(dá)不到我們看到一個(gè)信息,可以直接推導(dǎo)出結(jié)論,你需要給他更明確的提示,才有可能給到你想要的答案。

寫文章——60分

說起用大模型來寫文章,那可真是不少人的“救星”??!畢竟,寫文章這事兒,對(duì)很多人來講,就已經(jīng)是生活中少有的“地獄”級(jí)任務(wù)。但用上大模型,居然寫的這么好,簡直“神”了。

不過,日常辦公或生活里,想發(fā)表點(diǎn)啥,用大模型寫寫,完全沒問題。咱們也不求它寫得多么準(zhǔn)確無誤,多么精彩絕倫,只要能給點(diǎn)修改意見,或者啟發(fā)點(diǎn)思路,就知足了。

但是,如果要依賴大模型生成的專業(yè)的內(nèi)容當(dāng)前來講,還是很難達(dá)到。

繼續(xù)以上面的張三案件來講,我們當(dāng)前就是在用大模型去幫助檢察官做《起訴書》、《審查報(bào)告》等法律文書的生成。

依靠開源的大模型,是可以達(dá)到60分的效果的。

但要想讓大模型寫得更好,那就得下點(diǎn)功夫了。得不斷優(yōu)化提示詞,還得給它喂更多的法律文書數(shù)據(jù),讓它變得更“聰明”,更懂咱們的法律行話,更像一個(gè)有資深辦案經(jīng)驗(yàn)的檢察官。

總的來說,大模型在規(guī)則計(jì)算、要素提取、內(nèi)容摘要、文書生成這些方面,已經(jīng)算是60分以上的“好學(xué)生”了。但要想讓它考到80分,那還得定向訓(xùn)練,喂行業(yè)數(shù)據(jù),調(diào)整提示詞,加各種約束條件。

作者:武林,公眾號(hào):肖武林

本文由@武林 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!