日韩中文字幕一区,国产福利乳摇在线播放

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊 | 登錄

反思國產(chǎn)大模型：如果泡沫不可避免，我們該如何面對這場革命？

AI新智能

2023-06-20

0 評論 2676 瀏覽 2 收藏

🔗 技术知识、行业知识、业务知识等，都是B端产品经理需要了解和掌握的领域相关的知识，有助于进行产品方案设计和评估

國產(chǎn)大模型與GPT這類先進(jìn)的大模型之間，到底存在著怎樣的發(fā)展區(qū)別呢？本篇文章具體分析國產(chǎn)大模型發(fā)展受限的原因，以及其面臨的一些考驗(yàn)，希望能對你有一定的參考幫助。

縱觀人類的科技發(fā)展史，都由泡沫中的幸存者來繼續(xù)推動(dòng)的。即使人類本身，也是物種大爆發(fā)這場生物泡沫的幸運(yùn)兒。

最近，F(xiàn)acebook早期投資者Roger McNamee在CNBC上批評人們對AI的狂熱，是“忘掉了過去科技泡沫帶來的痛”。

同樣的，在國內(nèi)，面對越來越多的大模型，部分頭腦冷靜的人士，也顯示出自己的擔(dān)憂。

“這么多的大模型，真正有自己技術(shù)的有幾個(gè)”？

“有幾家公司能持續(xù)投入下去”？

更有頭部VC機(jī)構(gòu)人士認(rèn)為，經(jīng)過他們的私下測試和摸底，幾乎國內(nèi)所有的大模型，都是PR項(xiàng)目…

眾所周知，大模型的訓(xùn)練是一個(gè)成本極高的過程，需要大量的算力和資金支持。

以O(shè)penAI為例，GPT-3的單次訓(xùn)練成本就高達(dá)140萬美元，對于一些更大的大模型，訓(xùn)練成本介于200萬美元至1200萬美元之間。

用知名計(jì)算機(jī)專家吳軍的話來形容，ChatGPT每訓(xùn)練一次，相當(dāng)于報(bào)廢了3000輛特斯拉汽車。

這個(gè)數(shù)字告訴人們：要想打造有競爭力的大模型，不下血本是不行的。

某些體量、資金不足，卻仍舊叫囂著要“對標(biāo)ChatGPT”的企業(yè)，其本身的實(shí)力，難免讓人產(chǎn)生懷疑。

例如某個(gè)在發(fā)布大模型后，自身股價(jià)最高暴漲338%的國內(nèi)公司（此處就不點(diǎn)名了），其賬上的貨幣資金不過13億元。

然而，以ChatGPT的訓(xùn)練成本為例，要想背后的智能算力集群，僅GPU顯卡采購成本就超過了10億元。國內(nèi)目前能夠支撐起類似基礎(chǔ)設(shè)施的企業(yè)不超過3家。

也正因如此，在這場表面熱鬧的大模型競賽中，注定有一大票公司，都只是打著大模型的名號，來實(shí)現(xiàn)自身利益的“陪跑者”罷了……

不過縱觀人類的科技發(fā)展史，都由泡沫中的幸存者來繼續(xù)推動(dòng)的。即使人類本身，也是物種大爆發(fā)這場生物泡沫的幸運(yùn)兒。如果泡沫無法避免，從業(yè)者真正需要的是面對泡沫時(shí)的冷靜和定力。

一、數(shù)據(jù)孤島

國產(chǎn)大模型能否達(dá)到或超越GPT這類先進(jìn)模型的水平，有兩個(gè)較為主要的因素：

在數(shù)據(jù)集的獲取上，如何不斷積累足夠多、且高質(zhì)量的數(shù)據(jù)集；
在煉制大模型的“工藝”上，如何不斷探索和突破，找到新的理論和方法。

先說第一點(diǎn)。

目前，在大模型的訓(xùn)練上，用來訓(xùn)練的主流數(shù)據(jù)集以英文為主，中文數(shù)據(jù)只占據(jù)4.8%。

之前清華計(jì)算機(jī)系教授唐杰，在對千億模型ChatGLM-130B訓(xùn)練前數(shù)據(jù)準(zhǔn)備時(shí)，就曾面臨過清洗中文數(shù)據(jù)后，可用量不到2TB的情況。

這就是國內(nèi)所有做大模型的團(tuán)隊(duì)不得不面對的慘烈現(xiàn)狀。

為解決這個(gè)問題，許多國內(nèi)團(tuán)隊(duì)，都開始通過“眾志成城”的方式，開源自身的中文數(shù)據(jù)集，以希望彌補(bǔ)高質(zhì)量中文數(shù)據(jù)集的不足。

但是，這種通過各個(gè)團(tuán)隊(duì)“自覺”開源的方式，仍然存在著一定局限性，那就是：由于數(shù)據(jù)的敏感性、隱私性和所有權(quán)等問題，很多行業(yè)和領(lǐng)域的數(shù)據(jù)并不容易獲得或共享。

國內(nèi)數(shù)據(jù)大量儲(chǔ)存于移動(dòng)端APP中，于訓(xùn)練大模型而言比較難于抓取。

同時(shí)國內(nèi)互聯(lián)網(wǎng)巨頭之間的數(shù)據(jù)相互封閉，數(shù)據(jù)孤島化情況嚴(yán)重。

例如百度的內(nèi)容生態(tài)數(shù)據(jù)，騰訊的公眾號數(shù)據(jù)，阿里的電商和物流數(shù)，這些屬于各大企業(yè)的私有數(shù)據(jù)。雖然都在各自的行業(yè)和場景，積累了外人所不能及的優(yōu)勢，但由其所有權(quán)和隱私性的問題，導(dǎo)致很難與外界進(jìn)行共享。

而這些不容易獲取的數(shù)據(jù)，往往無法依賴各團(tuán)隊(duì)的“自愿”和“主動(dòng)”進(jìn)行開源。

針對這一問題，走在前列的美國AI產(chǎn)業(yè)，早已通過更成熟的數(shù)據(jù)共享平臺(tái)、數(shù)據(jù)交易市場、數(shù)據(jù)信托等機(jī)制，促進(jìn)了數(shù)據(jù)的流通和價(jià)值發(fā)現(xiàn)。

具體來說，在這些數(shù)據(jù)交易平臺(tái)中，第三方數(shù)據(jù)擁有者可以將原始數(shù)據(jù)掛到數(shù)據(jù)交易市場上公開出售，數(shù)據(jù)需求方按照約定價(jià)格（買斷數(shù)據(jù)/按小時(shí)計(jì)費(fèi)、平臺(tái)會(huì)員費(fèi)）購買后，可以在數(shù)據(jù)交易平臺(tái)上獲得離線的數(shù)據(jù)包或者實(shí)時(shí)API。

若最終成功交易，平臺(tái)收取一定傭金后返還銷售收入給第三方數(shù)據(jù)擁有者。這類型數(shù)據(jù)交易平臺(tái)代表有RapidAPI、Streamr等。

與之相比，國內(nèi)大數(shù)據(jù)交易仍處于起步階段，數(shù)據(jù)交易主要以單純的原始數(shù)據(jù)“粗加工”交易為主。且數(shù)據(jù)供需不對稱，使得數(shù)據(jù)交易難以滿足社會(huì)有效需求，數(shù)據(jù)成交率和成交額不高。

此外，在數(shù)據(jù)交易過程中，國內(nèi)市場也缺乏全國統(tǒng)一的規(guī)范體系和必要的法律保障，無法有效破解數(shù)據(jù)定價(jià)、數(shù)據(jù)確權(quán)等難題。

從長遠(yuǎn)來看，國內(nèi)大模型要想在數(shù)據(jù)的數(shù)量、質(zhì)量上進(jìn)一步得到提升，就不能單單只靠部分團(tuán)隊(duì)“自愿”和“主動(dòng)”的開源，而要在法律、市場機(jī)制等方面，做出更多與時(shí)俱進(jìn)的改革。如此方能促進(jìn)各個(gè)行業(yè)間數(shù)據(jù)的廣泛共享。

二、“工藝”的差距

除了數(shù)據(jù)集的數(shù)量、質(zhì)量外，另一個(gè)決定大模型能力強(qiáng)弱的關(guān)鍵因素，就是煉制大模型的“工藝”。

前段時(shí)間，復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華就表示：與國際同行相比，模型、數(shù)據(jù)和算力并不是中國最大的劣勢，真正的短板在于對大模型“煉制”工藝的掌握，包括數(shù)據(jù)配方、數(shù)據(jù)清洗和參數(shù)設(shè)置等等。

現(xiàn)在有些國內(nèi)大模型，動(dòng)輒就對外號稱“百億”、“千億”規(guī)模，仿佛參數(shù)量越大，模型性能就愈強(qiáng)。

然而，空有龐大的規(guī)模，卻缺乏先進(jìn)的“工藝”，這就像一個(gè)腦容量頗大，但卻掌握不到學(xué)習(xí)要領(lǐng)的學(xué)生，難以在學(xué)習(xí)能力上進(jìn)一步“精進(jìn)”。

具體來說，如果將煉制大模型的過程，類比成一座工廠中的流水線。那么數(shù)據(jù)配方就像在開始生產(chǎn)之前選擇原材料一樣，需要選擇不同的數(shù)據(jù)集，確定不同領(lǐng)域、不同類型、不同模態(tài)數(shù)據(jù)的配比。

而數(shù)據(jù)清洗就像對原材料的加工一樣，對原始語料進(jìn)行去噪、去重、過濾、規(guī)范化等操作，提取有用的信息；

參數(shù)設(shè)置就像生產(chǎn)過程中的調(diào)整和優(yōu)化一樣，通過選擇合適的超參數(shù)，如學(xué)習(xí)率、批次大小等，以達(dá)到最佳的效果。

雖然上述的每一個(gè)具體步驟，國內(nèi)其實(shí)都知道怎么做，但是將它們整合在一起，總體效果和國外是存在差距的。

這雖然不是0和1的區(qū)別，但卻是50分和100分的區(qū)別。

所以，大模型的研制與開發(fā)，終歸是一個(gè)易學(xué)難精的過程。而要想進(jìn)一步提升這樣的工藝，就必須在人工智能的基礎(chǔ)理論、工程實(shí)踐以及創(chuàng)新思維上不斷積累，從而實(shí)現(xiàn)在關(guān)鍵環(huán)節(jié)上的突破和領(lǐng)先。

可問題是，這些反復(fù)試錯(cuò)、探索的過程，往往是一個(gè)需要消耗大量時(shí)間、資源，且并沒有實(shí)際產(chǎn)出與盈利的過程。

即便是創(chuàng)造了ChatGPT的OpenAI，目前也處于嚴(yán)重虧損的狀態(tài)（其去年的虧損已達(dá)5.4億美元）。

這對于國內(nèi)許多急功近利的企業(yè)而言，無疑是一個(gè)重大的考驗(yàn)。

因?yàn)閲鴥?nèi)巨頭們對技術(shù)性風(fēng)口的追逐和熱愛，不堅(jiān)定，也缺乏耐心。

舉例來說，全民造芯運(yùn)動(dòng)中，在2017年，資本對半導(dǎo)體的狂熱達(dá)到了一個(gè)頂端，創(chuàng)下至今最高歷史記錄，單筆平均融資達(dá)到 8億元。

然而，一旦察覺某類技術(shù)的研發(fā)，是一場漫長且難見收益的過程，某些企業(yè)的“浮躁”與“搖擺”就會(huì)逐漸顯現(xiàn)。

2020年，武漢弘芯半導(dǎo)體，號稱千億投資，臺(tái)積電技術(shù)大牛執(zhí)掌。但成立僅僅三年，就被曝出項(xiàng)目欠薪停擺。武漢弘芯將大陸唯一一臺(tái)，價(jià)值5億多元，能夠生產(chǎn)7nm芯片的光刻機(jī)，拿去銀行抵押續(xù)命。

由此可見，國內(nèi)外大模型的競爭，表面上看，是數(shù)據(jù)集多寡、質(zhì)量高低的競爭；稍微深入了看，是大模型工藝的比拼；而再深入到底層，就變成了不同的商業(yè)文化，乃至生態(tài)的綜合競爭了。

作者：舉大名耳

來源公眾號：AI新智能

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @AI新智能授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議