一位AI從業(yè)者的十年

0 評論 436 瀏覽 0 收藏 14 分鐘

在AI技術(shù)飛速發(fā)展的十年中,一位AI從業(yè)者親歷了從圖像識別到大模型的變革。本文回顧了AI領(lǐng)域的重大突破,包括AlphaGo的勝利、深度學(xué)習(xí)的崛起、Transformer架構(gòu)的革命性影響,以及大模型時(shí)代的到來。

2015年,我剛參加工作,第一個(gè)任務(wù)是識別圖片里的物品。傳統(tǒng)做法是,找到物品的特征,用機(jī)器學(xué)習(xí)設(shè)計(jì)特征工程,做成模版,拿著模版進(jìn)行特征匹配。做了幾個(gè)月,效果差強(qiáng)人意。

突然一則新聞吸引了我的注意力,谷歌旗下的DeepMind開發(fā)了一款圍棋程序AlphaGo,要與世界冠軍李世石對弈。賽前大家并不看好AI,甚至人工智能專家李開復(fù)也覺得AI贏不了。事實(shí)讓眾人大跌眼鏡,AlphaGo以4:1大勝李世石。

這個(gè)結(jié)果給了我極大震撼,因?yàn)橹袊酥绹宓碾y度。19乘19的棋盤,狀態(tài)空間復(fù)雜度高達(dá)10的171次方,遠(yuǎn)大于宇宙中原子的個(gè)數(shù),單靠近似窮舉不可能解出答案。

我瘋了一般去尋找背后的故事。原來,AlphaGo的核心是卷積神經(jīng)網(wǎng)絡(luò)。這是楊樂昆在1989年提出的一種圖像識別算法。為什么這個(gè)技術(shù)在二十多年后才被人重視?因?yàn)閿?shù)據(jù)和算力不足。

直到2012年,深度學(xué)習(xí)之父辛頓的兩名學(xué)生在李飛飛主導(dǎo)的ImageNet超大規(guī)模視覺識別挑戰(zhàn)賽上一鳴驚人,人們才終于見識到威力。他倆基于吳恩達(dá)的工作,創(chuàng)造性的將英偉達(dá)的GPU用于訓(xùn)練一個(gè)600萬參數(shù)的深度神經(jīng)網(wǎng)絡(luò)AlexNet。AlexNet在學(xué)習(xí)了1000萬張李飛飛團(tuán)隊(duì)辛苦標(biāo)注的圖片后,將圖像識別的準(zhǔn)確率提高了10%以上,遙遙領(lǐng)先于亞軍。

在AlexNet的基礎(chǔ)上,科學(xué)家們再接再厲,提出了一個(gè)又一個(gè)更深更大的網(wǎng)絡(luò),ZFNet,VGGNet,GoogleNet,每年都在進(jìn)步。

到了2015年,華人學(xué)者何愷明,曾經(jīng)的廣東高考狀元,提出了152層的極深網(wǎng)絡(luò)ResNet,參數(shù)量過千萬,至此,AI的圖像識別準(zhǔn)確率終于超過了人類。

了解到這些背景,我興奮得渾身發(fā)抖。開發(fā)人員再也不需要手工設(shè)計(jì)圖像特征,深度網(wǎng)絡(luò)通過海量數(shù)據(jù)學(xué)到的特征,遠(yuǎn)勝資深專家的多年經(jīng)驗(yàn)。為了深入學(xué)習(xí),我開始使用亞馬遜云服務(wù)AWS,很快就被英偉達(dá)的CUDA驚艷到了。

CUDA非常高效,吸引了眾多研究員和工程師,英偉達(dá)的開發(fā)人員也熱心解答各種Bug問題。漸漸的,越來越多的算法首發(fā)在CUDA上,更多的改進(jìn)算法為了超越前者也只能用CUDA,形成了網(wǎng)絡(luò)效應(yīng),用的人越多越好用。

當(dāng)年還沒有現(xiàn)在這么完善的深度學(xué)習(xí)框架,我入門靠的是華人學(xué)者賈揚(yáng)清在寫畢業(yè)論文之余開發(fā)的Caffe。這位大神慷慨開源了他基于CUDA的研究框架,又在博士畢業(yè)后成為谷歌的TensorFlow和Meta的PyTorch兩大當(dāng)今最流行框架的主要貢獻(xiàn)者。

有了這些武器,我總算可以把圖像識別算法換成深度卷積網(wǎng)絡(luò),效果顯著,準(zhǔn)確率飛升。但我知道永遠(yuǎn)不能自滿,這是個(gè)眨眼十年的領(lǐng)域。

得益于科學(xué)家們的開源精神,網(wǎng)絡(luò)的架構(gòu)不斷進(jìn)化。2017年,谷歌提出了Transformer自注意力架構(gòu)。所謂自注意力,簡單說就是只關(guān)心輸入之間的關(guān)系,而不再關(guān)注輸入和輸出的關(guān)系,這是一個(gè)顛覆性的變化。

這篇論文發(fā)布之前,雖然深度學(xué)習(xí)已經(jīng)取得長足進(jìn)展,但AI的各個(gè)分支,視覺,語音,語言理解等,還是相對割裂的,每個(gè)領(lǐng)域有自己的模型。之后,則是Transformer一統(tǒng)天下,各領(lǐng)域?qū)<业闹R整合以及多模態(tài)融合變得愈加輕松。

李飛飛的高徒安德烈,甚至驚嘆,也許人類偶然窺見了和自然界類似的強(qiáng)大架構(gòu),造物主沿著這個(gè)路徑復(fù)制,造就了今天的大千世界。

Transformers讓GPU并行運(yùn)算的效率進(jìn)一步大幅提升,2018年,OpenAI和谷歌相繼發(fā)布了參數(shù)量過億的GPT和BERT模型。

2020年初,OpenAI發(fā)表了著名的Scaling laws規(guī)模法則,指出更大的模型,更多的數(shù)據(jù),更長時(shí)間的訓(xùn)練是提升模型能力的可行路徑。

2022年底,ChatGPT橫空出世,參數(shù)量達(dá)到恐怖的1750億,模型大到違背了許多科學(xué)家的直覺。通常來說,如果一個(gè)模型訓(xùn)練幾個(gè)月燒掉百萬美金,效果還沒有很大提升,研究員就放棄了。但伊利亞不是一般人,作為當(dāng)年AlexNet的作者之一,他堅(jiān)信規(guī)模法則,在燒了千萬美金之后,終于捅破天花板,看到了推理智能的大幅涌現(xiàn)。

曾經(jīng),為了實(shí)現(xiàn)一個(gè)簡單的小功能,我就需要訓(xùn)練一個(gè)AI模型。要完成一個(gè)復(fù)雜的商業(yè)系統(tǒng),需要多個(gè)AI模型的協(xié)作,以及大量的底層邏輯代碼。但現(xiàn)在,借助GPT大模型,實(shí)現(xiàn)功能只需要寫一句簡單的提示語,生產(chǎn)效率大大提高了。

全世界都看到了大模型的威力,根據(jù)斯坦福大學(xué)AI研究院的最新報(bào)告,2023年生成式AI的投資激增了8倍。訓(xùn)練模型也越來越昂貴,谷歌為了追趕ChatGPT開發(fā)的Gemini模型,成本接近2億美金。大規(guī)模的金錢競賽,成了巨頭公司們的游戲。

在此背景下,依然堅(jiān)持開源的英雄們,尤其值得尊敬。

著名開源社區(qū)HuggingFace的創(chuàng)始人分享了一個(gè)美妙故事,關(guān)于三大洲(歐洲,美國,中國)的人們?nèi)绾魏献鞴步ú⒐_分享了一個(gè)緊湊高效,行業(yè)領(lǐng)先的AI模型。一個(gè)小團(tuán)隊(duì)在法國巴黎發(fā)布了他們的第一個(gè)模型:Mistral 7B。該模型令人印象深刻,體積小,但在基準(zhǔn)測試中表現(xiàn)出色,優(yōu)于之前所有同尺寸的模型。而且是開源的,人們可以在其基礎(chǔ)上繼續(xù)開發(fā)。

瑞士伯爾尼的劉易斯和法國里昂的埃德都來自HuggingFace的模型微調(diào)團(tuán)隊(duì),他倆在喝咖啡時(shí)聊到了這個(gè)模型:一個(gè)來自美國加州斯坦福大學(xué)的研究團(tuán)隊(duì)剛剛發(fā)布了一種新的方法,用這種方法微調(diào)Mistral怎么樣?嘿,這是個(gè)好主意,另一個(gè)人答道。他們剛剛開源了一個(gè)很棒的代碼庫,讓我們用起來吧!

第二天,他們開始深入研究HuggingFace上公開共享的數(shù)據(jù)集,偶然發(fā)現(xiàn)了兩個(gè)有趣的大型高質(zhì)量微調(diào)數(shù)據(jù)集,它們來自中國清華大學(xué)的團(tuán)隊(duì)OpenBMB,也開放了源碼:UltraFeedback和UltraChat。幾輪訓(xùn)練實(shí)驗(yàn)證實(shí)了這一直覺,由此產(chǎn)生的模型超級強(qiáng)大,是迄今為止他們在伯克利和斯坦福的基準(zhǔn)測試(LMSYS和 Alpaca)中所見過的最強(qiáng)模型。

開源模型排行榜的大咖克雷門汀也被吸引了,她對模型能力的深入研究證實(shí)了這一模型擁有令人印象深刻的性能。團(tuán)隊(duì)還邀請了康奈爾大學(xué)教授薩沙加入對話,他提議快速起草一份研究論文,整理并與社區(qū)分享所有細(xì)節(jié)。幾天后,起名龍卷風(fēng)Zephyr的模型、論文和所有細(xì)節(jié)便席卷世人。

很快,世界各地的許多公司都開始使用它,有公司聲稱用它取代ChatGPT讓其節(jié)省了一半的費(fèi)用。眾多研究人員在開源社區(qū)熱烈討論該模型和論文。

所有這些都在短短幾周內(nèi)發(fā)生的,這得益于世界各地(歐洲,北美,中國)發(fā)布的知識,模型和數(shù)據(jù)集的開放訪問,以及人們在AI領(lǐng)域相互借鑒工作,為現(xiàn)實(shí)世界帶來價(jià)值的高效理念。開源社區(qū)的成就令人驚嘆,理念更令人神往。

當(dāng)OpenAI不再Open,是這些胸懷技術(shù)開放理想的研究者,將大模型的秘密,展現(xiàn)給全世界。

進(jìn)入2024年,大模型的進(jìn)展依舊如火如荼:

1. Sora模型通過簡單描述生成栩栩如生的長視頻,成為全球焦點(diǎn)。OpenAI稱之為世界模擬器,能深刻理解運(yùn)動(dòng)中的物理規(guī)律。華人學(xué)者謝賽寧揭示了背后原理,來自他發(fā)表的基于Transformer架構(gòu)的擴(kuò)散模型DiT。

很快,潞晨科技和北京大學(xué)推出OpenSora,全面開源文生視頻的模型參數(shù)和訓(xùn)練細(xì)節(jié)??焓止疽餐瞥隽丝伸`大模型,展示了圖生視頻和視頻續(xù)寫等功能,在頂級學(xué)術(shù)會議上引起積極反響。

2. 大模型的推理能力讓許多互聯(lián)網(wǎng)產(chǎn)品得到升級,Arc Search加Perplexity的AI瀏覽器可以改善用戶的搜索體驗(yàn),自動(dòng)整合全網(wǎng)資訊,給出要點(diǎn),回答問題的精準(zhǔn)度大幅提升。

月之暗面的Kimi對話搜索引擎,被許多投資人推薦,因?yàn)槠鋸?qiáng)大的文本總結(jié)能力和200萬漢字的超長上下文窗口,讓閱讀上市公司財(cái)報(bào)和資料的工作不再繁瑣。

3. GPT4o展示了在文本,圖像和語音上的多模態(tài)實(shí)時(shí)處理能力。上海人工智能實(shí)驗(yàn)室和商湯科技聯(lián)合發(fā)布的書生大模型InternLMM,開源了開放世界理解,跨模態(tài)生成和多模態(tài)交互的能力,在全球開發(fā)者社區(qū)備受歡迎。

4.吳恩達(dá)力推智能體工作流,讓AI學(xué)會使用工具,亞馬遜的AWS,微軟的Azure,阿里巴巴的百煉,百度的文心和字節(jié)的扣子等各大云計(jì)算平臺都提供了便捷多樣的插件,讓AI如虎添翼。

5.端側(cè)AI開始落地,蘋果發(fā)布Apple Intelligence,在保護(hù)用戶隱私的同時(shí),將大模型直接部署到用戶的手機(jī)里。因?yàn)槟承┛陀^因素,中國的算力受到限制,反而催生了一些另辟蹊徑,以小博大的模型路線。面壁智能公司推出MiniCPM模型,只有24億參數(shù),性能卻超越了比自己5倍大的巨人。

6.Mistral開源了混合專家模型架構(gòu),由多個(gè)專家子模型組成,回答特定領(lǐng)域的問題只需要調(diào)用相應(yīng)的,整體推理消耗大大降低。美國的GPT和Claude降價(jià)了50%以上,中國公司發(fā)揚(yáng)卷的精神,阿里的通義千問,幻方的DeepSeek等領(lǐng)先模型直接降價(jià)90%。各家大模型之間的競爭愈演愈烈,鹿死誰手,猶未可知。

展望未來,我是非常樂觀的。雖然當(dāng)今世界并不太平,各種沖突矛盾不斷,但AI對生產(chǎn)力的促進(jìn)是確定的。

有人擔(dān)心AI會讓很多人失業(yè),但李飛飛認(rèn)為,AI取代的是任務(wù),而不是工作。每項(xiàng)工作都由大量任務(wù)組成,讓AI去完成繁重的任務(wù),人類的創(chuàng)造力將進(jìn)一步解放。

20年前,隨著生產(chǎn)力的提高,大部分國家開始實(shí)行一周五天工作制。在下一輪AI工業(yè)革命到來之際,一周休三天,也不是遙不可及的幻想。

作者:DrChuck

本文由人人都是產(chǎn)品經(jīng)理作者【錦緞】,微信公眾號:【錦緞】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!