AI入門第一課:把模型跑起來

0 評論 1733 瀏覽 9 收藏 9 分鐘
🔗 产品经理专业技能指的是:需求分析、数据分析、竞品分析、商业分析、行业分析、产品设计、版本管理、用户调研等。

AI大模型發(fā)展到現(xiàn)在,國內(nèi)外都有在線和離線版本,那如何在自己本地部署大模型呢?本文分享了一種簡單的辦法,一起來看看吧。

我們經(jīng)常能看到某某公司開源了一款A(yù)I大模型的新聞。這些模型都有著超強的能力,從生成大段的文字、逼真的圖像,到理解和翻譯不同語言,再到創(chuàng)造出令人嘆為觀止的音樂和藝術(shù)作品。

對于我們普通人來說,這些高科技聽起來不僅遙不可及,而且似乎與我們的日常生活無關(guān),他們像是只有那些天才和大神們才能操作和使用的。

但是這些強大的AI模型,并不止是大神們才能接觸和使用,實際上,這些模型的使用門檻其實不高。任何對AI感興趣的人都可以輕松獲取和使用這些模型,就像搭樂高積木一樣,將它們組合起來,創(chuàng)造出你心目中的應(yīng)用。

這一切既不需要深厚的技術(shù)背景,也不需要復(fù)雜的編程技能。只要你有想法和一丟丟的學(xué)習(xí),這些強大的模型就能成為你隨意操作的「樂高」,搭建出你設(shè)想的樣子。

下面我們一起來看下,如何把模型跑起來

第一步:找到一個模型

首先,第一步我們得知道去哪里找到這些模型,很簡單,有一個神奇的網(wǎng)站叫:Hugging Face(https://huggingface.co/),這個網(wǎng)站本質(zhì)就是一個大模型的托管網(wǎng)站,目前這個網(wǎng)站托管的AI模型超過57萬。一些熱門的模型,比如meta的Llama系列模型,google的Gemini等都托管在這個網(wǎng)站上,任何人都可以訪問并使用它們。

假設(shè),我們現(xiàn)在要找一個模型,可以實現(xiàn)讀圖的功能,就是給它一張圖片,它可以告訴我這個圖片里的主要內(nèi)容是什么。這個模型的邏輯如下圖,非常簡單,輸入一張圖片,輸出一段圖片的文本描述。

這個模型本質(zhì)上就是一個圖片到文本的模型,我們在Hugging Face里選擇Image-to-Text的分類,然后從得到的結(jié)果里看排名第一個的模型,就是下圖紅框圈選的:Salesforce/blip-image-captioning-large,這個就是模型的名字。

點擊模型進行模型的詳情頁,這里有模型的詳細原理介紹,以及在線試用的功能,可以在這里直接體驗?zāi)P偷男Ч?/p>

找到了模型之后,我們接下來第二步,如何部署和使用模型。

第二步:模型的部署和使用

模型的使用涉及到模型的加載、預(yù)處理、模型推理和后處理步驟等,聽起來似乎很復(fù)雜,但是不用擔(dān)心,Hugging Face還給我們提供了一套使用的工具,那就是Transformers庫中的pipeline方法,pipeline 將前面提到的模型使用所有步驟封裝成一個簡單的函數(shù)調(diào)用。我們只需要使用這個函數(shù)方法,指定需要完成的任務(wù)類型,當(dāng)然我們也可以指定特定的模型和配置來定制使用。Transformers庫是由Hugging Face公司開發(fā)的一個開源Python庫,里面除了pipeline外,還有很多其它的方法和工具,這里就不細說了。

具體的使用其實就是幾行Python代碼就可以搞定,非常簡單。這里額外說下,我們經(jīng)常在使用寫python的時候,需要安裝編譯器和配置環(huán)境,往往這些環(huán)境配置就已經(jīng)消耗了我們的所有激情了。這里,感謝google大大提供的一個在線編程工具colab,直接解決所有安裝和環(huán)境問題。

Colaboratory界面如下,就是一個可以在線寫python代碼的「筆記本」。

我們新建一個文件,然后輸入第一行代碼:

pip install transformers

就這樣一行代碼,Transformers庫就安裝好了。后面具體的操作,點擊上傳圖片。

隨后編寫的代碼和解釋如下,懂一點點python和編程的人,應(yīng)該就能寫出來。寫完后點擊代碼側(cè)邊的運行按鈕即可。

輸出的文案是:arafed woman sitting on the ground with a camera and a tripod. (一位戴著頭巾的女性坐在地上,旁邊放著相機和三腳架。)基本識別出來圖片中的主要內(nèi)容。

到此,我們的第一個模型的選擇和使用的demo就完成了。

這段代碼的地址如下:

https://colab.research.google.com/drive/1NWTircHzljiU2MNCKjA9PpyGJCMcpqmc?usp=sharing

三、最后

如果我們有更復(fù)雜的想法,比如我們可以用得到的圖片描述,再用LLM模型,幫助編寫一個故事腳本,再通過一個文生視頻模型,變成圖片或者視頻,具體的流程如下圖所示。

這些都是可以用一個一個模型拼接出來的。至于如何拼接,后續(xù)的文章中會繼續(xù)介紹。

因此,在AI時代來臨之際,如果你是一個有想法的產(chǎn)品,那么可以自己通過這些多種多樣的模型實現(xiàn)自己的想法。分享一個我看到的有意思的模型實踐,利用codeformer模型,去除圖片的馬賽克,大家可以去huggingface上體驗下,https://huggingface.co/spaces/sczhou/CodeFormer

突然感覺這個應(yīng)用可能蠻有前景!你覺得呢?哈哈哈。我也是AI入門學(xué)習(xí)者,對于模型的使用還有很多其它的平臺和方法,我也在摸索中,歡迎大家交流討論~

專欄作家

南村小付,微信公眾號:南村小付,人人都是產(chǎn)品經(jīng)理專欄作家。快手高級產(chǎn)品經(jīng)理,曾任職阿里,歡聚時代,7年互聯(lián)網(wǎng)產(chǎn)品設(shè)計運營經(jīng)驗。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
104018人已学习5篇文章
PRD、MRD、DRD、BRD各种文档撰写方法在这里。
专题
15635人已学习12篇文章
用户增长是一个复杂体系,涉及产品、运营、市场、技术等多个环节的相互配合,本专题的文章分享了用户增长方法论。
专题
20614人已学习15篇文章
AARRR模型是一个经典的增长漏斗模型。本专题的文章针对AARRR模型进行拆解解读。
专题
61256人已学习24篇文章
想要脱围而出,你必须学点实在的技能。
专题
16667人已学习12篇文章
本专题的文章分享了物联网产品的设计思路。
专题
53528人已学习19篇文章
让我们来看一下Axure的高端操作:用Axure实现游戏功能