【入門科普】機器學習的四個步驟
在學習人工智能之前,我們大多都需要提前了解一些有關機器學習的內容。這篇文章里,作者就闡述了機器學習訓練“模型”的幾個步驟,一起來看看。
學習人工智能,必須要了解機器學習。
我們可以把機器學習比喻成大腦學習。
大腦學習的成果是“智慧”,機器學習的成果就是“模型”。
機器學習訓練“模型”有四個步驟:
- 第一步:“收集數據”好比“收集知識”
- 第二步:“訓練模型”好比“消化理解”
- 第三步:“模型評估”好比“考試打分”
- 第四步:“模型部署”好比“走進社會”
一、收集數據
機器學習的基本理念是使用過去學習到的經驗知識來預測新的問題,這個和大腦學習過程很像,我們需要見多識廣,收集大量數據。
為訓練模型收集到的數據隨機分成兩部分:
- 訓練數據集:用于“消化理解”的題目
- 測試數據集:用于“考試打分”的題目
這些題目在機器學習里稱之為“樣本”。
“token”則是指數據集中最小有意義單元,如:一個單詞、一個數字、一個漢字。
一般用token量來表示所用到的數據集大小;據說GPT4用了13萬億token用于訓練。
二、訓練模型
“智慧”從題目中的“信息”中推理出“答案”;
“模型”從樣本中的“特征”中推理出“標簽”。
以一個預測冰激凌銷售收入的模型為案例:
特征:氣溫x1、降雨量x2、是否節(jié)假日x3…
標簽:收入y
y = f(x1,x2,x3….)
機器學習最神奇的事情就是科學家們會選擇合適的數學算法,這種算法可以從大量由x和y組成的樣本里自行推導出f。
那些天才科學家們發(fā)明過很多算法,還起了讓人一臉懵逼的算法名稱比如:“隨機森林”、“k近鄰算法”、“生成對抗”、“支持向量機” 等等。
除了算法,我們還常聽到模型的“參數”,它是指那些可調整的變量,用于控制模型的行為和性能。
最常見的一種參數是“權重參數”;
可以理解為是函數里的a、b、c
y = f(ax1,ax2,cx3….)
據說GPT4參數量達到了恐怖的1.8萬億。
三、模型評估
很多時候我們自以為對知識“消化理解”了,但真正要用的時候卻經常出錯,我們需要“考試打分”這一環(huán)節(jié)幫我們把把關,這不僅僅是為了向社會證明我們應該具備了某種能力,更重要的是可以指導我們如何進行查漏補缺。
在機器學習里,用“測試數據集”去考驗“f”并給出一個評價分數的過程就是模型評估。
常見的術語有:
1)過擬合:訓練高分但考試低分
模型在訓練集上的表現(xiàn)好,但是在測試集上的表現(xiàn)不佳。
2)泛化:能夠舉一反三的能力
指訓練好的模型對未見過的數據的適應能力。
3)精度:答對的題目數/題目總數
模型預測正確的樣本數占總樣本的比例。
所謂的“模型迭代”就是通過不斷優(yōu)化或新增訓練數據集,選擇更合適的“算法”或者“參數”去訓練出新的“f”,以便能在測試數據集中拿到一個更高的分數。
四、模型部署
就像“考試打分”不是我們學習最終目的,模型評估的分數就算再高也要“走進社會”去部署運用才能發(fā)揮模型真正的價值。
學海無涯,機器學習同樣如此,模型部署是下一輪機器學習的開始。對于已部署生產環(huán)境的模型需要建立監(jiān)控機制,定期監(jiān)測模型性能和預測結果,及時發(fā)現(xiàn)并解決模型退化或失效的問題,在使用者允許的情況下在生產環(huán)境所遇到的新情況也會是下一輪“收集數據”的樣本,以便不斷提高模型的準確性。
本文簡單概述了機器學習的四個步驟。
機器學習和大腦學習很像;
- “收集數據”是“學習準備”;
- “訓練模型”是“埋頭苦學”;
- “模型評估”是“反思復盤”;
- “模型部署”是“大展拳腳”。
八字口訣:“收集訓練評估部署”。
世界變化只會越來越快,我們一起學習AI知識,緊跟時代潮流~
相關閱讀:
本文由 @李文杰 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!