【入門科普】機器學習的四個步驟

李文杰
0 評論 1091 瀏覽 4 收藏 6 分鐘
🔗 B端产品经理需要更多地进行深入的用户访谈、调研、分析,而C端产品经理需要更多地快速的用户测试、反馈、迭代

在學習人工智能之前,我們大多都需要提前了解一些有關機器學習的內容。這篇文章里,作者就闡述了機器學習訓練“模型”的幾個步驟,一起來看看。

學習人工智能,必須要了解機器學習。

我們可以把機器學習比喻成大腦學習。

大腦學習的成果是“智慧”,機器學習的成果就是模型”。

機器學習訓練“模型”有四個步驟:

  • 第一步:“收集數據”好比“收集知識”
  • 第二步:“訓練模型”好比“消化理解”
  • 第三步:“模型評估”好比“考試打分”
  • 第四步:“模型部署”好比“走進社會”

一、收集數據

機器學習的基本理念是使用過去學習到的經驗知識來預測新的問題,這個和大腦學習過程很像,我們需要見多識廣,收集大量數據。

為訓練模型收集到的數據隨機分成兩部分:

  1. 訓練數據集:用于“消化理解”的題目
  2. 測試數據集:用于“考試打分”的題目

這些題目在機器學習里稱之為“樣本”。

“token”則是指數據集中最小有意義單元,如:一個單詞、一個數字、一個漢字。

一般用token量來表示所用到的數據集大小;據說GPT4用了13萬億token用于訓練。

二、訓練模型

“智慧”從題目中的“信息”中推理出“答案”;

“模型”從樣本中的“特征”中推理出“標簽”。

以一個預測冰激凌銷售收入的模型為案例:

特征:氣溫x1、降雨量x2、是否節(jié)假日x3…

標簽:收入y

y = f(x1,x2,x3….)

機器學習最神奇的事情就是科學家們會選擇合適的數學算法,這種算法可以從大量由x和y組成的樣本里自行推導出f。

那些天才科學家們發(fā)明過很多算法,還起了讓人一臉懵逼的算法名稱比如:“隨機森林”、“k近鄰算法”、“生成對抗”、“支持向量機” 等等。

除了算法,我們還常聽到模型的“參數”,它是指那些可調整的變量,用于控制模型的行為和性能。

最常見的一種參數是“權重參數”;

可以理解為是函數里的a、b、c

y = f(ax1,ax2,cx3….)

據說GPT4參數量達到了恐怖的1.8萬億。

三、模型評估

很多時候我們自以為對知識“消化理解”了,但真正要用的時候卻經常出錯,我們需要“考試打分”這一環(huán)節(jié)幫我們把把關,這不僅僅是為了向社會證明我們應該具備了某種能力,更重要的是可以指導我們如何進行查漏補缺。

在機器學習里,用“測試數據集”去考驗“f”并給出一個評價分數的過程就是模型評估。

常見的術語有:

1)過擬合:訓練高分但考試低分

模型在訓練集上的表現(xiàn)好,但是在測試集上的表現(xiàn)不佳。

2)泛化:能夠舉一反三的能力

指訓練好的模型對未見過的數據的適應能力。

3)精度:答對的題目數/題目總數

模型預測正確的樣本數占總樣本的比例。

所謂的“模型迭代”就是通過不斷優(yōu)化或新增訓練數據集,選擇更合適的“算法”或者“參數”去訓練出新的“f”,以便能在測試數據集中拿到一個更高的分數。

四、模型部署

就像“考試打分”不是我們學習最終目的,模型評估的分數就算再高也要“走進社會”去部署運用才能發(fā)揮模型真正的價值。

學海無涯,機器學習同樣如此,模型部署是下一輪機器學習的開始。對于已部署生產環(huán)境的模型需要建立監(jiān)控機制,定期監(jiān)測模型性能和預測結果,及時發(fā)現(xiàn)并解決模型退化或失效的問題,在使用者允許的情況下在生產環(huán)境所遇到的新情況也會是下一輪“收集數據”的樣本,以便不斷提高模型的準確性。

本文簡單概述了機器學習的四個步驟。

機器學習和大腦學習很像;

  • “收集數據”是“學習準備”;
  • “訓練模型”是“埋頭苦學”;
  • “模型評估”是“反思復盤”;
  • “模型部署”是“大展拳腳”。

八字口訣:“收集訓練評估部署”。

世界變化只會越來越快,我們一起學習AI知識,緊跟時代潮流~

相關閱讀:

《AI三要素:數據、算法、算力 ——【入門科普】》

本文由 @李文杰 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
17311人已学习14篇文章
本专题的文章分享了如何设计B端SaaS产品及B端SaaS产品方法论。
专题
35112人已学习22篇文章
从动效设计原则、动效工具、制作方法、标注技巧等全方位解读
专题
48814人已学习16篇文章
看看别人家的PM是怎么做产品测试的。
专题
13245人已学习13篇文章
本专题的文章分享了搜索策略产品经理必读系列。