【入門科普】必了解的 20 個 AI 術語解析(上)

李文杰
0 評論 1248 瀏覽 11 收藏 9 分鐘

AI時代到來,作為職場人的我們,或許可以了解一些AI術語名詞。這篇文章里,作者就介紹了一些概念,不妨來看看。

本文專為非技術背景的AI愛好者設計,旨在深入淺出地介紹AI的基礎概念和關鍵技術,從最基礎的邏輯回歸到復雜的Transformer模型,帶您一步步解鎖AI技術的奧秘。

一、邏輯回歸

如果你想通過人工智能判斷某人是否會患糖尿病,則邏輯回歸可以通過綜合分析用戶的年齡、體重、胰島素水平等等來給出一個0~1的概率值,如果閾值設定為0.7,則高于0.7的我們就歸類為高風險人群,以便更早期的干預和管理風險。

二、線性回歸

邏輯回歸解決的是0到1的概率問題,而很多時候是我們需要具體的值,比如你在擺攤賣冰激凌,你注意到溫度越高,你賣出去的冰激凌越多。

線性回歸就像是你用尺子和鉛筆在歷史銷售數(shù)據(jù)的散點圖表上畫一條直線,盡量讓這條線貼近所有的銷售點(溫度是x,銷售額是y)。這樣,你就可以用這條線預測,在任何給定溫度下,你大概能賣多少冰激凌。

三、多元多項式回歸

你一定發(fā)現(xiàn)了在前文冰激凌案例中,很顯然溫度對收入的影響并不是直線而是一個曲線,并且也不止溫度這一個自變量。多元多項式回歸就是一種可以綜合考慮多個X自變量并且能得出非線性關系的機器學習算法。比如訓練一個評估房價的模型,那么自變量就有:面積、房齡、距離地鐵站距離、樓層數(shù)等等,自變量越多,模型越能去模擬真實世界。

四、決策樹

本文前三節(jié)都是基于簡單的數(shù)學公式的模型,這些模型要求輸入數(shù)據(jù)是數(shù)值型,這意味著在處理性別、城市、疾病類別等非數(shù)值型時,需要進行數(shù)值轉化的預處理,這增加了算法復雜度,造成過擬合等問題。

決策樹可以直接處理分類特征,比如訓練一個診斷心臟病類型的算法模型,我們搭建有很多決策點比如:患者的胸痛類型、心電圖結果,這些決策點就構成了一個決策樹,每個葉節(jié)點代表一個特定的心臟病診斷。需要注意的是決策樹和前三種算法并不是互斥關系,決策樹的葉節(jié)點上可以包含獨立的算法模型。

五、隨機森林

就像醫(yī)生之間對于同一個癥狀會有不同的疾病診斷一樣,對于同一個問題會無數(shù)種決策樹方式,如果醫(yī)生用投票的形式來最終決定是哪一個疾病診斷,這種診斷的準確性往往比一個醫(yī)生的準確率高很多,這種集成多顆決策樹的模型構建方式,叫做隨機森林。

為什么叫“隨機”森林呢?好比每個醫(yī)生都是一個決策樹,就算他們是從一個學校培養(yǎng)出來的,但他們個人接觸到的病例樣本不同,個人性格傾向于保守還是樂觀也不同,這種隨機性讓每一個決策樹結構都不同,所以被稱之為隨機森林。

六、聚類

在機器學習中訓練模型就好比是用“大量已知的y和x”去倒推出在“y=f(x)”中的f,比如訓練一個短視頻推薦算法,x是用戶數(shù)據(jù),y是用戶興趣標簽,如果y的顆粒度越精準那么推薦的視頻也就越符合他的胃口。

但在實際中,我們很難去給用戶標注合適的y來準備足夠的訓練集。此時,就常用到聚類算法,他可以自行從大量x中依據(jù)數(shù)據(jù)之間的相似度來劃分成多個類別,聚類常用在機器學習的數(shù)據(jù)預處理階段。

七、降維

假設你有一個信息超級全的地圖,包含馬路、鐵路、景點、學校、醫(yī)院、甚至地形海拔,但是你只是想知道從人民廣場到陸家嘴要坐幾號線而已,那最適合你的就只是地鐵路線圖而已,這種簡化數(shù)據(jù)但保留重要信息的過程就叫做降維,人工智能對信息的降維可以減少計算成本(省電費、省顯卡),比如,你要訓練一個給臉部顏值打分的模型,那么采集到的照片背景、用戶的衣服顏色等等就是多余的數(shù)據(jù)。

八、卷積神經網(wǎng)絡

卷積神經網(wǎng)絡(CNN)最典型的運用是圖像識別,它模仿人的思維,自動捕捉典型特征,比如邊緣、角落、紋理等,然后他們的發(fā)現(xiàn)會被匯總起來,以幫助整個團隊理解整張圖片的內容。比如我們判斷照片上的動物是不是貓,我們會最先想到的是看它的三角形的耳朵、圓胖的臉蛋、小鼻子,綜合這些特征后判斷是不是貓。

九、循環(huán)神經網(wǎng)絡

CNN適合處理圖像或視頻這種網(wǎng)格結構的數(shù)據(jù),而循環(huán)神經網(wǎng)絡(RNN)適合處理文本、語音、天氣這類有時間順序序列數(shù)據(jù),它具有一定的記憶能力能夠理解上下文關系。這個算法的缺點是容易“梯度爆炸”或者“梯度消失”,“梯度爆炸”可以類比為在閱讀小說時,對之前章節(jié)非必要的細節(jié)過于沉浸無法忘懷,以至于影響了對當前內容的理解。而“梯度消失”則相當于你很快就忘記了之前的內容,使得理解當前內容變得困難。

十、Transformer

Transformer模型通過其獨特的自注意力機制可以解決CNN中常有的“梯度爆炸”和“梯度消失”的問題,并且它不需要像RNN一樣按順序處理數(shù)據(jù),而是可以一次性讀取全部數(shù)據(jù)。就像是在一個巨大的圖書館里尋找信息,RNN是一本一本去讀,而Transformer可以一次性看完,并迅速找到你需要的信息。這種方法特別適合處理語言,因為它需要同時理解句子中的每個詞及其上下文關系。

本文由 @李文杰 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
52996人已学习18篇文章
做了好多年的产品经理,该不会连注册登录功能设计都没整明白吧?
专题
17930人已学习17篇文章
数据可视化的方式,能够更加清晰明确的进行数据分析。本专题的文章分享了数据可视化的设计思路。
专题
11923人已学习12篇文章
随着现代科技的不断发展进步,智慧城市的建设也在不断发展,本专题的文章分享了智慧城市设计指南。
专题
14285人已学习13篇文章
数据仓库是所有产品的数据中心,公司体系下的所有产品产生的所有数据最终都流向数据仓库。本专题的文章分享了什么是数据仓库和如何搭建数据仓库。
专题
16929人已学习12篇文章
如何搞懂财务和业务之间的关系,并推进业务系统财务模块的建设呢?本专题的文章分享了财务系统的设计指南。
专题
12930人已学习12篇文章
OTA,在线旅游(Online Travel Agency)指“旅游消费者通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费。