一篇文章了解機(jī)器學(xué)習(xí)

最近正在做一個(gè)機(jī)器學(xué)習(xí)相關(guān)的項(xiàng)目,在這之前自己也沒有接觸過機(jī)器學(xué)習(xí)??芍^邊做邊學(xué),在這里把自己的學(xué)習(xí)理解記錄下來,同時(shí)也希望感興趣的同學(xué)可以通過這篇文章對機(jī)器學(xué)習(xí)有一個(gè)大致的了解。這篇文章沒有專業(yè)的技術(shù)語言,旨在讓機(jī)器學(xué)習(xí)之外的人能夠?qū)@門技術(shù)有一個(gè)初步的認(rèn)識。
背景
機(jī)器學(xué)習(xí)(Machine Learning)是一門專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能的學(xué)科。1959年美國的塞繆爾(Samuel)設(shè)計(jì)了一個(gè)下棋程序,這個(gè)程序具有學(xué)習(xí)能力,它可以在不斷的對弈中改善自己的棋藝。4年后,這個(gè)程序戰(zhàn)勝了設(shè)計(jì)者本人。又過了3年,這個(gè)程序戰(zhàn)勝了美國一個(gè)保持8年之久的常勝不敗的冠軍。這個(gè)程序向人們展示了機(jī)器學(xué)習(xí)的能力。
機(jī)器學(xué)習(xí)的定義
機(jī)器學(xué)習(xí),顧名思義就是讓機(jī)器進(jìn)行“學(xué)習(xí)”,這個(gè)名字使用了擬人的手法。
但是計(jì)算機(jī)是死的,怎么可能像人一樣學(xué)習(xí)呢?
傳統(tǒng)的計(jì)算機(jī)程序,都是我們輸入一串指令后,它按照這個(gè)指令一步步的執(zhí)行,最終輸出一個(gè)明確的結(jié)果,具有明確的因果關(guān)系。但是機(jī)器學(xué)習(xí)卻完全不一樣,沒有明確的因果關(guān)系。它會根據(jù)你輸入的數(shù)據(jù)而不是指令來進(jìn)行學(xué)習(xí)和輸出結(jié)果,相關(guān)而不是因果的概念是機(jī)器學(xué)習(xí)的核心概念。
因此我們說,機(jī)器學(xué)習(xí)是一種讓計(jì)算機(jī)利用數(shù)據(jù)而不是指令來進(jìn)行各種工作的方法。
它是人工智能的核心,是使計(jì)算機(jī)智能化的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。
基于機(jī)器學(xué)習(xí)的文本分類
文本分析一直是科學(xué)研究較為活躍的領(lǐng)域。畢竟創(chuàng)造所有人類知識(文本表示)不是一項(xiàng)輕松的工作。
下面我通過機(jī)器學(xué)習(xí)在文本數(shù)據(jù)分析方面的應(yīng)用為例來簡單的闡明具體什么是機(jī)器學(xué)習(xí)。如果你想簡單的了解一下什么是機(jī)器學(xué)習(xí),那么看完這篇文章就足夠了。如果你想深入了解機(jī)器學(xué)習(xí)和人工智能,就需要多下功夫進(jìn)行研究和思考了。
文本分析,即是讓計(jì)算機(jī)對輸入的文本數(shù)據(jù)進(jìn)行分析,得到這篇文章的分析結(jié)果(如文本分類、正負(fù)情緒等)。進(jìn)行分析的前提是,使用算法對文本數(shù)據(jù)進(jìn)行分詞和關(guān)鍵詞提取,同時(shí)系統(tǒng)建立一個(gè)語料庫。流程是,輸入文本數(shù)據(jù)后,系統(tǒng)對文本數(shù)據(jù)進(jìn)行分詞和關(guān)鍵詞的提?。P(guān)于分詞和關(guān)鍵詞提取的原理就不在這里展開說了,后續(xù)會抽時(shí)間進(jìn)行分享),得到關(guān)鍵詞數(shù)據(jù)后,與語料庫的數(shù)據(jù)進(jìn)行匹配,然后將匹配數(shù)據(jù)傳輸至分析引擎,得出分析結(jié)果。
這是目前行業(yè)中最基本的文本分析流程,這個(gè)流程本身是沒有任何問題的,但是問題就出在計(jì)算機(jī)沒有“自我”的意識,不懂得如何根據(jù)實(shí)際環(huán)境等因素進(jìn)行靈活的變通,所以這樣分析出來的結(jié)果可能會出現(xiàn)不準(zhǔn)確的情況。舉一個(gè)簡單的例子,比如有一句話話“資本主義好?呵呵!”如果直接讓計(jì)算機(jī)分析的話,也許得出的結(jié)果就是歌頌資本主義。但實(shí)際的情況卻是批評資本主義。可以看到,在這種特定的環(huán)境下的分析判斷,展現(xiàn)出會思考的人類的強(qiáng)大之處。
基于這樣的情況,我們需要引入機(jī)器學(xué)習(xí)的概念。傳統(tǒng)的計(jì)算機(jī)系統(tǒng),都是輸入A,得到的答案一定是B。但是通過機(jī)器不斷的學(xué)習(xí)后,同樣輸入A,但是得到的答案可能會是B1B2或者BC。這就是機(jī)器學(xué)習(xí)后帶來的變化,也正是機(jī)器學(xué)習(xí)的魅力所在。
先上一個(gè)關(guān)于文本分類的機(jī)器學(xué)習(xí)架構(gòu)圖。
在圖中可以看到,對于分析引擎可以正確識別的將會直接輸出分析結(jié)果。對于分析引擎不能正確識別的,將通過人工干預(yù)的方式對分析結(jié)果進(jìn)行校正后再將正確結(jié)果進(jìn)行輸出。而機(jī)器學(xué)習(xí)引擎將對所有的這些歷史樣本數(shù)據(jù)進(jìn)行存儲。接著,我們將這些數(shù)據(jù)通過機(jī)器學(xué)習(xí)算法進(jìn)行處理,這個(gè)過程在機(jī)器學(xué)習(xí)中叫做“訓(xùn)練”,處理的結(jié)果可以被我們用來訓(xùn)練“模型”,當(dāng)輸入新的數(shù)據(jù)時(shí),我們即可以通過“模型”對這部分?jǐn)?shù)據(jù)進(jìn)行處理。對新數(shù)據(jù)的處理過程在機(jī)器學(xué)習(xí)中叫做“預(yù)測”。“訓(xùn)練”與“預(yù)測”是機(jī)器學(xué)習(xí)的兩個(gè)過程,“模型”則是過程的中間輸出結(jié)果,“訓(xùn)練”產(chǎn)生“模型”,“模型”指導(dǎo) “預(yù)測”。
下面這張圖就是機(jī)器學(xué)習(xí)的過程與人類歸納經(jīng)驗(yàn)的對比:
可見,機(jī)器學(xué)習(xí)中的“訓(xùn)練”與“預(yù)測”過程可以對應(yīng)到人類的“歸納”和“推測”過程。機(jī)器的“模型”通過歷史數(shù)據(jù)的積累學(xué)習(xí)具有了對新的問題和具體情境給出判斷的能力,這正如人類通過過往的生活經(jīng)驗(yàn)不斷歸納整理得出一定的規(guī)律而具有了利用這些知識對新的問題進(jìn)行判斷能力。通過這樣的對應(yīng),我們可以發(fā)現(xiàn),機(jī)器學(xué)習(xí)的思想并不復(fù)雜,僅僅是對人類在生活中學(xué)習(xí)成長的一個(gè)模擬。由于機(jī)器學(xué)習(xí)不是基于編程形成的結(jié)果,因此它的處理過程不是因果的邏輯,而是通過歸納思想得出的相關(guān)性結(jié)論。
小結(jié)
機(jī)器學(xué)習(xí)即是用某些算法指導(dǎo)計(jì)算機(jī)利用已知的歷史數(shù)據(jù)得出適當(dāng)?shù)哪P停⒗么四P蛯π碌那榫辰o出判斷的過程。
以上,為個(gè)人理解,愿與大家多多交流!
本文由 @Yonwon?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
- 目前還沒評論,等你發(fā)揮!