AI與產品| NLP技術及其在百度APP中的應用
編輯導語:NLP的技術應用十分廣泛,應用的場景也十分廣泛。本篇文章作者分享了NLP的四大經典任務——文本分類、文本匹配、序列標注和文本生成,介紹了這幾個任務以及相關的業(yè)務,感興趣的一起來看看吧。
百度文心(ERNIE)是大規(guī)模語義理解技術與平臺,依托百度深度學習平臺飛槳打造,集先進的預訓練模型、全面的NLP算法集、端到端開發(fā)套件和平臺化服務于一體,提供一站式NLP開發(fā)與服務,讓開發(fā)者更簡單、高效地定制企業(yè)級文本模型。
通過百度文心的NLP技術,現(xiàn)在的百度APP不僅是搜索引擎,還有各種生活化服務以及智能應用場景。
一、NLP及其任務介紹
要走進百度,我們先來了解一下NLP是什么?
NLP是Natural Language Processing的縮寫,中文意思是自然語言處理,是人工智能和語言學領域的分支學科。
此領域探討如何處理及運用自然語言;自然語言處理包括多方面和步驟,基本有認知、理解、生成等部分。
通俗點理解,NLP就是讓機器理解自然語言(人類的文字),然后讓機器處理,并進行運用。
NLP應用非常廣泛,例如搜索引擎,機器翻譯,各種輸入法如搜狗、微軟、谷歌等以及帶有語音識別的計算機和手機。
NLP有四大經典任務,文本分類、文本匹配、序列標注和文本生成。接下來我來為您一一介紹這幾個任務及其相關應用:
1. 文本分類
文本分類是指用計算機對文本(或其他實體)按照一定的分類體系或標準進行自動分類標記。為了方便理解,我們用下面的方式介紹:
- 輸入用文本X表示,輸出標簽用Y表示
- 如果Y表示X屬于某一個類別的概率,或者一組類別的概率分布,則可抽象成文本分類問題。
如上圖是文本分類的幾種應用案例。文本分類可以分為單標簽分類、多標簽分類和句對分類。
在情感分析的例子里,我們要判斷一句話是消極的還是積極的,比如評價一個房子“房間太小,其他的都一般”,它要么屬于消極要么屬于積極,是一種二分類,也叫單標簽分類。
還有一類問題是新聞主題分類,比如說“中美元首就經貿關系通話“,這個新聞標題同時屬于時政、國際和財經三個類別,這三個類別是相互獨立的,可以同時出現(xiàn),所以是多標簽分類。
還有一類是文本蘊含,它輸入的不是一段文本而是兩段文本,要判斷兩段文本之間是否存在邏輯上的包含關系,是相關關系、對立關系還是說中立的,沒有任何關系。比如”大家覺得她好看嗎“和”大家覺得跑男好看嗎“這兩句話就是中立的,沒有任何關系。
2. 文本匹配
- 輸入文本用X表示,輸出標簽用Y表示
- 如果X是兩段文本(X1,X2), Y表示二者的相似度,則可抽象為文本匹配問題。
如圖兩句話“喜歡打籃球的男生喜歡什么樣的女生”和“愛打籃球的男生喜歡什么樣的女生”這兩句話基本意思是一樣的,所以是相似的,標簽Y為1。
若不相似,則為0?;蛘哂幸欢ǖ南嗨贫龋瑒t在0-1之間打一個分。
文本聚類問題可以通過文本相似度問題進行處理。而相似度是兩個文本之間語義層面距離的遠近。
3. 序列標注
- 輸入文本用X表示,輸出標簽用Y表示;
- 如果X是一段文本, Y是一段與X等長的文本, 且X與Y的每個字符一一對應,可抽象為序列標注問題。
序列標注的一個經典任務是命名實體識別。比如“海釣比賽地點在廈門與金門之間的海域”這句話,我們抽出兩個實體,廈門和金門,這兩個實體都是地址,我們就可以將其標注為地址,而其他詞語標注為非地址,用O表示。
分詞、詞性標注、組塊分析、語義角色標注、詞槽挖掘都是典型的序列標注任務。
相信大家都做過閱讀理解,閱讀理解其實就可以理解為特殊的序列標注,X是2段文本(X1,X2),分別表示正文篇章和問題,Y是篇章中的一小段文本,表示對應問題的答案。
4. 文本生成
- 輸入文本用X表示,輸出標簽用Y表示;
- 如果X是一段文本,Y是一段不定長的文本,則可抽象為文本生成問題。
最典型的文本生成問題是機器翻譯。如圖例,我輸入的是一段英文,輸出的是一段其他語言的文字,這兩段文字的語言和詞可能不是那么一一對應的,可能原語句賓語在前謂語在后,后面那段目標語句可能是賓語在后謂語在前。
文本摘要、標題生成、閑聊等都是典型的文本生成任務。
二、NLP應用
NLP典型應用場景有新聞咨詢推薦、商品評價分析、智能客服對話、社交言論分析、金融風險洞察等,業(yè)務的需求千差萬別,所以場景的需求都是定制化的需求。
企業(yè)級NLP應用要著重考慮三個指標,效率、效果和效能。
- 第一是效率,效率指的是開發(fā)的效率,如人力成本、時間成本等,人效要越高越好。
- 第二是模型的效果,這是定制化需求里最關注的指標,有時候甚至會不計成本一定要拿到最好的效果,因為有時候模型效果高一兩個點就可能對公司或者集團帶來巨大的收益。這樣就需要進行高精度標注數(shù)據以及專家級的經驗。
- 第三是效能,這是一個更加宏觀的點,它關注的是應用部署上的靈活,應用為整體業(yè)務帶來的價值。它關注的是從產品和用戶的角度來說帶來的收益。
三、百度文心(ERNIE)
ERNIE是百度開創(chuàng)性提出的基于知識增強的持續(xù)學習語義理解框架,該框架將大數(shù)據預訓練與多源豐富知識相結合,通過持續(xù)學習技術,不斷吸收海量文本數(shù)據中詞匯、結構、語義等方面的知識,實現(xiàn)模型效果不斷進化。
ERNIE在情感分析、文本匹配、自然語言推理、詞法分析、閱讀理解、智能問答等16個公開數(shù)據集上全面顯著超越世界領先技術,在國際權威的通用語言理解評估基準GLUE上,得分首次突破90分,獲得全球第一。
1. ERNIRE2.0(持續(xù)學習語義理解框架)
ERNIRE2.0是基于持續(xù)學習的語義理解預訓練框架,使用多任務學習增量式構建預訓練任務。在ERNIE2.0中,新構建的預訓練任務類型可以無縫的加入訓練框架,持續(xù)的進行語義理解學習。 通過新增的實體預測、句子因果關系判斷、文章句子結構重建等語義任務,ERNIE 2.0 語義理解預訓練模型從訓練數(shù)據中獲取了詞法、句法、語義等多個維度的自然語言信息,極大地增強了通用語義表示能力。
ERNIE2.0的優(yōu)點就在于持續(xù)學習,不斷的基于海量的數(shù)據以及先驗的知識集成到ERNIE模型中,不斷的在不同任務中訓練來提升模型的效果,而且還不會忘記。
在多任務學習或者持續(xù)學習中,模型特別容易發(fā)生災難性遺忘。在一個場景下訓練好了模型,在另一個模型下效果可能就不好了。甚至本來原來場景下效果比較好的模型,在新的場景下訓練后,再去之前的場景下得到的效果是災難性下降的。所以就需要多任務學習、持續(xù)性學習,使得模型有非常好的泛化能力和通用效果。
2. ERNIE 3.0 (基于知識增強的多范式統(tǒng)一預訓練框架)
ERNIE3.0是基于知識增強的多范式統(tǒng)一預訓練框架。
在 ERNIE 3.0 中,自回歸和自編碼網絡被創(chuàng)新型地融合在一起進行預訓練,其中自編碼網絡采用 ERNIE 2.0 的多任務學習增量式構建預訓練任務,持續(xù)的進行語義理解學習。
通過新增的實體預測、句子因果關系判斷、文章句子結構重建等語義任務。
同時,自編碼網絡創(chuàng)新性地增加了知識增強的預訓練任務。自回歸網絡基于 Tranformer-XL 結構,支持長文本語言模型建模。
多范式的統(tǒng)一預訓練模式使得 ERNIE 3.0 能夠在理解任務、生成任務和零樣本學習任務上獲取 SOTA 的表現(xiàn)。
ERNIE2.0的優(yōu)點就在于基于同一個網絡進行多種自然語言處理學習范式的統(tǒng)一學習,以及加入了大規(guī)模知識圖譜類數(shù)據。
四、百度文心NLP技術在百度APP中的應用
百度文心NLP大模型體系涵蓋基礎大模型、任務大模型和行業(yè)大模型。
百度文心的基礎大模型,包括詞向量、句子理解、文章理解這些基礎技術,另外還提供多模態(tài)、多語言、圖理解的拓展技術。
第二類是任務大模型,如文本匹配場景、文本生成場景等,這些是跟任務跟應用相關的預訓練模型。
第三類是行業(yè)大模型,包括ERNIE健康、ERNIE金融等等。
在預訓練模型探索好之后,文心會有一些輕量化技術幫助進行模型壓縮、結構化搜索和模型蒸餾。使得原來非常大的、非常重的模型變成輕量級模型,從而更好的應用于生產實踐。
使用百度文心NLP技術可以為產品賦能。比如百度的搜索引擎,新聞咨詢推薦,人工智能客服,以及百度健康,百度律師等等都用到了百度文心的NLP技術。
1. 百度搜索引擎
今天的用戶完全可以直接輸入任何想到的需求或者問題,甚至直接通過話筒向百度語音助手提問。
譬如用戶可以搜“天氣”、“日歷”、“機票”、“匯率”這樣的模糊需求,百度會直接在搜索結果呈現(xiàn)結果。
2. 百度新聞
通過文本分類技術,可以將新聞進行分類顯示;通過新聞摘要技術,可以準確的為針對待發(fā)布的新聞進行摘要,從而提高傳統(tǒng)人工提煉摘要的效率。
3. 百度問答
當我們在百度中搜索“花生發(fā)芽了還能吃嗎”,得到的答案已不再是互聯(lián)網上五花八門的原始網頁答案,而是讓人一目了然的匯總式答案摘要。
除了這樣的“一問一答”,用戶還可以與百度對話,問它一個又一個問題,NLP最終可以讓用戶使用自然語言進行搜索,并且采用多輪交互的方式來逐步澄清和滿足需求,從而完成深度決策型的搜索任務。
4. 百度健康
依托百度文心 ERNIE 先進的知識增強預訓練語言模型打造,通過醫(yī)療知識增強技術進一步學習海量的醫(yī)療數(shù)據,精準地掌握了專業(yè)的醫(yī)學知識。
同時,通過醫(yī)療問答匹配任務學習病患病狀描述與醫(yī)生專業(yè)治療方案的對應關系,獲得醫(yī)療實體知識之間的內在聯(lián)系。
實現(xiàn)智能診療對話模型,智能分析預診導診,通過AI學習構建適合臨床輔助診斷的體驗流程,深度將篩查、自測、診斷等多環(huán)節(jié)嵌入到診療流程中,自然、及時、流暢的應答患者提問,極大的提升了診療效率。
五、小結
技術是百度的基因,技術和數(shù)據積累形成的用戶、產品和品牌優(yōu)勢是百度的護城河。
NLP則是百度技術的基石,它賦予了百度技術“智能化”的基因,在過去智能化的搜索讓百度越來越好用為其在中文搜索市場奠定了王者地位。
在未來智能化連接用戶與服務成為百度與阿里騰訊等巨頭最大的區(qū)隔時,NLP技術只會更加重要。
因此毫不夸張地說,NLP就是百度的技術基石。
本文由 @灼華一品 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!