AI產(chǎn)品經(jīng)理之數(shù)據(jù)標注

老張
2 評論 27047 瀏覽 147 收藏 10 分鐘

前兩篇筆者分別為大家介紹了AI產(chǎn)品經(jīng)理需要了解的概率論通識、線性代數(shù)通識、微積分通識,本篇文章中,筆者將繼續(xù)為你介紹AI產(chǎn)品經(jīng)理需要了解的數(shù)據(jù)標注,供大家一參考學習。

前幾天參加京東的AI技術沙龍,在提問環(huán)節(jié),有個小伙說:

“我是做銷售的,剛才您講的我都沒聽懂,我就知道,現(xiàn)在AI是風口,只要做AI相關的就能掙錢,您能說幾個現(xiàn)在我們這類人能做到嗎?能掙錢就行!”

臺上技術出身的老師自然一時語塞。小伙說的沒錯,百團大戰(zhàn)的時候確實一批刷單公司賺得盆滿缽滿。但是這些投機取巧注定不能長遠。

讓更多人卷進這次AI浪潮的可能就是數(shù)據(jù)標注了,All in AI的百度擁有大量的標注業(yè)務,大部分河南標注工廠用的是百度的標注工具,干的是百度的活。開始的時候標注的利潤空間可以達到60%—70%。有些企業(yè)盲目擴張,一下子招了幾百人;但是陸奇離開后,百度需求減少。準確率又普遍提高至95%-96%,活難干了。這些工廠只會百度的標注工具,很難接別家的業(yè)務,因此死了一批。

現(xiàn)在來看標注行業(yè)是一個苦行業(yè),“如果你和誰有仇,就勸他干標注吧?!边@是標注圈有名的段子。干標注就像將水倒進一個水桶里,每拉一個框就是添一碗水。目前,誰也不知道還能添多久,只有水溢出來時,才知道。

數(shù)據(jù)是AI公司的必需品。數(shù)據(jù)對于AI模型的重要性尤為重要,AI建模沒有門檻,數(shù)據(jù)才是門檻。現(xiàn)階段的人工智能是簡單的認知智能。分類器的構(gòu)造是個數(shù)學問題,就是由數(shù)據(jù)堆起來的?;蛘哒f深度學習本質(zhì)上是個數(shù)學問題,是由大量的樣本空間數(shù)據(jù)反向構(gòu)造分類器的系數(shù)空間的過程。

數(shù)據(jù)標注模型

數(shù)據(jù)標注業(yè)務的配置是一個復雜的數(shù)學模型。比如,有些任務需要串并聯(lián)的工作流,并聯(lián)的工作流是多人協(xié)同的工作。串聯(lián)的工作流是后一個結(jié)果是基于前一個結(jié)果進行處理的,串并聯(lián)的工作流需要平臺來實現(xiàn)業(yè)務工作流的配置。比如一些NLP型的文本標注作業(yè),需要多個人來標,最后N選一或者投票。串并聯(lián)配置涉及到底層數(shù)據(jù)流的分發(fā)等?;蛘哒f更像是一個流水線作業(yè)流程。

不斷地用標注后的數(shù)據(jù)去訓練模型,不斷調(diào)整模型參數(shù),得到指標數(shù)值更高的模型。

數(shù)據(jù)的質(zhì)量直接會影響到模型的質(zhì)量,因此數(shù)據(jù)標注流程設計和監(jiān)督糾錯就顯得異常重要。

一般來說,數(shù)據(jù)標注部分可以有三個角色:

  1. 數(shù)據(jù)標注員:標注員負責標記數(shù)據(jù)。(文本、圖像、視頻)
  2. 數(shù)據(jù)審核員:審核員負責審核被標記數(shù)據(jù)的質(zhì)量。(抽檢)
  3. 標注管理員:管理人員、發(fā)放任務、跟進流程。

只有在數(shù)據(jù)被審核員審核通過后,這批數(shù)據(jù)才能入庫使用。

一般眾包數(shù)據(jù)標記流程

  1. 任務分配:一般數(shù)據(jù)分配由后臺自動分發(fā),根據(jù)用戶選擇標注類型每次分發(fā)幾條內(nèi)容,標注完成后再次分發(fā)。
  2. 復核入庫:一般一條任務會分配給大于三個人的基數(shù)人員完成,根據(jù)少數(shù)服從多數(shù)原則確定該條數(shù)據(jù)的最終標簽。
  3. 質(zhì)量驗收:一般會根據(jù)用戶標注總數(shù)量和入庫數(shù)量計算該用戶的標注質(zhì)量,和計算有效標注數(shù)量,質(zhì)量高的和質(zhì)量低的薪酬計算方法會有差別,以此來淘汰不能完成高質(zhì)量標注的人員。

數(shù)據(jù)標注類型

圖像標注-線標注

根據(jù)需求標注檢測對象相對應的線型位置,例如:車道線。

圖像標注-邊框標注

標注檢測對象相對應的區(qū)域,例如:汽車/行人等各種物體。

圖像標注-3D邊框標注

將圖像中待檢測物體以立體形式標注,例如汽車檢測。

圖像標注-語義分隔

根據(jù)檢測區(qū)域不同,將圖像標注為不同的像素,例如來自汽車拍攝的圖像。

圖像標注-多邊形標注

根據(jù)需求標注檢測對象的形狀,例如:標注圖像中的汽車輪廓(示例圖)或標記污損邊界。

圖像標注-點標注

根據(jù)需求標注檢測對象參考點的像素坐標,或者圖像中的關鍵點標記,如人臉。

圖像標注-3D點云標注

在3D空間中,標注點云數(shù)據(jù)中指定的檢測對象,如汽車、行車道等。

視頻標注-跟蹤標注

在視頻或者連續(xù)的圖像中跟蹤標注檢測對象,形成有ID關聯(lián)的運動軌跡。

文本標注-中英文語音轉(zhuǎn)寫與校對

英文語音轉(zhuǎn)中文文本,或中文文本轉(zhuǎn)英文語音。

文本標注

實體命名,標注文本中的實體。

語音標注-客服語音標注

外呼機器人進行外呼記錄語音標注呼叫成功或者失敗,從而訓練話術。

標注流程

  1. 需求確認:對標注任務需求確認,標注數(shù)據(jù)集準備完成,規(guī)范標注需求,指定標注模型。
  2. 人員篩選:確定標注人員及人員角色
  3. 人員培訓:針對不同角色培訓標注規(guī)范和標注標準
  4. 開始試標:先標注少量數(shù)據(jù),試用標注數(shù)據(jù),調(diào)整標注流程,使得效率最優(yōu)。
  5. 正式標注:完成整體標注任務。導出數(shù)據(jù)。

總結(jié)

快速、高效的進行數(shù)據(jù)標注,是機器學習和深度學習的基礎,現(xiàn)在一些標注工具通過深度學習模型和主動學習技術,通過NLP模型來提高標注效率,集數(shù)據(jù)標注、數(shù)據(jù)管理、模型訓練和模型服務于一體,使數(shù)據(jù)標注更加輕松、更高效。離AI最近的重復復雜的工作,是首先會被機器取代的。

#相關閱讀#

《AI產(chǎn)品經(jīng)理需要了解的概率論通識:4個概念3個問題》

《AI產(chǎn)品經(jīng)理需要了解的線性代數(shù)通識》

《AI產(chǎn)品經(jīng)理需要了解的微積分通識》

#專欄作家#

老張,人人都是產(chǎn)品經(jīng)理專欄作家。AI產(chǎn)品經(jīng)理,專注于自然語言處理和圖像識別領域。現(xiàn)智能保險創(chuàng)業(yè)公司合伙人,希望與人工智能領域創(chuàng)業(yè)者多多交流。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 講的不錯!

    來自上海 回復
  2. 請問下文章里的操作用的是那個系統(tǒng)?

    來自北京 回復
专题
80429人已学习19篇文章
当AI已然成为新的焦点和风口,产品经理该如何抓住这个风口顺势飞起?
专题
12490人已学习11篇文章
怎么做投放是很多运营人和品牌方的一大难题,做好投放不可缺少以下几大步骤。本专题的文章以小红书投放为例,分享了一些策略,一起来看下吧。
专题
16145人已学习13篇文章
在产品工作中,产品的可行性分析就太重要了,这是产品从想法到实施必须经历的。本专题的文章分享了如何做产品可行性分析。
专题
13153人已学习13篇文章
数据可视化需要利用大屏这一工具实现,若想让数据展示变得更加生动,可视化大屏的艺术性设计便不可缺少,而这需要结合许多设计技巧。本专题的文章可视化大屏设计。
专题
35809人已学习14篇文章
原型对于产品经理来说是一门必修课。
专题
13910人已学习13篇文章
用户体验是用户在使用产品过程中建立起来的一种纯主观感受。本专题的文章分享了如何撰写用户体验报告。