能否借助AI破譯嬰兒哭聲?
偶然想到一個場景:借助機器學習精準識別寶寶啼哭的原因。仔細想想,感覺挺有意思。作者沒有AIPM的經(jīng)驗和算法基礎,希望通過白話描述起到拋磚引玉作用。歡迎大家一起討論,多提建議。
哭鬧是寶寶表達情感和尋求幫助的主要方式,也是一種健康的表現(xiàn)。就像在告訴父母:“我需要你!”如果父母能夠理解寶寶的需求并及時解決,會對寶寶的成長發(fā)育很有好處。
現(xiàn)實中的年輕父母有“輔助破譯哭聲”的需求么?翻了翻各種育兒社區(qū),截了幾張圖,大家可以換位思考,自行體會下。
一、簡單調(diào)研
1.1 用戶調(diào)研
為了迅速獲取更多信息,犧牲精度飆速度,做了一輪4道選擇題的迷你調(diào)研。目標人群是曾經(jīng)帶過0-6個月寶寶的家長,未要求“正在6個月中”這一苛刻條件。共采集到176份樣本,情況如下:
a)父母判斷啼哭原因的準確度
全部正確(22%):這些父母擁有絕對的自信,幾乎不需要借助工具。通過訪談,我了解到他們能夠準確判斷的主要原因有兩點,經(jīng)驗豐富+寶寶讓人省心。給他們打個標簽叫“胸有成竹型”,后面會用到。
多數(shù)正確(64.2%):大部分父母處于這種狀態(tài),打動他們需要一定的條件,卓越的用戶體驗是前提,同時要幫助他們提升診斷效率、準確率。給他們打個標簽叫“經(jīng)常找對型”。
很難找到(13.5%):有這么多父母面對寶寶啼哭不知所措,這里存在大量的機會可以挖掘。想想吧,中國人口基數(shù)這么大,13.5%的數(shù)量真的少么?他們的標簽叫“困惑型”。
b)常見的啼哭原因有哪些
覆蓋度:調(diào)研中設定的9種原因已經(jīng)覆蓋了95%的情況,排名最高的6種是饑餓口渴、尿布濕、要抱抱、困了、疾病和疼痛。另有5%的父母選擇了其他原因,包括受到驚嚇、身體被擠壓等,這些原因可以通過一進步的調(diào)研來補全。
認知度:家長們認定的啼哭原因不一定符合真實情況。舉個例子,“本能運動”這個選項僅有17%的家長勾選。科學研究表明,任何一位寶寶的都曾因為“本能運動”而啼哭過,這個過程有助于寶寶生理和心理的發(fā)育,也是日后語言發(fā)育的一種啟蒙?!氨灸苓\動”與“要媽咪抱”的解決辦法類似又不完全相同,一個是要逗逗,一個是要抱抱。二者的聲學特征都富有節(jié)奏感,前者是響亮而后者是平和。這說明:幫助家長提升育兒認知,可能也是AI破譯的可挖掘點之一。
c)父母對“破譯啼哭APP”的感興趣程度
該問題的條件是APP免費,樣本的反饋完全超出預期:僅有6%的父母表示不會使用,53%的人愿意嘗試,更有41%的人表示一定會使用。
對比幾種類型的父母:不僅“困惑型”,就連“胸有成竹型”和“經(jīng)常找對型”也對該技術(shù)抱有強烈的興趣。是啊,科技不就是幫人們偷懶么,能省點力為啥要繞彎呢?這里的“免費”可能有一定的殺傷力,父母們的真實需求+對新技術(shù)的好奇心也發(fā)揮著強大作用。
由于調(diào)研維度有限、粒度不細、樣本數(shù)量較少,沒能得出更多有價值的結(jié)論。不過我們可以看到一定的需求和機會,借著這股動力,繼續(xù)尋找類似的競品。
1.2 競品調(diào)研
a)模擬聲音類
通過模擬胎兒在母體內(nèi)聽到的聲音,來安撫寶寶。這類產(chǎn)品的主要作用是安撫情緒,無法解決例如“生病”、“疼痛”、“尿布濕”等情況,治標不治本。
b)嬰語翻譯器
美國、中國臺灣、西班牙、日本都有團隊做過相關(guān)研究,程序通過分析哭聲可給出肚子疼、尿布濕、想睡覺等原因。各團隊都聲明可覆蓋95%以上的寶寶哭啼原因、準確度比人提高3倍等,但各團隊找到的原因不一致。此類產(chǎn)品目前未在大陸市場化,APP沒找到可用的,獨立設備倒是有,感興趣的可以搜一下“貝客來嬰兒哭聲分析器”。這類產(chǎn)品已經(jīng)是AI辯聲的前輩了,其精準度、易用性、市場化均有提升空間。
c)人工智能類
2016年日本First-Ascent公司聲稱推出了一項以人工智能為基礎的技術(shù),可根據(jù)嬰兒的哭聲分析原因,并計劃將該技術(shù)加入到APP中。我本文寫到90%才看到這條新聞,繼續(xù)查閱時發(fā)現(xiàn):它沒實驗數(shù)據(jù)、沒可用產(chǎn)品、沒有本土化。
比較有趣的是,很多競品是因為程序猿爸爸覺得帶娃困難,才萌生了技術(shù)解決的想法。下面就從這幾方面做個淺析:科學合理性、工具定位、語音識別、數(shù)據(jù)準備、學習模型。
2、科學合理性
拋開那些競品的干擾,推敲一下:【哭聲特征】與【哭的原因】的關(guān)聯(lián)到底可不可靠?如果二者之間具備真實的相關(guān)性,那是否意味著:無論映射邏輯多復雜,我們都有可能用機器學習擬合出預測模型?
2.1 經(jīng)驗常識
寶寶樹這類育兒社區(qū)列舉出大量聽聲音搞定哭鬧的例子,百度經(jīng)驗中更是詳細列舉了15種哭聲特點、原因以及解決辦法。有經(jīng)驗的月嫂通過哭聲能快速搞定嬰兒,這些都說明靠聲音特征判斷很可能OK。
2.2 專業(yè)研究
學術(shù)界對嬰兒哭聲含義的研究并不少,最前沿的甚至聲稱能診斷嬰兒是否患有自閉癥、腦損傷、神經(jīng)類疾病和早產(chǎn)相關(guān)的疾病。我覺得這個方向還是有戲的,值得繼續(xù)研究,若感興趣可以搜幾份相關(guān)鏈接:
《美研發(fā)嬰兒哭聲診斷儀可檢測神經(jīng)類疾病》
《哭聲分析儀,早期發(fā)現(xiàn)嬰兒發(fā)育障礙》
2.3 綜合判斷
哭聲不是將原因歸類的唯一信號。我們可以將聲音特征做主要線索優(yōu)先預測一波,再用其他方法輔助判斷。不苛求靠AI搞定100%的問題,只要能搞定一部分,提升解決效率,就可以發(fā)揮應用價值。
這與智能手環(huán)的綠光測心率的道理類似,光電法的準確度比不上心電信號法(醫(yī)療級別),只靠心率也很難預測心腦血管疾病。但手環(huán)的天然優(yōu)勢就是佩戴方便+實時監(jiān)控+主動提醒。若使用者結(jié)合經(jīng)驗、血壓等指標綜合判斷,就有改善生活習慣、預測風險的可能。這類產(chǎn)品符合早預防、早治療的養(yǎng)生理念,經(jīng)常能取得較好的市場反饋。
按照綜合按斷的思路,梳理出如下表格,訓練模型就是要預測出其中高亮的“哭聲原因”。
根據(jù)查閱的資料,圖中9種哭聲原因的分類未必準確,但至少人類可以感知到細微差異。
上圖描述了一個模擬場景:家長先通過APP鎖定原因范圍,再根據(jù)APP的提示觀察嬰兒,給出判斷。像中耳炎這種特殊情況,父母操作過一次,基本就記住識別方法了。這就引出了我對該工具的定位:通過正確判斷+有效提示,幫助父母盡快掌握讀懂寶寶的技能,用完即走不粘人。
3、工具定位
3.1 小工具
“破譯哭聲”還沒到產(chǎn)品設計階段,更像是一個補充工具而非產(chǎn)品。目前各大育兒類應用已經(jīng)相當成熟,提供了豐富的內(nèi)容和服務,但一些服務的使用頻次很低。若將“破譯哭聲”也集成進去,不會用力過猛,還可能錦上添花。例如下圖這些就是不錯的入口,寶寶哭的頻次遠遠比打疫苗、起名字這些高,是吧?
3.2 目標人群
經(jīng)驗少的父母遇,在0-6個月遇到寶寶哭鬧很久不停的情況,會派上用場。6個月后寶寶就適應了周圍的環(huán)境,模型預測也逐漸失效,此時的父母已經(jīng)積累了充足的經(jīng)驗。西方提倡父母多與寶寶溝通交流,學會讀懂他們的內(nèi)心,這更像是一種玄學。“讀懂”的能力是父母與孩子的紐帶,會影響雙方一生的情感溝通。所以不鼓勵父母依賴工具,還要幫助爸媽掌握讀懂寶寶的本領。
3.3 擴展性
工具雖小,也有點想象空間。例如為寶寶做個啼哭檔案,記錄每次“哭聲+原因+解決方式”。寶寶長大看到自己的成長日志,就會理解父母把自己拉扯大真心不易。
3.4 產(chǎn)品形態(tài)
訪談幾位表示不愿使用的家長,問他們?yōu)槭裁床辉敢庥眠@樣一款APP。
一位家長說沒時間,想靠自己溝通情感讀懂寶寶;另一位家長說想不到用APP,他家寶寶特別乖,從未久哭不停。這就涉及到用戶理念、習慣、個體差異的問題了,三言兩語還真說不清楚。
這里我只舉一個例子:小米的小蟻智能攝像頭已經(jīng)能監(jiān)控嬰兒哭聲并提醒父母,如果加個分析原因、給出建議的功能并不會突兀,反而很人性化、很精準??傊a(chǎn)品形態(tài)不局限于APP,只要內(nèi)在邏輯科學合理,一定會存在某些交互方案能夠受用戶歡迎。
4、語音識別
考慮到成本等因素,將小工具插入到APP中很適合快速打樣、試錯。這屬于近場語音識別,信噪比較高,不過環(huán)境中還是難免有噪音。識別的過程大概分這幾步:
4.1 降噪
對獲取的聲波信號做降噪,排除父母對話、物體碰撞、氣流等噪音。目前市場上已經(jīng)有成功監(jiān)測嬰兒哭聲的產(chǎn)品,比如小蟻智能攝像機、三星S5手機內(nèi)置APP等,識別的過程不會困難。還有些相關(guān)的專利可以借鑒,網(wǎng)上一搜一大把。
4.2 過濾
對目標嬰兒與其他嬰兒的信號做區(qū)分,這需要采集目標嬰兒的數(shù)據(jù),并單獨創(chuàng)建學習模型。
4.4 特征
從信號中抽取出聲學特征讓機器去學習,具體就交給神奇的算法團隊吧。
5、數(shù)據(jù)準備
5.1 實例設定
每個實例由2部分組成:【啼哭聲】+【結(jié)果標識】,監(jiān)督學習的結(jié)果標識是個封閉集合,訓練數(shù)據(jù)類似下圖。
5.2 樣本標準
- 聲音信號:錄音聲強>40分貝,時長為10-15秒,錄音中僅包含1名嬰兒的哭聲。
- 結(jié)果標識:聽到哭聲后,父母采取行動,采集員按照有效的行動來推測1種哭聲原因,記錄下來。
- 有效行動:父母采取行動后,寶寶在1分鐘內(nèi)停止哭鬧?;蛘咭颜业娇尢湓?,需要一段時間解決(例如疾病無法很快治好,醫(yī)生可以開具診斷證明)。
- 寶寶年齡:0-6個月
5.3 樣本采集
- 采集區(qū)域:寶寶密集區(qū),也就是兒科醫(yī)院、婦幼保健醫(yī)院、月子中心、兒童福利院等。
- 采集人員:盡可能專業(yè),若現(xiàn)場記錄錯誤的標識,后期修正的難度很大。
- 考慮體驗:采集過程人性化,不誘導寶寶啼哭,不影響家屬與寶寶的正常生活。
- 其它參考:臺灣的某團隊聲稱成功采集到10萬+類似樣本,可以借鑒類似的方法或合作。
6、學習模型
我們要在目標集合中準確的預測出分類,采用監(jiān)督學習。這里不談訓練模型和評估指標,只提兩個簡單的小問題:
6.1 模型應該輸出“哭啼原因”還是“解決方案”?
按通常的思維是用A方案,但直覺告訴我B方案也許可行。B的思路是:先預測新數(shù)據(jù)的解決方案,再根據(jù)符合期望的行動來反推出哭啼的原因。
現(xiàn)實中“啼哭原因”與“解決方案”是多對多的復合因果關(guān)系,如果直接取哭聲+有效方案來擬合模型,可能最終效果相同甚至更好。
PS:無論A還是B,只是模型設計的問題,最終給到用戶的體驗是一樣的。
6.2 個性化模型
訓練集與實際數(shù)據(jù)有差異,多個嬰兒也可能同時啼哭,所以需要給每位嬰兒創(chuàng)建個性化模型。家長們每次修正,都是對模型的訓練,幫助提升預測的效果。
以上就是本篇淺析的主要內(nèi)容,拋出一個場景的可能性??裳苌念愃茍鼍耙膊簧?,未來科學對聲音的研究不會止步于嬰兒,寵物、野生動物等都有可能取得進展。也許有一天我們能通過AI翻譯機與較聰明的動物交流,比如猩猩、海豚和大象。
寫在最后
作者向很多人提過這個idea,感謝朋友們的支持和建議。下筆之前還有點猶豫的,因為作者沒帶過寶寶,無法切身體會那種感受。后來AI產(chǎn)品大本營團長@黃釗 鼓勵我嘗試寫個短篇,我就決定試一試。
這也促使我反復思考一個問題:非科班出身、零AI經(jīng)驗的PM,怎樣才能有出路?首先要敢想,這是邁出的第一步!
挖需求、挖場景、挖機會!模擬場景做調(diào)研,發(fā)現(xiàn)問題找方法,而不是跳到工程師賽道上拼算法。等咱們上了船,在實戰(zhàn)中學習理解算法會達到事半功倍的效果。
這是個需要想象力的時代,或許能借助AI搞定過去從未解決的難題。在大數(shù)據(jù)沒出現(xiàn)的年代,誰也想不到啤酒與尿布濕之間隱藏著驚人的秘密。
有太多場景需要我們?nèi)グl(fā)現(xiàn),限制我們想象力的不是貧窮,而是勇氣。
世之奇?zhèn)ス骞址浅V^,常在于險遠而人之所罕至,非有志者不能至。任何問題都一定有辦法解決,我們的任務就是找到它,無論這個概率多么微乎其微!
作者:于長弘,微信公眾號:AI小宇宙
本文由 @于長弘 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自unsplash,基于CC0協(xié)議
現(xiàn)在識別哭聲的技術(shù)實現(xiàn)了嗎?
雖然我對AI不是很了解,但是要讓AI能夠識別出來的一個前提就是給AI結(jié)果反饋,然后持續(xù)進行訓練
現(xiàn)有的情況是,人工都沒辦法識別出小孩啼哭和需求之間的關(guān)聯(lián)性,自然給的反饋結(jié)果的正確性也是存疑的
AI能做的是通過輸入和輸出自己去積累結(jié)果,建立規(guī)則
其實我這篇,在“科學合理性”一節(jié)探討的就是你說的那個“存疑”,其實人能夠識別出一部分,AI能解決的也是一部分。在工程界,一部分就有價值和意義,重要的是整體方案,而不是讓AI解決100%的問題??
不錯,不知道準確度如何
需要繼續(xù)研究,國內(nèi)好像還沒有這個方向的研究論文
繼續(xù)研究!加油
謝謝支持