一文道清語音轉(zhuǎn)文字市場(Audio-To-Text)
關(guān)于語音轉(zhuǎn)文字,大部分想起接觸過的會是在聊天軟件中出現(xiàn)。除此之外,語音轉(zhuǎn)文字還有許多應(yīng)用場景。對此,本文將以國內(nèi)市場為支點,以全球市場視為目標,探尋語音轉(zhuǎn)寫產(chǎn)品的諸多可能性。推薦對語音轉(zhuǎn)文字市場感興趣的小伙伴閱讀。
與以往從國內(nèi)市場角度的分析不同,本文將以國內(nèi)市場為支點,以全球市場視為目標,探尋語音轉(zhuǎn)寫產(chǎn)品的諸多可能性。
本文說的語音轉(zhuǎn)寫,聚焦于面向C端用戶的帶語音轉(zhuǎn)文字功能的產(chǎn)品,不包括企業(yè)服務(wù)中的智能客服、Fintech、車載語音、智慧醫(yī)療場景下的泛語音轉(zhuǎn)寫。
一、名詞解釋
語音轉(zhuǎn)寫:使用將音視頻信息轉(zhuǎn)化成文本信息的一種服務(wù)。
語音轉(zhuǎn)寫分類:
- 實時轉(zhuǎn)寫,即流式上傳-同步獲取,可將不限時長的音頻流實時識別為文字,并返回帶有時間戳的文字流;一般用于直播實時播放字幕、實時會議記錄;也可以配合機器翻譯,實現(xiàn)同傳功能
- 非實時轉(zhuǎn)寫,即已錄制音頻文件上傳-異步獲取,非實時語音轉(zhuǎn)寫將長段音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù),可用于影視字幕制作、會議訪談記錄轉(zhuǎn)寫、智能客服錄音質(zhì)檢等場景。
ASR:指自動語音識別技術(shù)(Automatic Speech Recognition),是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。
NLP:自然語言處理(Natural Language Processing,NLP)是利用計算機對自然語言文本進行理解、處理,并提取文本語義的過程。
二、如何介紹清楚語音轉(zhuǎn)寫
筆者的安排是這樣的:
- 語音轉(zhuǎn)寫的基本定義和概念科普,幫助讀者和筆者同頻;
- 語音轉(zhuǎn)寫所在的前置背景,這是它發(fā)展的前提;
- 語音轉(zhuǎn)寫的市場規(guī)模,這決定了它是否值得被研究;
- 語音轉(zhuǎn)寫的產(chǎn)業(yè)鏈,這可以幫我們從合作視角看我們關(guān)注點所在的位置;
- 語音轉(zhuǎn)寫的競爭格局,這里是重點,用競爭視角從行業(yè)玩家身上直觀感受語音轉(zhuǎn)寫的用戶-場景-需求和商業(yè)模式,并且筆者不僅會縱向?qū)Ρ葒鴥?nèi)不同語音轉(zhuǎn)寫產(chǎn)品,也會橫向?qū)Ρ葒鴥?nèi)外語音轉(zhuǎn)寫產(chǎn)品的區(qū)別,最后通過詳細拆解Notta這款明星PLG產(chǎn)品作為行業(yè)經(jīng)典案例,希望帶來啟發(fā);
- 語音轉(zhuǎn)寫的發(fā)展趨勢,這里主要是通過展示相關(guān)創(chuàng)業(yè)公司來闡述其可能的發(fā)展路徑;
- 語音轉(zhuǎn)寫的綜合評價,總結(jié)筆者對于語音轉(zhuǎn)寫行業(yè)的認知。
三、語音轉(zhuǎn)寫發(fā)展的前置條件
這事能成,主要有賴于三點,因為語音轉(zhuǎn)寫是有三個步驟組成的:
- 輸入
- 轉(zhuǎn)碼
- 輸出
- 輸入得更多,說明場景更多,市場需求更多;
- 轉(zhuǎn)碼得更快,說明成本更低,使用沒有障礙;
- 輸出得更準,說明結(jié)果需要更少的修改加工,結(jié)果更滿意。
這三點如何發(fā)生了改變:
1. 輸入方面:無紙化程度極大提高,大部分的數(shù)據(jù)都是以數(shù)字化形式存儲
理論上,只要是人與人之間發(fā)生的信息的傳遞,都是有數(shù)字化的需要的,主要是以非結(jié)構(gòu)化數(shù)據(jù)的形式:
- 比如開會講話的內(nèi)容,是多人之間相互的信息傳遞,需要沉淀成會議紀要;
- 比如老師講課的內(nèi)容,是一個人單方面向多個人的信息傳遞,需要沉淀成學(xué)習(xí)筆記;
- 比如采訪對話的內(nèi)容,是一個人和另一個人的信息傳遞,需要沉淀成實錄文檔;
- ……
這些沉淀的信息肯定不能以手寫稿作為載體,而是要以文本形式存儲:
- 手寫稿存儲成本太高,紙多了你總會弄丟吧,時間長了紙總會壞吧,要記的內(nèi)容多了,我得隨時準備各種各樣尺寸的紙,以備不時之需;
- 傳輸更麻煩,手寫稿只有作者自己能看懂,況且一次只能給一人看,這還不如印刷術(shù)發(fā)明前的人類社會呢,信息的傳輸效率限制了世界的發(fā)展。
在未來,協(xié)作越來越多,人與人發(fā)生信息傳遞的場景就越來越多,越來越多的信息需要被數(shù)字化記錄沉淀。
這是電子信息技術(shù)帶來的結(jié)構(gòu)性變化。
2. 轉(zhuǎn)碼方面:ASR性能提升,帶來了轉(zhuǎn)錄的實時響應(yīng)
單純的無紙化,只能催生速記員、打字員,比誰能快速輸出文本信息,這個活又臟又累還貴,可重復(fù)性可替代性極強,簡直就是人工智能的最佳瞄準對象。
輸入輸出本身就很麻煩,1個小時的音頻,人寫需要2個小時,語音轉(zhuǎn)錄只需要5分鐘。
3. 輸出方面:其他語音技術(shù)的提升,帶來了結(jié)果的可靠性
為什么說其他,因為這些主要還是依附于語音轉(zhuǎn)文字這個技術(shù)之上對結(jié)果進行的優(yōu)化。
- 人聲分離,一種區(qū)分不同人聲音的技術(shù),可以通過聲音來辨別某人的身份。一旦檢測到一個人的發(fā)言,系統(tǒng)就會為該發(fā)言者創(chuàng)建一個聲紋配置文件,從而分辨同一個人其他所有的語音;
- 多語種識別,對混雜的語言環(huán)境進行區(qū)分,識別多人對話;
- 環(huán)境降噪,對嘈雜的說話環(huán)境進行過濾,區(qū)分哪個是關(guān)鍵人在說話哪個只是環(huán)境音;
- 語言降噪,人在說話時畢竟不像寫作那么嚴肅,期間夾雜著大量的口語和語氣詞甚至疊詞,需要對文本進行精簡提煉,增強可讀性,這屬于NLP范疇。
- ……
四、語音轉(zhuǎn)寫行業(yè)發(fā)展
這個過程并非一帆風順,語音轉(zhuǎn)寫行業(yè)也是歷經(jīng)了四個發(fā)展階段的。
第一階段
在1990年-2010年,主要是人工服務(wù),即通過人工實現(xiàn)錄寫服務(wù)。這個期間的產(chǎn)品形態(tài),是以專業(yè)人工服務(wù)或外包方式服務(wù)客戶。
第二階段
在2010年-2015年,轉(zhuǎn)寫進入互聯(lián)網(wǎng)化,這個階段引入了機器服務(wù),讓機器助力轉(zhuǎn)寫,這種服務(wù)的產(chǎn)品形態(tài)主要是以網(wǎng)頁和客戶端小工具等方式實現(xiàn)。
第三階段
在2015年-2017年,轉(zhuǎn)寫進入移動化,這個階段引入人工智能和ASR技術(shù),實現(xiàn)更高精準度的語音識別和語義理解,這種產(chǎn)品形態(tài)更加多元化,以APP、網(wǎng)頁、智能硬件等方式展開。
第四階段
在2017年至今,也是當前的階段,轉(zhuǎn)寫進入人機耦合階段,是人工智能與人工服務(wù)相融合的時刻,產(chǎn)品形態(tài)上仍然是以APP、網(wǎng)頁、硬件等方式,但機器與人工進一步融合。
這是從技術(shù)角度去理解行業(yè)發(fā)展,其實其應(yīng)用形式遠不止于此。
五、產(chǎn)業(yè)規(guī)模
語音轉(zhuǎn)寫行業(yè)的盤子到底多大?
先看一組行業(yè)數(shù)據(jù),根據(jù)艾瑞咨詢的報告,2021年中國智能語音撰寫市場規(guī)模約為10億元,預(yù)計2026年市場規(guī)模將達到38億。如果要估算全球市場,用這個數(shù)據(jù)乘以5即可得到大致結(jié)果。
從產(chǎn)品形態(tài)來看,智能轉(zhuǎn)寫產(chǎn)品主要包括Saas類產(chǎn)品與本地化部署解決方案兩大類。
這個市場的特點就是,基數(shù)不算大,10億量級,但是增長率相當可觀,會有很多的增量出現(xiàn),因為過去是大語種、大企業(yè)的需求,未來將會蔓延到更多的小語種、方言、小企業(yè)和傳統(tǒng)企業(yè),甚至是國企。(國企是這類Saas服務(wù)的重點服務(wù)對象)
下圖是2022年中國智能語音產(chǎn)品成熟度曲線,可以看出語音轉(zhuǎn)寫技術(shù)以及逐漸進入成熟穩(wěn)定期。
總之,語音轉(zhuǎn)寫的核心是ASR,從技術(shù)發(fā)展曲線來看,是語音技術(shù)最成熟的一項技術(shù)了。
ASR的準確率每年都在增長。
六、市場特征
1. 供給>需求,由需求驅(qū)動
語音轉(zhuǎn)文字,本質(zhì)是提供了一種軟件服務(wù),解決了信息沉淀的效率問題。
- 當轉(zhuǎn)錄還是人工服務(wù)時,行業(yè)是由供給驅(qū)動的,因為轉(zhuǎn)錄員是有限的,而且價格昂貴。
- 當機器取代人工轉(zhuǎn)錄時,已然變成了一個成熟行業(yè),此時行業(yè)變成了由需求驅(qū)動。
既然是需求驅(qū)動,其需求來源決定了市場的規(guī)模和增速。
可見的趨勢是,在線會議的比例會越來越高,即使已經(jīng)進入后疫情時代,但是企業(yè)逐步適應(yīng)了在線會議,隨著未來跨區(qū)域團隊協(xié)作場景的增加,會有更多團隊利用好在線會議。
網(wǎng)課會越來越多,網(wǎng)課不僅僅是指初高中學(xué)校的網(wǎng)課,更多的是職業(yè)教育的網(wǎng)課,當今的成年人在上各種各樣的技能課程,典型的如公務(wù)員課程、考研課程。
2. 準入門檻不高,同質(zhì)化明顯
ASR技術(shù)已經(jīng)非常成熟了,各種廠商可以提供穩(wěn)定的API和SDK,供市場進行不同程度的使用,因此行業(yè)的準入門檻不高,很多玩家都可以加入進來,提供相似的服務(wù)。
國內(nèi)市場,去百度搜索語音轉(zhuǎn)文字,會有數(shù)十種提供類似服務(wù)的網(wǎng)站。
國外市場更卷,在Google搜索audio to text,會有十幾種同質(zhì)化的網(wǎng)站。
一些差異化也只在一些細節(jié)上,比如區(qū)分說話人、專業(yè)領(lǐng)域的詞庫、不同的價格策略。
可以說,單純的語音轉(zhuǎn)文字功能,靠轉(zhuǎn)錄的字數(shù)或時長付費,實在玩不出新花樣。
3. 市場多樣,贏家難以通吃
受前兩點影響,這個市場由需求驅(qū)動,且總是會有新入場者。
如果用戶一旦沒有轉(zhuǎn)文字需求,是不會使用的,畢竟每次使用都是要錢的。
這個模式在中國市場面臨一個問題,國內(nèi)用戶不喜歡這種“pay for every use”的方式,所以會想盡辦法去找一些免費試用的替代品。
因而很難出現(xiàn)一個贏家壟斷整個市場,簡言之,這是一個開放競爭的市場,各種新興企業(yè)試圖圍繞著語音轉(zhuǎn)文字提供更多的附加價值。
下圖是國內(nèi)提供直接語音轉(zhuǎn)文字工具的長尾廠商部分名單(不完全統(tǒng)計,也不包括帶語音轉(zhuǎn)文字功能的產(chǎn)品比如輸入法、微信、剪映等):
如果覺得多,不妨再來看看美國市場,仍然是不完全統(tǒng)計:
相信讀者可以直觀感受到這個行業(yè)的“卷”度。
七、商業(yè)模式
語音轉(zhuǎn)寫的商業(yè)模式是比較清晰的,分三種:賣軟件服務(wù),賣硬件,賣定制化。
1. 軟件服務(wù)
- 在線API——廠商提供接口數(shù)據(jù)在服務(wù)端進行,特點是靈活性強、效率高,按使用次數(shù)或者使用時長進行收費。
- 離線SDK——廠商提供核心算法模塊,數(shù)據(jù)在客戶端進行,開放性、軟件開發(fā)兼容。
- 私有云——廠商提供私有云平臺定制化服務(wù),可以滿足客戶定制化需求,安全性強。
2. 硬件
廠商提供語音采集等終端硬件,有效采集語音數(shù)據(jù),實現(xiàn)語音采播編審存一體化。
3. 集成解決方案
廠商提供場景及行業(yè)定制化解決方案,開發(fā)智慧媒體解決方案,滿足不同行業(yè)個性化需求。
八、產(chǎn)業(yè)鏈
從技術(shù)源頭到消費端分產(chǎn)業(yè)鏈上中下游。
1. 上游
主要是由一些科技大廠來主導(dǎo),它們是整個AI行業(yè)最底層服務(wù)提供者。阿里云、騰訊云、百度開放平臺、訊飛開放平臺都是比較不錯的基礎(chǔ)平臺。
語音識別和自然語言處理均為智能語音轉(zhuǎn)寫的關(guān)鍵技術(shù),為解決資源浪費項目之間缺少共享等問題,基于AI平臺開放NLP的方案應(yīng)運而生。
2. 中游
主要是AI技術(shù)的提供者,按照各自業(yè)務(wù)特征分為四類:
(1)通俗意義的智能語音廠商
比如專門提供智能語音服務(wù)的訊飛聽見、靈云聽語。
(2)獨樹一幟的AI公司
云知聲、思必馳、商湯、依圖。
(3)互聯(lián)網(wǎng)巨頭
阿里云、百度云、騰訊云、華為云。
(4)邊緣廠商
搜狗(原來算,現(xiàn)在被收購就不算了)、迅捷、金舟,等等。
3. 下游
這就是真正被消費者使用的場景了。
(1)多人討論
比如公司里的會議:
- 1 V 1溝通,比如采訪、電話銷售、客服。
- 1 V N輸出,比如課堂、演講、直播、大會。
(2)媒體創(chuàng)作
比如視頻網(wǎng)站的字幕生成和視頻創(chuàng)作者的字幕文件。
產(chǎn)品形態(tài)上,既有訊飛聽見這種直接提供轉(zhuǎn)寫服務(wù)的產(chǎn)品,也有輸入法、微信、飛書妙記這種嵌入語音轉(zhuǎn)寫的產(chǎn)品。
九、競爭格局
1. 國內(nèi)競爭
這里只針對面向C端市場的轉(zhuǎn)寫產(chǎn)品做競爭格局分析。
典型的語音轉(zhuǎn)寫代表產(chǎn)品:訊飛聽見。
訊飛聽見是科大訊飛旗下的一款主打語音轉(zhuǎn)寫的產(chǎn)品服務(wù),得益于訊飛在語音領(lǐng)域的深耕,訊飛聽見憑借高精度轉(zhuǎn)寫能力占據(jù)了中高端市場,如果點開它的網(wǎng)站,可以看到機器快轉(zhuǎn)和人工精轉(zhuǎn)兩種服務(wù)配合,滿足了商務(wù)這類對轉(zhuǎn)寫有高標準的嚴肅場景。
之前說過,對優(yōu)秀語音轉(zhuǎn)寫能力的定義就是要快和準,快不用說了,1小時音頻最快5分鐘出稿,相比于人類速記員絕對是五十倍的提升,準這方面,機器水平已經(jīng)達到97.5%,并且支持多國語言和方言,外加許多專業(yè)領(lǐng)域詞匯。
唯一不太親民的地方是:貴。
2個半小時轉(zhuǎn)錄收費50元,如果不是特別需要,或者急用,一般不會輕易購買。
它的競品有很多,這類產(chǎn)品的商業(yè)模式都比較清晰,主要解決用戶轉(zhuǎn)文字的需要。
用戶為轉(zhuǎn)文字效果付費,因此看重的是轉(zhuǎn)文字的準確率,那在某些方面當然就不能顧及到,比如“數(shù)據(jù)孤島”問題,用戶轉(zhuǎn)文字后需要導(dǎo)出變成其他格式,至于這些轉(zhuǎn)文字的數(shù)據(jù)結(jié)果如何使用取決于用戶的實際用途,這就不要求什么用戶留存了。
這個模式在中國市場并不討巧,國內(nèi)用戶并不都接受這種“pay for every use”的方式,所以會想盡辦法去找一些免費試用的替代品或者是會員制的收費軟件。
因此這類產(chǎn)品的高質(zhì)量用戶多為有穩(wěn)定需求和付費能力的創(chuàng)作者、企業(yè)用戶。
訊飛聽見作為行業(yè)頭部廠商,肯定是不希望做一個“用完即走”的產(chǎn)品的,如前所述,需要用到轉(zhuǎn)寫服務(wù)的場景有會議、演講、課堂、采訪、字幕創(chuàng)作等。
符合高頻、用戶量大、付費能力強一定是企業(yè)用戶的會議場景。因此訊飛聽見選擇切入了“在線會議”市場,希望通過轉(zhuǎn)寫打通會議創(chuàng)建——預(yù)約——會議轉(zhuǎn)寫——會議紀要的全鏈路場景,這樣轉(zhuǎn)寫結(jié)果就不是一座數(shù)據(jù)孤島,而是以會議記錄的形式成為企業(yè)辦公的基礎(chǔ)設(shè)施。
說完以轉(zhuǎn)文字為核心的寬泛型產(chǎn)品后,下面介紹第二種,以在線會議為核心,附帶語音轉(zhuǎn)文字的產(chǎn)品。
典型代表:騰訊會議、飛書妙記、釘釘閃記。
釘釘閃記提供了會議實時轉(zhuǎn)寫和音視頻轉(zhuǎn)寫的功能,幫助員工沉淀工作信息,快速定位到關(guān)鍵信息有助于做決策和制定計劃。對于轉(zhuǎn)寫結(jié)果,不僅做到非常細致的分段,而且還支持編輯和高亮的功能。
飛書妙記除了基礎(chǔ)的轉(zhuǎn)寫和編輯功能外,還提供了關(guān)鍵詞提取的功能,幫助員工快速捕捉定位相關(guān)術(shù)語來縱覽整篇內(nèi)容。
會議協(xié)作產(chǎn)品有著天然的優(yōu)勢,因為企業(yè)協(xié)同辦公是一個穩(wěn)定的流量入口,會議轉(zhuǎn)文字只是一個附加價值,重點在于轉(zhuǎn)文字后的團隊協(xié)作,將會議紀要轉(zhuǎn)換成團隊具體的決策和知識,在團隊內(nèi)部共享。
話說回來,訊飛聽見從語音轉(zhuǎn)寫擴展到在線會議,難道是因為覬覦在線會議市場份額而插一腳的么?
2. 海外競爭
NO,我們將眼光放到國外。
國外的轉(zhuǎn)寫市場發(fā)展比國內(nèi)更早,最成熟的當然是美國。如果說科大訊飛在海外的counterpart是Nuance,那訊飛聽見在海外的counterpart是Otter,而不是siri和Alexa,
這是一款基于人工智能和深度學(xué)習(xí)的語音識別產(chǎn)品??偛课挥诩永D醽喼萋逅拱柾兴?,也是AI驅(qū)動的協(xié)作筆記和生產(chǎn)力提升應(yīng)用程序提供商。
2020年Otter.ai獲得來自日本移動運營商NTT Docomo的1000萬美元融資,并且宣布與Zoom加強合作關(guān)系,為Zoom會議啟動實時字幕,并且在疫情期間實現(xiàn)了指數(shù)級增長(收入同比增長10倍)。
Otter.ai提供了一個AI驅(qū)動的協(xié)作筆記記錄和生產(chǎn)力提升應(yīng)用程序,可與Zoom和Google Meet等視頻會議平臺以及電話和其他語音通信配合使用。
Otter Voice Meeting Notes應(yīng)用程序使用專有的人工智能實時生成安全、可共享、可搜索的豐富筆記,這些筆記結(jié)合了音頻、轉(zhuǎn)錄、說話者身份、內(nèi)嵌照片和關(guān)鍵短語。該應(yīng)用程序在230多個國家/地區(qū)使用,現(xiàn)已錄制了超過1億次會議,涵蓋了30億分鐘。
Otter的做法反映出了國內(nèi)外市場一大區(qū)別。
國外企業(yè)在線辦公三巨頭Google Meet、ZOOM、Microsoft Teams。
大多數(shù)會議新產(chǎn)品都是圍繞著這三家作為基礎(chǔ)設(shè)施提供附加服務(wù)。
Otter也不例外。
最后介紹一款產(chǎn)品,Notta,它為語音轉(zhuǎn)寫市場拓寬了思路,原因有二:
- 它在海外激烈的語音轉(zhuǎn)寫紅海市場憑借差異化的體驗成功獲得一席之地。
- 它在海外市場找到了高價值市場,盈利情況相當可觀。
語音轉(zhuǎn)寫作為一項成熟技術(shù),門檻是不高的,行業(yè)頭部廠商和普通廠商的轉(zhuǎn)寫精確度相差都是百分之幾,對很多用戶來說夠用就行,因此相互之間的替代性比較強。
一個普通的語音轉(zhuǎn)寫新玩家,想要獲得一些份額,有幾種方式:
- SEO,讓一些小白用戶首次就接觸到這個產(chǎn)品,這些用戶用習(xí)慣了大概率不會離開;
- 免費低價策略,在有基礎(chǔ)的語音轉(zhuǎn)文字能力后,就靠免費來獲得一些低價值用戶,因為這些用戶是被頭部廠商的付費漏斗給剩下的,這些用戶付費意愿幾乎沒有的,用你就是圖免費,但你不可能永遠免費,當你恢復(fù)收費的那一天,也是白嫖用戶離你而去的時刻;
- 提供除轉(zhuǎn)寫外的附加價值,可以打破“數(shù)據(jù)孤島”,用戶為附加價值付費。
Notta就選擇了第三種。
十、典型案例
下面介紹Notta,一款中國企業(yè)出海日本市場的語音轉(zhuǎn)文字產(chǎn)品。
這款產(chǎn)品主打的仍然是語音轉(zhuǎn)文字,只是對于轉(zhuǎn)文字后提供了更多的附加價值,為用戶的工作學(xué)習(xí)場景打造了完整的閉環(huán)體驗:
多場景輸入——多語種轉(zhuǎn)文字——編輯校對——筆記輸出——分類管理——導(dǎo)出
1. 多場景輸入
用戶會以何種方式輸入音頻文件,就有多少種場景:
- 直接獲得音頻文件——音頻導(dǎo)入
- 錄下當前環(huán)境中的聲音——環(huán)境實時轉(zhuǎn)錄
- 錄下當前屏幕上的聲音——Chrome瀏覽器插件
- 開會時錄下在線會議——Notta Bot會議實時轉(zhuǎn)錄
音頻導(dǎo)入和實時錄制是很通用的功能了,這里著重介紹Chrome插件和Notta Bot。
(1)Notta Add-in
插件的需求主要來源于很多有用的資料是網(wǎng)站的在線視頻里的,如果想把在線視頻轉(zhuǎn)文字需要用戶想辦法提取出音視頻,要么是用戶用手機對著電腦外音錄一遍再導(dǎo)入轉(zhuǎn)錄,要么是懂點技術(shù)的用戶提取出網(wǎng)站的音視頻源文件,這樣做無疑是提高用戶的使用門檻和成本。
Chrome插件可以很好地解決這個問題,插件本身就是極具定制化的,用戶在播放在線音視頻時可以打開插件錄制,播放完后就可以得到完整的轉(zhuǎn)錄文件,消除了導(dǎo)入門檻,效率大大提升。
(2)Notta Bot
Notta Bot是一個會議錄制功能,用戶在一些不需要發(fā)言的網(wǎng)絡(luò)研討會、開放性的會議可以使用 Notta Bot 定時參會,空閑時候回顧音頻和文本。公司例會和客戶會議可以通過 Notta Bot 記錄文檔,推送到 Notion 留存。目前 Notta Bot 已經(jīng)支持 Zoom/Google Meet/Microsoft Teams,還可以同步自己的日歷,實現(xiàn)自動參會。
2. 多語種轉(zhuǎn)文字
Notta針對的是海外市場,因此需要滿足大量不同地域的語言要求,因此語言支持方面也是 Notta 的優(yōu)勢,Notta 集成 Google、AMI、微軟、思必馳等多家引擎服務(wù)商,支持中文(簡體、繁體、粵語)、英語、日語等多達幾十種語言,還包含多種口音,如印度英語、澳大利亞英語等,系統(tǒng)會根據(jù)不同的語言智能匹配不同的引擎,綜合語言和口音達到100種。
3. 編輯校對
首先,和訊飛聽見的轉(zhuǎn)錄結(jié)果偏向閱讀的整段展示不同,Notta將轉(zhuǎn)錄文本切得很細,每段/每句后都直接附上了原聲語音切片,如果用戶需要對文本以編輯校對。
比如對相關(guān)術(shù)語近義詞可能造成歧義的,切得細的相對容易進行二次校驗,這就讓用戶在轉(zhuǎn)寫完成后不會立刻導(dǎo)出,而是在Notta上完成編輯工作。
4. 筆記輸出
對于轉(zhuǎn)錄結(jié)果,用戶可以添加圖片,將文本筆記變成富文本筆記。進一步地,通過給筆記打上標簽添加便簽內(nèi)容,幫助用戶從原文中提取關(guān)鍵信息形成決策和計劃(默認標簽有Key Poiont、To-do、Project),非常契合實際的工作學(xué)習(xí)場景。
5. 分類管理
不同于“用完即走”的語音轉(zhuǎn)錄工具,Notta爭取讓用戶留在產(chǎn)品內(nèi),用戶如果有長期的轉(zhuǎn)錄文件需求,文件的分類管理是大問題,畢竟如果每次都要導(dǎo)出到本地,遇到多設(shè)備辦公或者協(xié)作時會很不方便。因此Notta承擔了筆記內(nèi)容的存儲空間,支持將轉(zhuǎn)寫文檔建組歸檔,從語音轉(zhuǎn)錄工具變成了文檔辦公平臺。
6. 導(dǎo)出
完成轉(zhuǎn)寫和編輯之后,Notta 在導(dǎo)出文本時還具備良好的兼容性。
Notta 除了支持實時錄音轉(zhuǎn)寫,還支持音頻、視頻的主流格式導(dǎo)入轉(zhuǎn)寫,我們在網(wǎng)上下載的音頻視頻文件無需轉(zhuǎn)換格式可直接導(dǎo)入 Notta 中獲取轉(zhuǎn)寫文字,并可導(dǎo)出多種格式的文本檔案,如 PDF、DOCX、SRT 等格式。
Notta的創(chuàng)始人也是原來摩拜單車的聯(lián)合創(chuàng)始人,幾個合伙人也是有不錯的創(chuàng)業(yè)經(jīng)驗,所以在語音轉(zhuǎn)寫紅海市場里的打法也比較值得品味。
Notta一開始就確定了“PLG+訂閱付費”的盈利模式,因為經(jīng)過驗證,這種模式是最適合海外SaaS產(chǎn)品的自增長,Notta早期也是有在中國市場上架投放的,但是發(fā)現(xiàn)中國市場的訂閱付費情況非常糟糕,簡單說就是白嫖居多,因此后面因為各種原因就暫時不投放了。(Notta作為一家創(chuàng)業(yè)公司,避免重復(fù)造輪子,集成了 Google、AMI、微軟、思必馳等多家引擎服務(wù)商,被白嫖真架不?。?/p>
Notta在海外的投放自然也是瞄準發(fā)達國家,因為發(fā)達國家的付費意愿的確高,養(yǎng)活了很多SaaS公司,在眾多地區(qū)的投放效果對比時,發(fā)現(xiàn)日本的投入產(chǎn)出結(jié)果是最好的。
Notta經(jīng)歷了從單一場景切入的工具,到口碑傳播和商業(yè)化,再到服務(wù)企業(yè)客戶的完整過程,主要有三個階段:
(1)第一階段
Notta最早作為移動端工具APP,先是上了APP Store,然后上了Google Play,2020年7月份的時候,整個移動端下載量突然一天增加了兩萬,沖上了日本地區(qū)效率榜Top3。
當時團隊以為是被黑客攻擊了導(dǎo)致下載量特別多,直到過了大概兩三天才發(fā)現(xiàn)Notta是被日本的電視臺一個早間新聞節(jié)目報道了,一個日本年輕動畫配音演員分享了日本人生活中要用到的幾個效率APP,于是就在日本小火了一把,之后Notta在蘋果市場表現(xiàn)得非常好,用戶搜一些關(guān)鍵詞就可以看到這款A(yù)PP,Notta發(fā)現(xiàn)日本市場在用戶增速、營收、付費意愿都是相當不錯的,團隊開始發(fā)力日本市場。
直到2022年5月份的時候上了企業(yè)版,隨著功能逐漸豐滿開始有企業(yè)級別的客戶去付費。在只有App的時候,Notta發(fā)現(xiàn)傳統(tǒng)媒體的PR效果非常好。這個階段Notta也嘗試過國內(nèi)安卓市場,后來發(fā)現(xiàn)付費還是不行。
在上線Web版SaaS產(chǎn)品后,用戶開始在社媒上自發(fā)討論Notta,評價Notta為他們生活帶來了便利,甚至有用戶稱“Notta應(yīng)該獲得諾貝爾和平獎”。產(chǎn)品的口碑開始建立了,也符合公司的預(yù)期——一定要做品牌,要讓用戶總是搜索到好的評價和內(nèi)容,通過“洗腦式”的好評來影響用戶最終的決策。
(2)第二階段
本地化運營,這個時候,團隊發(fā)現(xiàn)60%的流量都來自搜索引擎,因此營銷精力主要放在SEO(搜索引擎優(yōu)化)。
本地的內(nèi)容同學(xué)和兼職寫手基本上一周能產(chǎn)出與產(chǎn)品、場景或效率相關(guān)的二十多篇文章,通過這些文章在搜索引擎不斷優(yōu)化關(guān)鍵詞,本質(zhì)是內(nèi)容營銷。當SEO月環(huán)比或周環(huán)比增長放慢的時候才考慮配合買量。
(3)第三階段
PLG典范,自下而上效應(yīng)最終幫助產(chǎn)品進入企業(yè)級客戶,當時基于用戶需求做了一個跨平臺自動參會的功能,也為產(chǎn)品帶來了一小波爆發(fā)。比較典型的企業(yè)客戶是日本的八千代工程(工業(yè)、汽車零部件供應(yīng)商)。
而這筆大單的起源是一名員工最早購買了一個賬戶,公司先是有一個市場顧問在用的過程中覺得很好用,然后團隊幾個人開始在用,之后他們覺得自己每次買會員還要找公司報銷,覺得很麻煩,于是就推到本公司的數(shù)字化業(yè)務(wù)推進部門的 leader,經(jīng)過幾次遠程會議后該公司幫1000多名員工購買了Notta 500多個賬戶一年的服務(wù),這是Notta第一個大客戶,整個銷售過程比較順利,是純在線的方式。
從馬后炮的角度看,日本市場表現(xiàn)顯著的原因有三:
(1)日本市場的老齡化趨勢下,勞動力是極度稀缺資源
在日本有這樣一個段子,150個崗位,卻只有100個人來應(yīng)聘,因此日本企業(yè)對于人效的關(guān)注持續(xù)上升,日本的經(jīng)濟勞動省(相當于國家的人力資源部)提了一個建議,讓日本企業(yè)能夠以數(shù)字化的方式去擁抱未來。希望利用AI帶來的自動化工作方式來去提高人效,剛好 Notta這款產(chǎn)品符合這個場景,因而整體導(dǎo)入是比較順利的。
(2)日本嚴肅的職場文化
日本職員只要開會,一般都會寫一個特別詳細的會議紀要,或者有一個專門的職位去做這樣的事情。Notta這款產(chǎn)品剛好符合日本這種當?shù)匚幕敲磳?dǎo)入的過程也會比較順利。
(3)日語相比于中英文,歸根結(jié)底屬于小市場,競爭不激烈
美國早期的那些獨角獸公司或者一些SaaS公司,它早期并不會關(guān)注日本市場,這也是給了Notta一個好的入場機會。像Otter這樣的AI公司在北美的增長是很快的,目前有幾千萬美金的收入量級,但是Otter始終沒有做日語引擎,這給了Notta團隊一個窗口期,讓Notta能夠在日本迅速把市場覆蓋度鋪廣,目前為止在移動端的效率榜Notta已經(jīng)進到前10名,在Notta網(wǎng)頁端每個月已經(jīng)有將近100萬UV。
由于是發(fā)達市場,而且提供了如此豐富的功能,Notta的客單價相比于競爭對手絕對是第一梯隊的,
Notta實行訂閱制,對于免費用戶,Notta每個月會贈送120min的轉(zhuǎn)寫時長,付費用戶可以不僅可以有無限時長,還可以使用各種附加功能,比如更多的導(dǎo)入格式、文字校對、隱藏時間戳等。
年費平均下來要比月費要便宜(下圖是年費換算),單月付費大概是100元人民幣的價格,相當于在訊飛聽見上轉(zhuǎn)寫6個小時的文件,這樣看來整體性價比是高的。
目前Notta在日本這個軟件領(lǐng)域似乎很傳統(tǒng)的市場,又是在語音轉(zhuǎn)錄這個并不特殊的賽道,不到3年就做到月入30萬美金,算上ARR已達到360萬美金了。
由于出海產(chǎn)品都會面臨很強的本地運營問題,因此針對PLG模式最發(fā)達的美國市場,Notta團隊選擇重新開發(fā)一款會議效率產(chǎn)品Airgram,拿下Product Hunt頭條,順勢拿下了1000萬美金的A輪融資。
從Notta團隊的思路可以看到,語音轉(zhuǎn)寫產(chǎn)品想在超級紅海市場脫穎而出,遵循幾個邏輯:
- 小工具盡快找到核心價值用戶,或者國外常說的ICP(Ideal Customer Profile,理想客戶畫像),讓客戶推著產(chǎn)品向前,Notta一開始就是非常重視盈利閉環(huán)的,而不是提供同質(zhì)化的免費低價服務(wù),因為那只會吸引低價值白嫖黨;
- 不重復(fù)造輪子,關(guān)注自己的核心業(yè)務(wù),善用三方工具和能力,快速將產(chǎn)品做到及格,盡早投入市場進行驗證;
- 非常重視內(nèi)容營銷,在海外要真正并持久獲得高質(zhì)量的用戶,需要給產(chǎn)品持續(xù)講一個打動人心的故事,這點普通公司離海外一流SaaS公司的差距很明顯。
十一、語音轉(zhuǎn)寫發(fā)展趨勢
既然談到發(fā)展趨勢,就不局限在C端應(yīng)用市場了,而是放眼全球的各個領(lǐng)域
1. 從大語種逐漸蔓延到小語種
中美互聯(lián)網(wǎng)發(fā)展是最快的,其次就是東南亞、印度,這些地區(qū)經(jīng)濟發(fā)展緊隨中國,互聯(lián)網(wǎng)滲透率也越來越高,基礎(chǔ)設(shè)施越來越完善,必然會產(chǎn)生許多新需求,對這些市場是新需求,其實對于中美已經(jīng)是被驗證很多次的市場了,因此貫徹“Copy to them”的策略,就語音轉(zhuǎn)寫而言,東南亞、印度這些地區(qū)很明顯的社會特征就是民族多、語言繁多,識字率不高。雖然印度是一個完整的主權(quán)國家,但其實際的社會統(tǒng)一性是遠不如中國的,
印度語言的特點,一是語言種類多,二是各個語種使用人口非常不均衡。其中印地語母語者最多,而英語最通行。
印度有個稱號叫“語言博物館”,足見其語言狀況之多樣。大體上,北印度人主要講印歐語系下的印度-雅利安語支的各個語種,如印地語、烏爾都語;南印度人則多操著達羅毗荼語系下的各語言,如泰米爾語、泰盧固語等。印度語言從大的層面的分類,有很明顯的南北差異和東西差異。
精確點講,按照2001年人口普查結(jié)果,在印度作為母語使用的語言數(shù)量有1635種,單是使用人口在百萬以上的語言就有29種。在眾多本土語言中,以印地語為母語的人約占印度總?cè)丝诘?b>40%,這些人集中分布在北印度,而以其他語言為母語的人口均不足10%。不過在南印度,英語和南印本土語言更加通行。印地語的基本盤,很明顯就是恒河流域的中上游部分。
因此,在互聯(lián)網(wǎng)高速發(fā)展的印度,有了印度硅谷之稱的加爾各答,催生出各種智能語音相關(guān)的初創(chuàng)公司,以及其他外來企業(yè)針對印度市場的語音本土化產(chǎn)品。
而東南亞是由11個國家組成的,人口6億左右,除了新加坡這樣的發(fā)達國家,大部分都是發(fā)展中國家,它們不僅民族語言繁多,而且還有國界分割,而市場經(jīng)濟又將他們深度捆綁在一起,因此也是新興的語言市場。
(1)Fano labs
中國香港的初創(chuàng)公司,Fano Labs,成立于2015年,專注于語音識別(ASR)及自然語言處理(NLP)等人工智能前沿技術(shù)的研發(fā)與應(yīng)用。目前,公司的語音識別解決方案支持普通話、英語、泰語、印尼語等多個語種,以及四川話、廣東話等各類方言。其主要業(yè)務(wù)是為金融合規(guī)和客戶服務(wù)等場景提供語音識別技術(shù)服務(wù)。
Fano Labs 的核心競爭力是多語種環(huán)境識別,即在幾種語言混雜情況下的語音識別。比如,在香港企業(yè)中,中粵英混雜使用的情況較為常見,印度企業(yè)面臨著印度語和英文混合的問題,即便在新加坡,雖然大部分企業(yè)講英文,但日常溝通也會摻雜一些中文和馬來語。隨著多語種混合的趨勢愈發(fā)明顯,傳統(tǒng)語言分析技術(shù)已疲于應(yīng)付。Fano Labs 的語言分析技術(shù)能夠自動檢測錄音中的不同語種,即使同一個說話者在多種語言切換也能被準確識別。(值得一提的是,香港有一個獨特的優(yōu)勢,就是這個國際化的大都市匯聚了世界各地的人,我們在香港也能輕松地找到其他國家的 native speaker,通過他們的反饋,我們得以把技術(shù)打磨得更好,借助香港這個跳板,出海到其他國家。)
(2)Vokal
在過去的十年中,印度的互聯(lián)網(wǎng)市場以及相關(guān)業(yè)務(wù)都專注于服務(wù)習(xí)慣于使用英語的用戶身上。但下一代互聯(lián)網(wǎng)用戶渴望的是不用打字的非英語內(nèi)容、交流以及購物。
事實上,大多數(shù)印度互聯(lián)網(wǎng)用戶都習(xí)慣于使用印度語瀏覽網(wǎng)頁,而這一數(shù)字預(yù)計在兩年內(nèi)達到 5 億。谷歌的統(tǒng)計數(shù)據(jù)也能為印度下一代互聯(lián)網(wǎng)用戶行為的變化提供一些線索:
印度的語音搜索量同比增長了 270%,同時,95% 的視頻內(nèi)容消費都是本地語言。預(yù)計未來幾年內(nèi),印度的互聯(lián)網(wǎng)用戶數(shù)量將超過 6.5 億,新用戶將全部來自于印度二、三線城市以及農(nóng)村地區(qū)。
Vokal 的應(yīng)用下載量超過 50 萬,人們可以用印地語在上面提出并回答問題,而現(xiàn)在 Vokal 已經(jīng)新推出了 10 多種語言選項。Radhakrishna 說,“你必須進行多種嘗試,不斷完善自己的商業(yè)模式。市場在不斷地發(fā)展,以英語為中心的受眾群體并不能代表整個市場的用戶?!?/p>
盡管互聯(lián)網(wǎng)在發(fā)展,新互聯(lián)網(wǎng)用戶的行為也與之前不同。他們通過互聯(lián)網(wǎng)下載并分享的內(nèi)容更多了,但卻不能用自己的語言進行公開提問并得到答案。同時,爭取這些新互聯(lián)網(wǎng)用戶的也并不只有本土企業(yè)。中國的創(chuàng)業(yè)公司,尤其是那些提供本地語言選項并專注于視頻內(nèi)容的企業(yè),正被廣大用戶選擇。
筆者認為,歸根結(jié)底還是印度整個國家的識字率不高,一些低線城市的人口不擅長打字更不擅長英文,因此用自己會的語言進行語音搜索代替打字搜索是非常符合當?shù)貙嶋H情況的,即語音產(chǎn)品的本土化,給了像Vokal這樣的公司很大的增長空間。
當然這也會帶來一個疑惑,為什么Google這樣的巨頭這么早進入印度市場,卻沒有深度進駐這個領(lǐng)域,還是那句話,不是不能做,是巨頭看不上。訓(xùn)練一個小語種模型無論從資金還是時間上都不便宜,更何況早期的印度智能手機滲透率還不高,很多基礎(chǔ)設(shè)施跟不上,因此做這些小語種的確是投入大產(chǎn)出小。
2. 從單純的語音轉(zhuǎn)寫延伸到整個鏈路
無論是出海產(chǎn)品Notta、Airgram,還是美國本土的Otter以及一系列帶語音轉(zhuǎn)寫功能的產(chǎn)品,都是圍繞著企業(yè)在線會議作為立足點拓展,前有會議預(yù)約和創(chuàng)建,中間有會議機器人,后有會議紀要的總結(jié)和同步,旨在提高企業(yè)的人效,減少會議導(dǎo)致的人力資源不必要的浪費,美國企業(yè)每年由于開會帶來的人力資源浪費達到企業(yè)開銷的1%。
這個思路不難理解,企業(yè)開會的目的是同步信息,其結(jié)果是形成具體決策,決策最終會指導(dǎo)團隊行動。
會議過程轉(zhuǎn)文字的好處在于,會議音視頻是線性的數(shù)據(jù),用戶只能根據(jù)時間線快進后退來獲得信息,而轉(zhuǎn)文字后就變成可縱覽的信息,用戶可以在文字中迅速捕捉關(guān)鍵信息,不需要操作時間線,更不需要把原話重聽一遍。
轉(zhuǎn)文字后,將關(guān)鍵信息提取出來,就是團隊的決策依據(jù)和知識庫,這些不應(yīng)該是保存在決策者的大腦或者某個本地設(shè)備,而是要共享給整個團隊,讓團隊參與討論和決策執(zhí)行。
同樣的,對于學(xué)生來說,語音轉(zhuǎn)文字可以很好地在課后對老師的講課內(nèi)容有很好地概括和提取,并且將其進一步知識化,補充更多內(nèi)容使其豐富化,單純的轉(zhuǎn)錄文稿是低價值的,只有便捷的編輯和提取才可以讓學(xué)生把產(chǎn)品當成一個學(xué)習(xí)助手而非用完即走的轉(zhuǎn)錄工具。
3. 從語音轉(zhuǎn)寫結(jié)果中提取線索
這個不僅僅是對語音轉(zhuǎn)寫能力有要求,更多是搭配語義分析一齊提取有效信息,多用于銷售管理、客戶管理、商務(wù)會話
比如當銷售和客戶溝通后,溝通數(shù)據(jù)會自動同步并且系統(tǒng)對數(shù)據(jù)進行分析,讓更多銷售能夠從聊天數(shù)據(jù)中獲益,從而更好地指導(dǎo)銷售行為。
比如公司商務(wù)人員去外面會談后,其會談內(nèi)容會被完整同步給團隊,讓整個團隊包括負責人能夠接觸到一手的商務(wù)數(shù)據(jù),結(jié)合商務(wù)人員提供的信息得出更加科學(xué)的決策。
比如企業(yè)開會的最終的落地結(jié)果是會議紀要,轉(zhuǎn)文字只是第一步,更重要的是在文字中提取出會議重點內(nèi)容,否則仍然需要參會者的二次加工。
至于醫(yī)療場景,由于醫(yī)療是個嚴肅的話題,一旦技術(shù)轉(zhuǎn)錄出錯會釀出大禍,因此這塊還有很長一段路要走。
十二、行業(yè)總結(jié)
語音轉(zhuǎn)寫行業(yè)的衡量標準前文已經(jīng)闡明了,不僅又快又準,也需要方便存儲調(diào)取使用,并且最終目的是對決策產(chǎn)生影響。
因此,行業(yè)上游玩家作為基礎(chǔ)設(shè)施的搭建者,努力提升算法性能,采集更多數(shù)據(jù),幫助語音轉(zhuǎn)文字以及其他技術(shù)不斷提升,突破臨界值。
行業(yè)中游玩家努力嵌入更多企業(yè)、組織、機構(gòu),幫助它們提升數(shù)字化程度,將更多的信息知識化沉淀化。
行業(yè)下游玩家,離消費端最近,準入門檻低,參與者非常多,不乏努力避免同質(zhì)化的競爭者,只有找到用戶實際場景中的核心痛點,提高效率,創(chuàng)造更多附加價值才可以獲得更高的利潤。
需要語音轉(zhuǎn)寫的場景有很多而且流程區(qū)別很大,使很多新的入場者有發(fā)揮的空間,比如:
- 專為小語種市場提供專業(yè)的語音轉(zhuǎn)寫;
- 針對某一個市場進行本土化的產(chǎn)品設(shè)計和運營,仍可以依靠高客單價建立商業(yè)閉環(huán);
- 通過語音轉(zhuǎn)寫拓展到整個鏈路的服務(wù),和巨頭的基礎(chǔ)服務(wù)打通,打破數(shù)據(jù)孤島;
- 從語音轉(zhuǎn)文字的結(jié)果中提取更多關(guān)鍵信息和線索,幫助用戶做決策。
語音轉(zhuǎn)文字作為一個成熟行業(yè),光靠技術(shù)競爭很難拉開差距,更關(guān)鍵的是比拼產(chǎn)品體驗和運營策略。
本文由 @WIPO 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
總結(jié)的非常好!