AIGC音頻合成知識入門

0 評論 6827 瀏覽 39 收藏 10 分鐘

隨著信息技術(shù)的發(fā)展,AI能幫助我們做的內(nèi)容越來越多。本篇文章,作者以AI音頻合成為主,分析音頻合成的流程,以及需要考慮的幾個方面,幫助音頻合成零基礎(chǔ)的伙伴,快速掌握音頻合成。

今年席卷而來的AI風(fēng)潮刮到了各個模態(tài),音頻創(chuàng)作作為重要形態(tài)之一,也逐漸涌現(xiàn)出眾多產(chǎn)品與模型,但音頻合成的基本原理你是否了解呢?一起來看看吧。

一、定義

組成聲音的結(jié)構(gòu)包括音素、音節(jié)、音位、語素等,音頻生成是對這些基本單位進行預(yù)測和組合,通過頻譜逼近或波形逼近的合成策略來生成對應(yīng)的聲音波形。

語音合成的本質(zhì)是通過對于語句結(jié)構(gòu)和關(guān)系的學(xué)習(xí)來預(yù)測其聲學(xué)特征,還原聲音波形的過程。語音+音頻結(jié)合后才得到我們常見的歌曲、朗讀等形態(tài)。

音頻生成目前主要包括:根據(jù)文本合成語音(text-to-speech),進行不同語言之間的語音轉(zhuǎn)換,音色克?。⊿inging Voice Conversion),根據(jù)視覺內(nèi)容(圖像或視頻)進行語音描述,以及生成旋律、音樂等。

二、發(fā)展歷程

音頻生成隨著計算機技術(shù)的發(fā)展,逐漸形成了以“文本分析-聲學(xué)模型-聲碼器”為基本結(jié)構(gòu)的語音合成方法。

基于對這個結(jié)構(gòu)部分模塊的替代或優(yōu)化,音頻生成的關(guān)鍵技術(shù)大致經(jīng)歷了拼接合成階段、參數(shù)合成階段、端到端合成階段三個時期。

1. 波形拼接語音合成

顧名思義,波形拼接法是通過對語句的音素、音節(jié)、單詞等進行特征標(biāo)注和切分之后,在已有的語音數(shù)據(jù)庫中查找基本單位,拼接合成語音。

其背后需要錄制大量的音頻,盡可能覆蓋全所有的音節(jié)、音素等,數(shù)據(jù)庫中的錄音量(樣本)越多,最后合成的音頻效果越好。

  • 優(yōu)點:基于真人錄制的語音音質(zhì)較好,聽覺上比較真實。
  • 缺點:拼接效果依賴于語音庫的數(shù)據(jù)量,需要錄制大量的語音才能保證覆蓋率;字詞的銜接過渡較為生硬,不夠自然。

2. 參數(shù)語音合成技術(shù)

參數(shù)合成法是主要是通過數(shù)學(xué)方法對已有聲音數(shù)據(jù)進行聲學(xué)特征參數(shù)建模,構(gòu)建文本序列映射到語音特征的映射關(guān)系,生成參數(shù)合成器。

訓(xùn)練好的模型對輸入數(shù)據(jù)進行分詞、斷句、韻律分析等,映射出對應(yīng)的聲學(xué)特征,再由聲學(xué)模型(聲碼器)合成音頻。

  • 優(yōu)點:原始錄音數(shù)據(jù)量?。蛔珠g協(xié)同過渡平滑,自然。
  • 缺點:存在音質(zhì)損失,沒有波形拼接的好;機械感強,有雜音。

3. 端到端語音合成技術(shù)

端到端語音合成技術(shù)是目前最為主流的技術(shù),通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法,采用編碼器-注意力機制-解碼器(Encoder-Attention-Decoder)的聲學(xué)模型,實現(xiàn)直接輸入文本或者注音字符。

中間為黑盒部分,最后輸出頻譜和聲音波形合成音頻,簡化了復(fù)雜的語言分析部分和特征抽取過程。

端到端合成大大降低了對語言學(xué)知識的要求,可以實現(xiàn)多種語言的語音合成。通過端到端合成的音頻,效果得到的進一步的優(yōu)化,更加自然,趨近真人發(fā)聲效果。

目前,語音生成領(lǐng)域應(yīng)用廣泛且效果優(yōu)秀的產(chǎn)品均基于端到端合成框架實現(xiàn)的,模型性能和應(yīng)用能力的提升使其逐漸成為主流。

  • 優(yōu)點:對語言學(xué)知識要求降低;合成的音頻自然,趨近人聲,效果好;同參數(shù)合成一樣所需錄音量小。
  • 缺點:黑盒模型,合成的音頻不能人為調(diào)優(yōu);復(fù)雜合成任務(wù)需要較多資源。

當(dāng)前的開源模型在不斷迭代更新,端到端合成目前比較火的有Tacotron2、Transformer-TTS、WavLM等模型。

三、影響應(yīng)用能力的關(guān)鍵因素

四、輸入類型

五、效果指標(biāo)

1. MOS值

定義:找一些業(yè)內(nèi)專家,對合成的音頻效果進行打分,分值在1-5分之間,通過平均得到最后的分?jǐn)?shù)。

這是一個相對主觀的評分,沒有具體的評分標(biāo)準(zhǔn)。根據(jù)個人對音色的喜好,對合成音頻內(nèi)容場景的掌握情況,以及對語音合成的了解程度是強相關(guān)的。

雖然mos值是一個比較主觀的測試方式,但也有一些可評判的標(biāo)準(zhǔn)。例如在合成的音頻中,多音字的讀法、當(dāng)前場景下數(shù)字的播報方式、英語的播報方式,以及在韻律方面,詞語是否連在一起播報、應(yīng)該重讀的地方是否有重讀、停頓的地方是否合理、音色是否符合應(yīng)用于當(dāng)前的這個場景。都可以在打分的時候做為得分失分的依據(jù)。

2. ABX測評

定義:熟知的AB測試,選擇相同的文本以及相同場景下的音色,用不同的模型合成來對比哪個的效果較好,也是人為的主觀判斷。

但是具有一定的對比性,哪個模型更適合當(dāng)前的場景,合成的效果更好。

3. 其他指標(biāo)

圍繞合成音頻的可懂性自然度、相似度。以中文為例,還有些指標(biāo)包括PER(拼音-不包含聲調(diào)-錯誤率,越低越好)、PTER(拼音-包含聲調(diào)-錯誤率,越低越好)、Sim(與真人聲音的相似度,越高越好)等。

六、應(yīng)用場景

1. 文本-語音合成(TTS)

目前技術(shù)發(fā)展已經(jīng)較為成熟,市面上已有較多公司(訊飛、出門問問、思必馳等)推出了商業(yè)化產(chǎn)品,主要聚焦的應(yīng)用場景是AI語音合成

虛擬人主播

2. 音色遷移/語音克?。⊿VC)

這段時間爆火的“AI孫燕姿”就是音色克隆的代表之一,只需要一定數(shù)量的訓(xùn)練集錄音,就可將輸入的文本或語音轉(zhuǎn)換為目標(biāo)模型音色

部分商業(yè)化產(chǎn)品目前也在試行推廣這一功能。

目前也有開源模型支持個人訓(xùn)練,僅需滿足硬件限制(6GB以上顯存的NVDIA顯卡、Windows系統(tǒng))。

例如比較主流的模型so-vits-svc,部署后可直接通過webui即可進行訓(xùn)練操作。

github倉庫地址:so-vits-svc/README_zh_CN.md at 4.1-Stable · svc-develop-team/so-vits-svc · GitHub

至此音頻合成的知識入門就告一段落,感興趣的同學(xué)可以嘗試語音克隆的模型訓(xùn)練去了解更多,實踐出真知~

本文引用數(shù)據(jù)源:

易觀千帆:https://qianfan.analysys.cn/

本文由 @白金之星 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!