深挖一下,微信是怎么學(xué)會(huì)“說(shuō)人話”的?

5 評(píng)論 2834 瀏覽 13 收藏 8 分鐘
🔗 B端产品经理需要更多地进行深入的用户访谈、调研、分析,而C端产品经理需要更多地快速的用户测试、反馈、迭代

最近,微信推出的真人朗讀功能,讓我們不禁好奇,這項(xiàng)功能是如何讓機(jī)器學(xué)會(huì)“說(shuō)人話”的?本文將深入探討微信真人朗讀功能背后的技術(shù)奧秘,揭示它是如何通過(guò)AI的力量,將冰冷的文字轉(zhuǎn)化為溫暖的聲音。

千呼萬(wàn)喚,真人朗讀功能終于灰度到了我!

讓我驚訝的是,有朋友居然以為是我自己錄了音。佩服微信的技術(shù)能力的同時(shí),也讓我好奇,這項(xiàng)功能背后究竟藏著什么奧秘?

01 從機(jī)器人到真人聲:技術(shù)進(jìn)化之路

微信公眾號(hào)的朗讀功能并不新鮮,早些年就上線了語(yǔ)音朗讀,但效果實(shí)在一般。聽(tīng)起來(lái)像是機(jī)器人在念稿子,毫無(wú)感情。

于是,這個(gè)功能并沒(méi)有吸引太多用戶,點(diǎn)擊量寥寥無(wú)幾。

反觀另一種場(chǎng)景,比如喜馬拉雅這樣的音頻平臺(tái),為什么它的朗讀內(nèi)容卻能打動(dòng)人?

答案很簡(jiǎn)單:它們使用真人朗讀。

為了讓用戶有更好的聆聽(tīng)體驗(yàn),這些平臺(tái)鼓勵(lì)主播或講書(shū)人用專業(yè)設(shè)備錄音,雖然成本較高,但效果確實(shí)好。

不過(guò),這種方法并不適合公眾號(hào)。公眾號(hào)的核心是文字內(nèi)容,音頻只是輔助,要求每位作者錄音顯然是不現(xiàn)實(shí)的。

于是,技術(shù)解決方案的接力棒交到了AI手中。

從2022年底大模型技術(shù)的爆發(fā),到現(xiàn)在AI技術(shù)在文生文、文生音頻等領(lǐng)域的成熟,公眾號(hào)真人朗讀功能終于有了實(shí)現(xiàn)的可能。效果不僅越來(lái)越逼真,還能根據(jù)文字生成匹配的語(yǔ)氣和感情。正是這些技術(shù)突破,才讓微信這個(gè)功能實(shí)現(xiàn)了質(zhì)的飛躍。

02 探索“說(shuō)人話”背后的技術(shù)小秘密

我們先來(lái)看看說(shuō)人話的過(guò)程,一共操作只需要三步:先選擇錄制例句 ?? 音色復(fù)刻 ?? 音色試聽(tīng)并保存。

用技術(shù)的視角一句話總結(jié):通過(guò)預(yù)訓(xùn)練語(yǔ)音模型,結(jié)合作者音色訓(xùn)練,生成專屬語(yǔ)音模型。

具體實(shí)現(xiàn)可以分為以下幾步:

  1. 文本準(zhǔn)備與預(yù)訓(xùn)練模型:開(kāi)始時(shí),需要用海量的語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的文本進(jìn)行預(yù)訓(xùn)練。這些語(yǔ)音數(shù)據(jù)覆蓋了不同的語(yǔ)氣、語(yǔ)速和音色,讓模型能夠掌握“如何說(shuō)話”的基礎(chǔ)能力。
  2. 作者音色采集:作者需要朗讀幾段預(yù)設(shè)文案。這些文案是設(shè)計(jì)好的訓(xùn)練數(shù)據(jù),幫助AI捕捉作者的獨(dú)特音色和語(yǔ)調(diào)特征。注意,這個(gè)過(guò)程中作者最好帶入情感朗讀,生成的聲音才會(huì)更像自己。
  3. 音頻生成:基于前兩步的數(shù)據(jù),系統(tǒng)會(huì)用“音色遷移”技術(shù),將作者的聲音特征融入到預(yù)訓(xùn)練模型中。最終生成的音頻不僅保留了原有模型的流暢度和自然感,還帶上了作者的個(gè)人特色。
  4. 試聽(tīng)與調(diào)整:用戶可以試聽(tīng)生成的音頻。如果覺(jué)得某些地方不夠滿意,可以重新錄入部分文案,優(yōu)化生成效果。

就是這樣,復(fù)雜的技術(shù)被簡(jiǎn)化成用戶無(wú)感的操作,只需幾分鐘,作者的聲音就可以被完美復(fù)刻。

03 如何借鑒微信的產(chǎn)品設(shè)計(jì)?

我在這篇文章之前也看到了很多作者的觀點(diǎn),我總結(jié)就是兩點(diǎn):第一點(diǎn)是極簡(jiǎn)的產(chǎn)品設(shè)計(jì),第二點(diǎn)是新技術(shù)解決老問(wèn)題。

第一,極簡(jiǎn)交互的威力

微信的設(shè)計(jì)哲學(xué)向來(lái)強(qiáng)調(diào)極簡(jiǎn)。朗讀功能的核心交互流程非常清晰:選擇文案、錄入音色、生成試聽(tīng)。

對(duì)于用戶來(lái)說(shuō),復(fù)雜的技術(shù)細(xì)節(jié)被隱藏在背后,只留下易懂、易用的體驗(yàn)。這種“去復(fù)雜化”的設(shè)計(jì)理念,值得每一位產(chǎn)品經(jīng)理學(xué)習(xí)。

遷移思考: 比如在政務(wù)智能客服中,利用大模型技術(shù)解決市民咨詢的復(fù)雜性問(wèn)題:當(dāng)市民提問(wèn)政策時(shí),AI可以通過(guò)自然語(yǔ)言處理,將模糊問(wèn)題具體化,生成語(yǔ)音解答,甚至用地方方言增強(qiáng)親和力,避免傳統(tǒng)客服中的機(jī)械感。同時(shí),在熱線高峰時(shí)段,AI還能通過(guò)情緒識(shí)別,優(yōu)先處理緊急或情緒激動(dòng)的市民訴求,讓市民感受到更加高效和人性化的服務(wù)體驗(yàn)。

第二,新技術(shù)解決老問(wèn)題

這個(gè)功能的推出并不是炫技,而是為了解決一個(gè)具體的用戶痛點(diǎn)——提升文章的聆聽(tīng)體驗(yàn)。很多產(chǎn)品經(jīng)理在應(yīng)用技術(shù)時(shí)容易陷入“堆功能”的誤區(qū),而微信卻用技術(shù)精細(xì)打磨產(chǎn)品,服務(wù)明確的需求場(chǎng)景。

遷移思考:在政務(wù)服務(wù)領(lǐng)域,類似的新技術(shù)同樣可以解決老問(wèn)題。例如,市民咨詢政策時(shí),AI技術(shù)能從市民的復(fù)雜表達(dá)中提取關(guān)鍵信息,自動(dòng)匹配精準(zhǔn)的政策條款。

最后的話

雖然很多人覺(jué)得公眾號(hào)已經(jīng)日薄西山,但真人朗讀功能的加入可能改變這一趨勢(shì)。它不僅提升了用戶體驗(yàn),還為公眾號(hào)找到了一條新增長(zhǎng)曲線。

未來(lái),我們或許會(huì)看到更多結(jié)合AI技術(shù)的功能,比如視頻生成、個(gè)性化推薦,甚至文章內(nèi)容的AI自動(dòng)延展。公眾號(hào),正在從“人寫”走向“人講”,讓內(nèi)容變得更加生動(dòng)有趣。

從技術(shù)角度來(lái)看,它從來(lái)不只是冷冰冰的代碼,它是溫暖的橋梁,連接著創(chuàng)作者與讀者。正如張小龍?jiān)f(shuō)過(guò),“好的產(chǎn)品應(yīng)該像水一樣融入生活”,未來(lái),我相信我們能在微信上不斷的體驗(yàn)到更多這樣的功能,不斷刷新“啊哈”體驗(yàn)的上限。

希望帶給你一些啟發(fā),加油。

作者:柳星聊產(chǎn)品,公眾號(hào):柳星聊產(chǎn)品

本文由 @柳星聊產(chǎn)品 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 不懂就問(wèn),為什么最近總有人反復(fù)強(qiáng)調(diào)“微信是極簡(jiǎn)的”。。。

    來(lái)自上海 回復(fù)
    1. 一方面表現(xiàn)在真的很好上手,你可以看到我發(fā)的語(yǔ)音的采集過(guò)程,就很簡(jiǎn)單,而且聲音很相似,不需要調(diào)節(jié)什么其他參數(shù),按照提供的模版說(shuō)完就能有一個(gè)比較完美的人聲。
      另一方面表現(xiàn)在它的克制,能不多做絕不多做,很多新功能都是“潤(rùn)物細(xì)無(wú)聲”里生發(fā)出來(lái)的,這很考驗(yàn)產(chǎn)品經(jīng)理的功底。

      來(lái)自北京 回復(fù)
    2. 以點(diǎn)代面是吧。。。

      來(lái)自上海 回復(fù)
  2. 這樣的話,有個(gè)問(wèn)題需要考慮,是否人工費(fèi)用會(huì)高呢

    來(lái)自中國(guó) 回復(fù)
    1. 不好意思,您說(shuō)的人工費(fèi)用是?

      來(lái)自北京 回復(fù)
专题
17958人已学习13篇文章
用户等级体系是产品的底层基础之一,也是用户成长激励体系之一。本专题的文章分享了如何搭建用户等级体系。
专题
12327人已学习12篇文章
关于如何写简历、简历上些什么的文章大家看了很多。那么细分到产品经理这个岗位来说,写简历又有什么需要注意的呢?本专题的文章分享了产品经理如何写简历。
专题
13149人已学习14篇文章
好的产品是对人性的窥视,无论是做产品,做运营,懂点心理学还是很有帮助的。本专题的文章分享了消费者心理学。
专题
16373人已学习12篇文章
本专题的文章分享了对账体系的设计思路。
专题
16812人已学习12篇文章
分销是互联网拉人头和推广的常用手段,能够在短时间内实现裂变营销。本专题的文章分享了分销体系设计指南。
专题
12361人已学习13篇文章
发票是财务中必不可少的物品,那发票系统该如何设计呢?本专题的文章分享了发票系统设计指南。