智能座艙之語(yǔ)音TTS

加飯
1 評(píng)論 3383 瀏覽 10 收藏 6 分鐘
🔗 B端产品经理需要更多地进行深入的用户访谈、调研、分析,而C端产品经理需要更多地快速的用户测试、反馈、迭代

目前在車載場(chǎng)景中,TTS技術(shù)的應(yīng)用已經(jīng)十分常見,那么,想在車載領(lǐng)域、智能座艙領(lǐng)域深耕的產(chǎn)品同學(xué),你是否對(duì)車載TTS有所了解呢?不妨來(lái)看看這篇文章的內(nèi)容分享。

一、TTS是什么

文字轉(zhuǎn)語(yǔ)音,大家可以以微信的語(yǔ)音轉(zhuǎn)文字的反向工程來(lái)理解,主要作用是實(shí)現(xiàn)機(jī)械對(duì)話。

二、車載領(lǐng)域語(yǔ)音合成現(xiàn)狀分析

車載場(chǎng)景目前是TTS技術(shù)的重要應(yīng)用場(chǎng)景,其發(fā)展主要經(jīng)歷了以下四個(gè)階段:

其中,高度個(gè)性化的發(fā)展應(yīng)該細(xì)分為兩個(gè)階段。

第一個(gè)階段,基于人群圈層的個(gè)性化,劃分的圈層可能為男性/女性,兒童/成人/老年人,車主/乘客,基于車企的策略不同。

第二個(gè)階段,通過(guò)聲紋識(shí)別或攝像頭等感知手段,實(shí)現(xiàn)真正的千人千面,定制自己專屬的TTS風(fēng)格化回復(fù)。

三、當(dāng)前車載場(chǎng)景下的痛點(diǎn)

  1. 機(jī)械感:聽感上仍能夠識(shí)別出是機(jī)械的合成音,不自然、重讀不準(zhǔn)確等;
  2. 風(fēng)格單一:語(yǔ)音合成風(fēng)格較為單一,并且多為播音風(fēng)格,缺少樂趣;
  3. 情感欠缺:播報(bào)的情感音,融合進(jìn)車載的交互場(chǎng)景方式粗暴,體驗(yàn)不佳,具體表現(xiàn)為不同情感音不區(qū)分場(chǎng)景、不區(qū)分文本,僅僅通過(guò)音調(diào)等變化表達(dá)情感,存在機(jī)械的僵硬感;
  4. 智能化:場(chǎng)景定義不全面或不準(zhǔn)確,由于車載TTS的回復(fù)語(yǔ)基于車載語(yǔ)音產(chǎn)品經(jīng)理對(duì)場(chǎng)景的定義,存在漏定義、定義錯(cuò)的情況;并且在通過(guò)TTS引導(dǎo)用戶的角度看,當(dāng)前所有的車企方案較少考慮到這一點(diǎn)。

四、車載TTS的重要指標(biāo)

車載TTS的評(píng)價(jià)指標(biāo)沿用語(yǔ)音業(yè)界的MOS評(píng)價(jià)方式,即邀請(qǐng)聽音人試聽合成語(yǔ)音,根據(jù)分值描述,從擬人性、連貫性、韻律感等方面為語(yǔ)音選擇合適的分?jǐn)?shù),通常主要的指標(biāo)為:

  1. 韻律準(zhǔn)確度;
  2. 端云音色相似度;
  3. 發(fā)音準(zhǔn)確度;
  4. 發(fā)音清晰度。

但是以上指標(biāo)主要都是針對(duì)TTS發(fā)音的問(wèn)題,在實(shí)際測(cè)試的過(guò)程中,也會(huì)對(duì)TTS反饋的語(yǔ)料準(zhǔn)確性、是否合適等進(jìn)行測(cè)試,通常單一問(wèn)題單一解決。

五、語(yǔ)音TTS遇到的典型問(wèn)題

  1. 端云變化:在汽車行駛過(guò)程中,進(jìn)入隧道或停車場(chǎng)等場(chǎng)景時(shí),車輛的網(wǎng)絡(luò)狀態(tài)會(huì)切換為弱網(wǎng)/無(wú)網(wǎng)狀態(tài),此時(shí)云端的語(yǔ)音資源就會(huì)切換為本地資源,切換順滑度、音色相似度等都是典型問(wèn)題;
  2. 多音字發(fā)音錯(cuò)誤:機(jī)器未準(zhǔn)確識(shí)別語(yǔ)境,發(fā)音錯(cuò)誤;
  3. 斷句錯(cuò)誤:遇到?jīng)]有標(biāo)點(diǎn)符號(hào)或者標(biāo)點(diǎn)符號(hào)錯(cuò)誤的文本,機(jī)器未能識(shí)別,形成斷句錯(cuò)誤;
  4. 方言表達(dá)不地道:機(jī)器直接采用了文本的發(fā)音,未轉(zhuǎn)換成方言發(fā)音。

例:

早上好,粵語(yǔ)應(yīng)該說(shuō)zou sen,而TTS會(huì)直接說(shuō)早上好(粵語(yǔ)音調(diào))。

沒有,粵語(yǔ)應(yīng)該說(shuō)冇,而TTS會(huì)直接說(shuō)沒有(粵語(yǔ)音調(diào))。

六、產(chǎn)品角度看車載TTS

1. 車載TTS的商業(yè)價(jià)值

車機(jī)作為第三個(gè)屏幕,其運(yùn)營(yíng)是一個(gè)說(shuō)了很久的話題,但是目前真正在車機(jī)上實(shí)現(xiàn)商業(yè)化運(yùn)營(yíng)價(jià)值的車企卻沒有,而風(fēng)格化回復(fù)語(yǔ),沒有安全性、政策等因素的限制,是目前能看到落地最快的方向之一,并且運(yùn)營(yíng)價(jià)值,如果能保證較低成本形成風(fēng)格化回復(fù)語(yǔ)的情況下,對(duì)于具備較多智能存量車的車企來(lái)說(shuō),在我個(gè)人角度上來(lái)看為高。

2. 大模型對(duì)車載TTS可能的影響

一是個(gè)性化定制成本降低:大模型通過(guò)大量的數(shù)據(jù)學(xué)習(xí),理想中可以快速對(duì)一些特定形象進(jìn)行學(xué)習(xí),降低學(xué)習(xí)成本,例如影視作品的角色,形成具有該角色風(fēng)格的回復(fù)語(yǔ)。

二是更加快速合成結(jié)合業(yè)務(wù)的風(fēng)格回復(fù)語(yǔ):車載TTS更多的是結(jié)合業(yè)務(wù)的場(chǎng)景,例如導(dǎo)航去天安門、打開車門等,大模型結(jié)合業(yè)務(wù)將實(shí)現(xiàn)更加多變、準(zhǔn)確、有趣的回復(fù)。

本文由@加飯 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 您好,看了您的文章,我感覺受益匪淺,有個(gè)疑問(wèn)想請(qǐng)教一下您,看您提到語(yǔ)音TTS可能會(huì)遇到“機(jī)器直接采用了文本的發(fā)音,不能轉(zhuǎn)換為方言發(fā)音”,想請(qǐng)問(wèn)轉(zhuǎn)化成為粵語(yǔ)句式結(jié)構(gòu)的中文文本后,不能直接對(duì)應(yīng)成粵語(yǔ)的發(fā)音嗎?

    來(lái)自上海 回復(fù)
专题
12047人已学习15篇文章
本专题的文章分享了如何制定业务指标?
专题
12253人已学习16篇文章
栅格系统在页面排版布局、尺寸设定方面给了设计者直观的参考,它让页面设计变得有规律,从而减少了设计决策成本。本专题的文章分享了浅析栅格系统。
专题
37344人已学习13篇文章
市场调研是帮助他们更好地了解自己、了解用户、了解市场。
专题
12827人已学习12篇文章
营销数字化与数字化营销,是两个不同的概念,很多容易混淆。本专题的文章分享了关于营销数字化的解读。
专题
45221人已学习12篇文章
产品经理和运营都要懂一点的推荐算法基础和进阶知识
专题
19649人已学习13篇文章
如何通过广告模式来进行商业化流量变现?本专题的文章提供了广告变现的思路。