偷拍自怕亚洲ckplayer,初高中生啪啪网站汐汐最迷人,午夜成人鲁丝片午夜精老熟女

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

Voice Agent：AI 時(shí)代的交互界面，下一代 SaaS 入口

海外獨(dú)角獸

2024-07-29

1 評(píng)論 1987 瀏覽 2 收藏

🔗 产品经理的职业发展路径主要有四个方向：专业线、管理线、项目线和自主创业。管理线是指转向管理岗位，带一个团队..

隨著人工智能技術(shù)的飛速發(fā)展，語(yǔ)音交互已經(jīng)成為新一代人機(jī)交互界面的重要組成部分。與傳統(tǒng)的文本交互相比，語(yǔ)音交互以其直觀、低能耗的優(yōu)勢(shì)，為用戶提供了更為便捷的體驗(yàn)。本文將深入探討語(yǔ)音代理（Voice Agent）在實(shí)時(shí)性、準(zhǔn)確性和創(chuàng)造性方面的要求，分析其在各個(gè)場(chǎng)景中的應(yīng)用前景，并識(shí)別出值得高度關(guān)注的創(chuàng)業(yè)及投資機(jī)會(huì)。

Voice agent 是與人類進(jìn)行對(duì)話溝通的 AI，是下一代人機(jī)交互界面。??

和文本相比，聲音交互的優(yōu)勢(shì)主要體現(xiàn)在：

? 語(yǔ)音交互以其與人類自然溝通方式的高度一致性，提供了一種更為直觀和低能耗的交互體驗(yàn)，而打字文本交互的使用門檻更高；

? 語(yǔ)音交互非常適合于簡(jiǎn)短、即時(shí)的信息交流；

? Text copilot 往往需要人機(jī)協(xié)作，最后一公里由人類完成，voice agent 一旦落地將徹底替代人類，獨(dú)立完成交流任務(wù)。?

以上差異使 voice agent 能產(chǎn)生不同于其他模態(tài)的價(jià)值，所以我們選擇 voice agent 作為獨(dú)立市場(chǎng)進(jìn)行研究。

GPT-4o 是第一個(gè)實(shí)現(xiàn)端到端 voice-in, voice-out 的大模型，低延遲、高智能使下一代交互成為可能。傳統(tǒng)語(yǔ)音中 ASR + NLP（即使被替換為 LLM） + TTS 的延遲是用戶難以接受的，且很難沿著 scaling law 產(chǎn)生足夠智能的對(duì)話體驗(yàn)。GPT-4o 的出現(xiàn)讓新的交互形態(tài)成為可能，帶來(lái)了更多應(yīng)用場(chǎng)景的想象。

什么是B端产品经理？和C端产品经理有什么区别？

B端产品经理中的B是Business，商业的意思，B端产品经理首先就要理解这个职位的重要性，要设计出更适合这个项目需求的产品方案，B最终产品经理在日常工作中...

查看详情 >

本篇研究中，我們根據(jù)不同場(chǎng)景對(duì)于實(shí)時(shí)性、準(zhǔn)確性、創(chuàng)造性的不同要求搭建了分析 voice agent 能力稟賦框架，識(shí)別出了值得高度關(guān)注的創(chuàng)業(yè)及投資機(jī)會(huì)：短期內(nèi)，我們較看好開(kāi)發(fā)者工具和面向垂直領(lǐng)域的 voice agent workflow，長(zhǎng)期則更期待消費(fèi)者端“Killer app”的出現(xiàn)。

01 Voice Agent 全景圖

為了快速框定出端到端模型出現(xiàn)后什么領(lǐng)域會(huì)有劇烈變化、什么領(lǐng)域不會(huì)，我們搭建了以下框架來(lái)分析聲音領(lǐng)域的不同場(chǎng)景需求。?

象限分類標(biāo)準(zhǔn)：1）縱軸是該場(chǎng)景是否對(duì)實(shí)時(shí)性敏感，上方的需要實(shí)時(shí)在線的回答，下方的可以離線完成聲音制作。2）橫軸是區(qū)分該場(chǎng)景準(zhǔn)確度還是創(chuàng)造力更重要，左側(cè)的要求 voice agent 能精準(zhǔn)的解決問(wèn)題或念出文稿，右側(cè)的需要 voice agent 更有創(chuàng)造力和表現(xiàn)力，能給出隨機(jī)應(yīng)變的回答。

? 第一象限（右上）：是端到端模型帶來(lái)最大積極影響的。需要實(shí)時(shí)回答，但對(duì) AI 交流內(nèi)容的容錯(cuò)率和自由度比較高，典型的場(chǎng)景有：陪伴、心理療愈。

? 第二象限（左上）：同時(shí)要求實(shí)時(shí)回答和高準(zhǔn)確度，目前是落地難度最大的場(chǎng)景，需要像真人一樣可靠。這需要通過(guò)對(duì) latency 和 RAG workflow 的極致優(yōu)化，常見(jiàn)場(chǎng)景有：call center、銷售、客服、教育。

? 第三象限（左下）：可以離線完成，但要求 voice agent 能按臺(tái)本發(fā)揮，因此是 TTS 技術(shù)最好的使用場(chǎng)景。常見(jiàn)場(chǎng)景：有聲書(shū)、短視頻配音、模板化外呼電話。

? 第四象限（右下）：這是一個(gè)想象空間比較大的領(lǐng)域，對(duì)創(chuàng)意要求高，但同時(shí)可以離線生成。目前比較常見(jiàn)的用例是：音樂(lè)生成、npc 語(yǔ)音生成。

根據(jù)以上分析框架，我們認(rèn)為有以下幾個(gè)值得高度關(guān)注的創(chuàng)業(yè)和投資機(jī)會(huì)。類比開(kāi)發(fā)軟件時(shí)，前端和后端必然是分離的。聲音領(lǐng)域前端的機(jī)會(huì)在于 TTS，后端的機(jī)會(huì)在于 enterprise workflow，同時(shí)也存在端到端的應(yīng)用機(jī)會(huì)：

1）療愈/陪伴類 voice agent（第一象限）：端到端模型解鎖下一代交互形態(tài)，在教育、陪伴等領(lǐng)域出現(xiàn) killer app。

2）Enterprise workflow（第二象限）：企業(yè)使用時(shí)最大的痛點(diǎn)在于如何解決 corner case（邊緣場(chǎng)景）的準(zhǔn)確性，planning & RAG workflow 在這里就非常重要。同時(shí)，加入了 RAG 之后如何優(yōu)化 latency 提升用戶體驗(yàn)也很關(guān)鍵

3）TTS（第三象限）：LLM 是大腦，但開(kāi)發(fā)者仍需要 interface 的可控性。11 Labs 這樣公司的價(jià)值持續(xù)存在。

前面我們提到 4o 這樣的端到端模型取代的是 ASR + LLM + TTS 的鏈路，那這幾個(gè)創(chuàng)業(yè)方向在整個(gè)工作流中處在什么位置？

我們根據(jù)目標(biāo)客戶將其分為開(kāi)發(fā)者（To Developer）,企業(yè)用戶（ To Enterprise）, 消費(fèi)級(jí)（To Customer）三個(gè)不同類型進(jìn)行梳理，這三個(gè)領(lǐng)域的成熟度和壁壘、價(jià)值各不相同。以下為結(jié)論，我們會(huì)在第二部分進(jìn)行詳細(xì)分析說(shuō)明。???????????

To Developer:

? 定義：指的是面向開(kāi)發(fā)者的 API 或開(kāi)發(fā)平臺(tái)，包含 tts 那樣的單點(diǎn)模型、也包括把各 API 連接起來(lái)的平臺(tái)公司。

? 價(jià)值：高短期價(jià)值，所有需要搭建 voice agent 的團(tuán)隊(duì)都需要快速搭建的工具來(lái)縮短開(kāi)發(fā)周期；長(zhǎng)期價(jià)值不明確，業(yè)務(wù)真正依賴 voice agent 的公司最終一定會(huì)選擇自建。

? 壁壘：中，其中部分公司有一定的技術(shù)壁壘，部分公司只是其他技術(shù)產(chǎn)品的連接器?？赡鼙籩2e大模型顛覆。

? 重要方向：TTS，emotion engine，RTC，F(xiàn)ull stack platform

? 值得關(guān)注的公司：

11labs：作為海外獨(dú)角獸持續(xù)追蹤的公司，我們認(rèn)為 11 labs 是目前最好的 TTS 公司，它憑借完勝競(jìng)品的聲音克隆體驗(yàn)和聲音質(zhì)量獲得了市場(chǎng)的關(guān)注和認(rèn)可，業(yè)務(wù)收入增長(zhǎng)迅速；

Hume AI：唯一相對(duì)成熟的 emotion engine，比 4o 更早實(shí)現(xiàn)了有高質(zhì)量語(yǔ)義情感的對(duì)話；

LiveKit：GPT-4o RTC 方案提供者；

Bland AI：Full stack 平臺(tái)中自有模型方案最成熟的公司；

Retell AI：Full stack 平臺(tái)中用戶體驗(yàn)較好的公司。

To Enterprise：

? 定義：面向企業(yè)用戶的 voice agent，既包括為銷售、醫(yī)療等垂直領(lǐng)域設(shè)計(jì)的 AI phone agent，也包括企業(yè)端的無(wú)代碼平臺(tái)。兩者邊界比較模糊。

? 價(jià)值：長(zhǎng)短期價(jià)值均一般，能夠替代臨時(shí)工提供的人力服務(wù)，其精確性尚未達(dá)到標(biāo)準(zhǔn)；長(zhǎng)期因?yàn)槭袌?chǎng)比較 fragmented，最多也只能在某一個(gè)垂直行業(yè)中占據(jù)比較大的份額。

? 壁壘：中等，壁壘主要來(lái)自于 GTM 和業(yè)務(wù) SOP 積累，其他主要依賴模型能力提升。

? 重要方向：Sales and Customers agent, Training and Recruiting

? 值得關(guān)注的公司：

Sierra：Sequoia、Benchmark 投資, 團(tuán)隊(duì)實(shí)力強(qiáng)，資源豐富；

Sema4.ai：Benchmark 和 Mayfield Fund 領(lǐng)投, 團(tuán)隊(duì)實(shí)力較強(qiáng)；

Kore.ai：雖然是相對(duì)傳統(tǒng)的 AI 客服公司，但 Kore.ai 的業(yè)務(wù)綜合表現(xiàn)在整個(gè)領(lǐng)域中仍相對(duì)靠前；

Cognigy：創(chuàng)立于 2016 年、位于歐洲，值得關(guān)注的是它在過(guò)去幾年中實(shí)現(xiàn)了三位數(shù)的增長(zhǎng)；

Hyperbound：AI 銷售角色扮演平臺(tái)，使用 voice agent 技術(shù)模擬真實(shí)的買家對(duì)話，幫助銷售團(tuán)隊(duì)提高電話銷售技巧。

To Customer:

? 定義：面向消費(fèi)者的語(yǔ)音交互應(yīng)用，例如 AI 陪伴、療愈師、語(yǔ)言老師，甚至 AI 交互硬件。

? 價(jià)值：短期內(nèi)較低，目前商業(yè)化價(jià)值尚不明確，還在探索下一代交互的過(guò)程中。但長(zhǎng)期價(jià)值高，可能出現(xiàn)下一個(gè) AI-native killer app。

? 壁壘：中~高，讓用戶交流更流暢的產(chǎn)品形態(tài)和用戶數(shù)據(jù)是其主要壁壘。如果出現(xiàn)更明確的數(shù)據(jù)飛輪，將有強(qiáng)規(guī)模效應(yīng)。

? 重要方向：心理療愈，教育和陪伴。

? 值得關(guān)注的公司：

Sonia：除了看好 voice agent 在心理療愈領(lǐng)域的應(yīng)用外，Sonia 的團(tuán)隊(duì)背景也較為亮眼；

Clare&Me：看好 voice agent 在心理療愈領(lǐng)域的應(yīng)用，歐洲市場(chǎng)廣闊。

02 具體環(huán)節(jié)分析

To Developer: 機(jī)會(huì)來(lái)自搭建 voice agent 的核心要素

AI voice agent 的搭建鏈路很長(zhǎng)，把這些工具組合起來(lái)讓 voice agent work 并不容易。這個(gè)領(lǐng)域創(chuàng)業(yè)公司的核心價(jià)值就是使開(kāi)發(fā)者更快地開(kāi)發(fā)出一個(gè)高質(zhì)量的 voice agent，而其中最重要的變量是端到端模型。

1. 端到端多模態(tài)模型

GPT-4o 作為多模態(tài)端到端模型有著很驚艷的效果：低延遲、真實(shí)情感表達(dá)、很強(qiáng)的語(yǔ)義理解能力。未來(lái)可以同時(shí)用于 entertainment & productivity 場(chǎng)景，作為每個(gè)人的朋友和工作助理，想象空間巨大。同時(shí)，對(duì) voice agent 的落地還有幾個(gè)關(guān)鍵問(wèn)題：

關(guān)鍵問(wèn)題1：voice agent 是否真的能在企業(yè)用例上落地？

端到端模型降低 latency 的同時(shí)也降低了可控性，這是企業(yè)端落地的重要阻礙：enterprise 使用時(shí)需要精確的內(nèi)容輸出，此時(shí)就需要 decompose 和 RAG 的加入。這對(duì)端到端模型并不友好，因?yàn)槠溲舆t優(yōu)勢(shì)會(huì)被 RAG 弱化，這時(shí)可控性、精確度和低延遲成了不可能三角。

在強(qiáng)領(lǐng)域知識(shí)的場(chǎng)景，可能需要端到端、易于微調(diào)的開(kāi)源模型（可能是 Llama 3 8b 的語(yǔ)音版），才能讓 voice agent 真正落地。這時(shí) Workflow 搭建很重要，用于解決 corner case 的精確性。

關(guān)鍵問(wèn)題2：GPT-4o 以什么形式、什么時(shí)間開(kāi)放 API ？

對(duì)于 to developer 的公司其 API 的開(kāi)放時(shí)間和形式可能是最大的變數(shù)。目前端到端 model 推理成本相比傳統(tǒng)方法明顯更貴，這讓 API 甚至今年內(nèi)可能都不會(huì)開(kāi)放。如果 OpenAI 將語(yǔ)音輸入輸出的接口也開(kāi)放了，F(xiàn)ull stack 的平臺(tái)價(jià)值會(huì)降低，voice agent 的技術(shù)棧會(huì)變成 LLM (+emotion engine/ TTS) + streaming service。

如果 API 能開(kāi)放多模態(tài)輸出的 API，語(yǔ)音+文字雙重輸出可以解決問(wèn)題 1 中的 RAG 問(wèn)題。先輸出一部分文字開(kāi)始對(duì)話的前半部分，在說(shuō)話的過(guò)程中完成一次 RAG，這樣可以基本避免 latency 問(wèn)題。

關(guān)鍵問(wèn)題3：端到端模型如何改變 voice agent 工作流？

GPT-4o 的出現(xiàn)把工作流中的很多步驟給簡(jiǎn)化了。在端到端模型出現(xiàn)前，要搭建一個(gè)好的 voice agent 鏈條很長(zhǎng)：

? VAD 識(shí)別發(fā)言時(shí)機(jī)：

voice agent 需要判斷何時(shí)用戶說(shuō)完了內(nèi)容、合適插入對(duì)話，以確保足夠互動(dòng)自然。這一領(lǐng)域的算法稱為 VAD，voice automatic detection，在 LLM 出現(xiàn)前就有相關(guān)技術(shù)。

從官方 demo 中，我們能感受到 GPT-4o 的涌現(xiàn)能力對(duì)之前的技術(shù)降維打擊，尚不清楚 4o 中這一模塊是外置模塊（可能是類似 speculative encoding 那樣的 oracle model ）還是 LLM 自身的能力。

? ASR 音頻轉(zhuǎn)文字：

這一領(lǐng)域的技術(shù)供給一直比較穩(wěn)定，但端到端 LLM 會(huì)對(duì)這一類模型的能力產(chǎn)生降維打擊：以更快的實(shí)時(shí)性做到高質(zhì)量的語(yǔ)義理解。

這個(gè)領(lǐng)域的代表公司包括：Assembly AI，OpenAI（Whisper 是開(kāi)源SOTA）

? LLM 生成回答：

即使用 LLM 理解用戶意圖，生成自然的回答文本。這個(gè)過(guò)程中需要對(duì)回答推理步驟進(jìn)行 planning 拆解問(wèn)題，再用 RAG 從專有數(shù)據(jù)庫(kù)中檢索回答中的相關(guān)概念。要實(shí)現(xiàn)這一點(diǎn)就要求 LLM 要了解對(duì)解決問(wèn)題需要執(zhí)行的操作，比如下單退貨指令，并用 function call 能力分發(fā)至對(duì)應(yīng)任務(wù)上等。

? TTS 文本轉(zhuǎn)聲音：

TTS 將文本轉(zhuǎn)換為自然的語(yǔ)音輸出。這里可以加入更有感情和表現(xiàn)力的聲音，也可以加入固定的音色。

TTS 公司的業(yè)務(wù)主要替代傳統(tǒng)配音市場(chǎng)（有聲書(shū)、翻譯等），離線的個(gè)人創(chuàng)作者內(nèi)容生產(chǎn)。而 voice agent 則對(duì)實(shí)時(shí)性要求非常高，因此當(dāng)前 TTS 和 voice agent 相關(guān)度還比較低。兩者對(duì) voice 評(píng)估的目標(biāo)不同，11labs 客戶要求的是高質(zhì)量的聲音，而 voice agent 用戶要求的是高質(zhì)量的語(yǔ)義回答和 low latency。需求的不同讓 11labs 相對(duì)難被沖擊到，interface 層不會(huì)直接被 LLM 大腦沖擊到。

關(guān)于 GPT-4o 的影響，使用 4o 不一定必須用其自帶的 TTS。TTS 位于大模型內(nèi)，對(duì)開(kāi)發(fā)者不太友好。客戶可能需要更多樣化的聲音模式，如定制化或卡通化風(fēng)格。未來(lái)最值得關(guān)注的是 4o API 是否同時(shí)支持Voice 和 Text 雙頭輸出。

代表公司：11labs，Wellsaid，play.ht

? 讓對(duì)話更加生動(dòng)的情感引擎（Emotion engine）：

Voice agent 在客服、陪伴等場(chǎng)景中都非常需要理解人類的情感表達(dá)，并盡可能模擬出人類表達(dá)時(shí)的情感，支持這樣能力的技術(shù)便被稱為 emotion engine。

代表公司 Hume AI 是目前唯一效果不錯(cuò)的 emotion engine。Hume AI 的 API 接口背后是一個(gè)“共情大模型”（eLLM）驅(qū)動(dòng)，它能夠完成情感理解、共情回應(yīng)、通過(guò)個(gè)性化建議和干預(yù)幫助用戶管理情感。Hume AI 不是端到端模型，可以結(jié)合其他 LLM一起使用

但 emotional engine 方向最大的風(fēng)險(xiǎn)在于被涌現(xiàn)能力顛覆。GPT-4o 向我們證明了學(xué)習(xí)足夠多對(duì)話數(shù)據(jù)的端到端多模態(tài)模型自己能涌現(xiàn)出對(duì)人類情感的模仿能力，Hume 的能力很可能被降維打擊。

代表公司：Hume AI

? 用RTC 降低 streaming latency：

這類技術(shù)接口的價(jià)值是降低 LLM 交互的速度，讓其交互對(duì)用戶更絲滑無(wú)感。Voice agent 需要選用合適的 streaming service 來(lái)降低 voice agent 對(duì)話的延遲，例如 OpenAI 選擇 livekit 來(lái)降低 latency，Bland 選擇 Twillo 來(lái)接入各類語(yǔ)音電話。

LLM 需要實(shí)時(shí)接收用戶的音頻。由于人和 AI 都無(wú)法加速產(chǎn)生內(nèi)容，為了減少 100-200 毫秒的延遲，RTC是必須的解決方案。對(duì)于用戶的溝通文本，decoder-only transformer 無(wú)法提前讀入內(nèi)容，但 RTC 可以保證其在讀入內(nèi)容和輸入內(nèi)容時(shí)的 latency 被降到足夠低，且不同人物之間可以有并行處理和加速。

考慮到 RTC 是一個(gè)已經(jīng)發(fā)展了十年的技術(shù)，其能力已經(jīng)相對(duì) commoditize了。對(duì)于 OpenAI 這樣的團(tuán)隊(duì)，未來(lái)更有可能的是選擇招聘團(tuán)隊(duì)自建更完備的系統(tǒng)。這類玩家更可能的客戶是受到 OpenAI 名聲影響到的 voice agent applications。

代表公司：LiveKit

總的來(lái)說(shuō)，在整個(gè) vocie agent 的 workflow 中，每一個(gè)模塊，都出現(xiàn)了一些重要公司：

Source: a16z

2. Full stack 平臺(tái)

除了圍繞 voice agent 的技術(shù)鏈條提供服務(wù)外，還有一類公司是將以上各個(gè)環(huán)節(jié)打通的 Full stack 平臺(tái)。值得一提的是，這是在 GPT-4o 前就出現(xiàn)的產(chǎn)品形態(tài)，幫開(kāi)發(fā)者快速把 ASR + LLM + TTS 的鏈路打通?？梢约?xì)分為以下兩類，核心區(qū)別在于是否自己訓(xùn)練模型：

? End2end infra：自己訓(xùn)練模型，端到端完成所有任務(wù)的公司，從轉(zhuǎn)錄、推理、文本到語(yǔ)音，到構(gòu)建決策圖和可配置的函數(shù)調(diào)用和 API 請(qǐng)求。

這個(gè)板塊的代表公司 Bland AI 是一家專注于托管客戶微調(diào)模型棧并提供低延遲通話解決方案的公司，為開(kāi)發(fā)者和企業(yè)定制化語(yǔ)音代理以適應(yīng)特定用例。其核心產(chǎn)品是一個(gè)多功能的 AI Phone API，能夠自動(dòng)化和管理各類電話呼叫，包括出站和入站呼叫、對(duì)話能力、合規(guī)工具、可擴(kuò)展性以及與現(xiàn)有系統(tǒng)的無(wú)縫集成。Bland AI致力于構(gòu)建 AI 呼叫中心，通過(guò)將語(yǔ)音轉(zhuǎn)換為文本并快速生成回應(yīng)，同時(shí)在 LLM 中構(gòu)建防護(hù)措施以降低風(fēng)險(xiǎn)。該公司采用訂閱模式，提供從每分鐘 0.07 美元起的定價(jià)，已獲得Acacia Venture Capital Partners、Team Ignite Ventures和Y Combinator的投資。

? Middleware router：中間件層，不自己訓(xùn)練模型而是將不同組件串聯(lián)起來(lái)。幫助企業(yè)提高了靈活性，能以最快的方式選擇自己合適的模型并將其開(kāi)發(fā)為 voice agent。

在11labs 客服訪談中，我們看到有不少客戶選用 11labs 作為tts，和其他 API 一起使用，往往就采用了中間件或自建基站，而不是上文的 Full stack 平臺(tái)一體化基建。

例如， Verizon Communications 利用 11labs 為在野外工作的工程師建立 AI agent，使得工程師可以通過(guò)手機(jī)應(yīng)用程序與聊天機(jī)器人交流，通過(guò)語(yǔ)音來(lái)接收信息。

作為中間件的代表公司，Retell AI 提供用于構(gòu)建對(duì)話式語(yǔ)音 AI 代理的中間件解決方案。API 主要功能包括語(yǔ)音穩(wěn)定性控制、實(shí)時(shí)自動(dòng)語(yǔ)音識(shí)別（ASR）轉(zhuǎn)錄、自定義語(yǔ)音以及即將推出的情感分析和環(huán)境噪聲添加等，團(tuán)隊(duì)由前字節(jié)跳動(dòng)/TikTok 產(chǎn)品經(jīng)理，Google 軟件工程師，Meta 項(xiàng)目經(jīng)理和技術(shù)主管組成。包括 Y Combinator 在內(nèi)的投資者已經(jīng)為 Retell 投資了總計(jì)453 萬(wàn)美元的資金。

To B: 新一代 Saas 入口

語(yǔ)音是進(jìn)入核心客戶行為（如預(yù)訂、續(xù)約、報(bào)價(jià)等）的自然入口。如果下一代SaaS解決方案能夠充分利用voice agent技術(shù)，那么在2B領(lǐng)域，它們將擁有較大的增長(zhǎng)潛力和市場(chǎng)優(yōu)勢(shì)。

大部分語(yǔ)音對(duì)話不需要很高的智能程度，相反，它們更依賴于對(duì)上下文的理解、隨時(shí) on call 以及對(duì)客戶需求的快速響應(yīng)。有了可靠的 voice agent，企業(yè)就不再需要人工接線員來(lái)工具式地打電話，可以節(jié)省大量時(shí)間和成本。由于 To B voice agent 就是與客戶溝通的電子員工，需要了解很多相關(guān)領(lǐng)域的背景知識(shí)，因此這一個(gè)領(lǐng)域是垂直公司的機(jī)會(huì)。

以下是一些關(guān)鍵因素，解釋了為什么垂直領(lǐng)域存在市場(chǎng)機(jī)會(huì)：

? 呼叫類型、語(yǔ)氣和內(nèi)容結(jié)構(gòu)：不同行業(yè)的客戶互動(dòng)具有特定的模式和風(fēng)格。語(yǔ)音代理需要根據(jù)行業(yè)特點(diǎn)調(diào)整其溝通方式。比如語(yǔ)調(diào)、內(nèi)容結(jié)構(gòu)；?

? 數(shù)據(jù)集成和工作流：每個(gè)垂直領(lǐng)域都有其獨(dú)特的數(shù)據(jù)管理和工作流程；?

? GTM 策略（GTM）和 killer feature：需要具備能夠解決特定行業(yè)痛點(diǎn)的能力。

? 邊緣場(chǎng)景難度：將電話交給AI的質(zhì)量標(biāo)準(zhǔn)非常高。這些公司最關(guān)鍵的任務(wù)就是去解決垂直領(lǐng)域里的邊緣場(chǎng)景，例如通用模型可能會(huì)誤解的獨(dú)特詞匯。

? 法規(guī)和許可：一些語(yǔ)音代理公司面臨特殊的限制和認(rèn)證需求。例如，醫(yī)療保健領(lǐng)域需要遵守 HIPAA 合規(guī)性，銷售領(lǐng)域也出現(xiàn)了針對(duì) AI 冷呼叫的國(guó)家級(jí)別的法規(guī)。

為什么 To B 場(chǎng)景下的垂直解決方案相對(duì)難被端到端模型顛覆？

在垂直場(chǎng)景中真正解決問(wèn)題，需要做嚴(yán)謹(jǐn)?shù)?RAG 和任務(wù)規(guī)劃，因此并不適合端到端模型一次生成。通常的過(guò)程是先通過(guò)文本內(nèi)容 retrieve 相關(guān)信息，再次生成文字和進(jìn)行 TTS。這時(shí)端到端模型的 latency 優(yōu)勢(shì)就不再了，關(guān)鍵難點(diǎn)在于領(lǐng)域數(shù)據(jù)和 workflow 的推理。

1. 企業(yè)工作流

企業(yè)工作流領(lǐng)域的公司不局限于特定行業(yè)、特定場(chǎng)景，而是跨行業(yè)提供服務(wù)，但目前主要應(yīng)用場(chǎng)景仍為 sales/support。他們以 low code 平臺(tái)或 SaaS 的形式提供服務(wù)。

我們根據(jù)銷售工作流，可以將 AI 客服分為幾類:

1）營(yíng)銷類外呼：售前場(chǎng)景因?yàn)閷?duì)于模型的理解和智能能力要求較低，是目前比較好的落地場(chǎng)景。Voice agent可以帶來(lái)更自然的對(duì)話體驗(yàn)，同時(shí)能夠結(jié)合分析歷史通話數(shù)據(jù)，實(shí)現(xiàn)營(yíng)銷轉(zhuǎn)化的提高。如果遇到太難的問(wèn)題，LLM 也可以檢測(cè)后發(fā)給普通的客服。

2）銷售中：目前LLM還比較少的被應(yīng)用到直面leads，因?yàn)槭苣芰ο拗?，失敗了損失過(guò)大。但被充分應(yīng)用于客服培訓(xùn)中，一方面節(jié)省了因?yàn)殡婁N頻繁離職導(dǎo)致的過(guò)多培訓(xùn)時(shí)間成本；另一方面可以做到知識(shí)庫(kù)實(shí)時(shí)對(duì)齊，成為電銷的語(yǔ)音 copilot。

3）投訴/售后服務(wù)、客戶回訪：AI 可以幫助客服收集客戶投訴，解決簡(jiǎn)單的售后服務(wù)問(wèn)題。同時(shí)可以進(jìn)行大規(guī)模的客戶回訪，也開(kāi)始被企業(yè)廣泛的采用。

代表公司：傳統(tǒng)公司以 Parloa、Kore AI 為代表；新興公司則包括 Sierra，Sema4.ai

Sierra 專注于為企業(yè)打造 AI Phone Agent，提供基于 autonomous agents 理念的軟件，結(jié)合多個(gè)模型生成響應(yīng)。由 Salesforce 前高管 Bret Taylor 和 Google 前VR負(fù)責(zé)人Clay Bavor創(chuàng)立，已獲得Sequoia和Benchmark 等投資方 1.1 億美元融資。公司采用基于結(jié)果的定價(jià)策略，客戶僅在問(wèn)題解決時(shí)付費(fèi)。WeightWatchers 利用 Sierra AI 提高了客戶服務(wù)效率和質(zhì)量，實(shí)現(xiàn)了高客戶滿意度和問(wèn)題解決率。

2. Training and Recruiting

Training and Recruiting 是值得關(guān)注的另一大模塊。

GPT-4o 可能預(yù)示著新一代解決方案的到來(lái)。引入 voice agent 技術(shù)有助于企業(yè)降低成本并提高效率。值得注意的是，該領(lǐng)域的專業(yè)性非常強(qiáng)，因?yàn)椴煌袠I(yè)的培訓(xùn)內(nèi)容和面試測(cè)試有不同的需求。企業(yè)培訓(xùn)市場(chǎng)覆蓋了技術(shù)培訓(xùn)、軟技能開(kāi)發(fā)、質(zhì)量培訓(xùn)、合規(guī)培訓(xùn)等多個(gè)細(xì)分領(lǐng)域，服務(wù)于零售、醫(yī)療保健、金融服務(wù)、IT 等多個(gè)垂直行業(yè)。

根據(jù) Global Industry Research 研究，Corporate Training Market 市場(chǎng)規(guī)模在2024年估計(jì)為 1331 億美元，并預(yù)計(jì)在預(yù)測(cè)期內(nèi)以 9.47% 的復(fù)合年增長(zhǎng)率增長(zhǎng)。而 Polaris 調(diào)研 Recruitment Process Outsourcing (RPO) 市場(chǎng)在2023年的市場(chǎng)規(guī)模為 87.5 億美元，預(yù)計(jì)到 2032 年將達(dá)到 333.4 億美元。在這一市場(chǎng)中，頭部培訓(xùn)公司包括 Skillsoft、LinkedIn Learning（微軟）、Pluralsight、Cornerstone OnDemand、Udemy for Business等。同時(shí)，頭部RPO公司有Cielo、Randstad Sourceright、Korn Ferry、Alexander Mann Solutions (AMS)。盡管市場(chǎng)存在一些頭部企業(yè)，但并沒(méi)有形成壟斷，為創(chuàng)新公司提供了機(jī)會(huì)。招聘方向的創(chuàng)業(yè)公司如 HeyMilo、Interviewer.AI；在培訓(xùn)方向的Hyperbound和moctalk 等公司值得關(guān)注。

如 Hyperbound 是一個(gè)利用 AI 和 voice agent 的 AI 銷售角色扮演平臺(tái)，通過(guò)模擬真實(shí)買家對(duì)話來(lái)提升銷售團(tuán)隊(duì)的電話銷售技巧。該平臺(tái)通過(guò) AI 買家模擬、角色扮演練習(xí)，快速提升銷售代表的熟練程度，加速新員工入職，提高轉(zhuǎn)化率，并減少練習(xí)過(guò)程中對(duì)潛在客戶的負(fù)面影響。Hyperbound 還提供分析和反饋工具，幫助管理者評(píng)估和提升銷售團(tuán)隊(duì)表現(xiàn)。團(tuán)隊(duì)由銷售教練、AI 工程師以及前 Salesforce Einstein 工程師組成。

To C: AI 時(shí)代的交互界面

To C 產(chǎn)品的主要邏輯是，將昂貴或難以獲得的人類服務(wù)，且是基于對(duì)話且可以在線完成的，替換為 AI，主要場(chǎng)景包括心理療愈、輔導(dǎo)、陪伴等。

早期的 AI 陪伴等應(yīng)用主要基于文字，如 character.ai，但文字形態(tài)的用戶門檻高一直限制著用戶規(guī)模。聲音比文字增加的維度：音色、情緒，讓用戶與 chatbot 交互的使用成本大幅降低。

1. Consumer Apps

對(duì)于 comsumer apps，未來(lái)可預(yù)見(jiàn)的確定性變化，其一是成本會(huì)大幅度降低，甚至降低 99%，從而帶來(lái)用戶規(guī)模的擴(kuò)大。對(duì)于現(xiàn)階段的 AI 教育、陪伴、心理療愈這些產(chǎn)品，如 Duolingo Max、Speak、praktika 等普遍由于 LLM 及 TTS 調(diào)用成本過(guò)高，限制了大規(guī)模的采用。如果調(diào)用成本大幅度降低，將使得企業(yè)能夠以更低的價(jià)格提供服務(wù)。

其二是由于 GPT-4o 新架構(gòu)的采用、webrtc 優(yōu)化， latency 將繼續(xù)降低，帶來(lái)更自然的交互，那么對(duì)于 c 端實(shí)時(shí)、擬人程度要求高的場(chǎng)景，也有較大的效果提升。

具體有 4 個(gè)應(yīng)用場(chǎng)景：

面向成人的教育應(yīng)用：成人教育目前主要以語(yǔ)言學(xué)習(xí)應(yīng)用為主，而語(yǔ)言學(xué)習(xí)也正是目前最適合通過(guò)語(yǔ)音交互進(jìn)行的領(lǐng)域，因此我們認(rèn)為 vocie agent 的發(fā)展可以讓這個(gè)領(lǐng)域直接受益。

面向兒童的教育應(yīng)用：除了語(yǔ)言學(xué)習(xí)外，在更高質(zhì)量的聲音輔助下，兒童學(xué)習(xí)伴侶的具象化和游戲化是創(chuàng)新的方向。

陪伴：Character.ai 和 ChatGPT Dan 的爆火已經(jīng)佐證了陪伴市場(chǎng)的潛力，但目前大多數(shù)應(yīng)用仍停留在簡(jiǎn)單的 AI 朋友或虛擬伴侶階段，未來(lái)的創(chuàng)新可能包括具象化、游戲化，以及將AI伴侶集成到硬件中，實(shí)現(xiàn)隨時(shí)隨地的陪伴。

心理療愈：心理療愈是陪伴場(chǎng)景的升級(jí)，其核心在于情緒疏導(dǎo)和心理健康支持，但因?yàn)槭轻t(yī)療場(chǎng)景，所以關(guān)鍵挑戰(zhàn)在于合規(guī)性和避免幻覺(jué)問(wèn)題。

與 Gen-AI 結(jié)合的具體案例：

1）Praktika.AI

? 產(chǎn)品：Praktika 使用 GPT-4+Unity Avatars+11labs，創(chuàng)建 voice agent 形式的 AI tutor，提供不同地域口音的 Avatar，模擬真實(shí)對(duì)話，幫助用戶克服語(yǔ)言障礙，提升溝通技巧；

? 差異：針對(duì)有實(shí)際英語(yǔ)溝通需求的用戶，如職業(yè)需求、出國(guó)留學(xué)等。與競(jìng)爭(zhēng)對(duì)手相比，Praktika 更注重真實(shí)對(duì)話的模仿，Avatar 是其特點(diǎn)。

2）Ello：

面向兒童的閱讀伴侶應(yīng)用程序，為幼兒園到三年級(jí)的孩子設(shè)計(jì)，提供與孩子閱讀水平和興趣相匹配的電子書(shū)籍和紙質(zhì)書(shū)籍，幫助孩子培養(yǎng)閱讀習(xí)慣。Adaptive Learn™ 是 Ello 的 AI 引擎，能夠像一對(duì)一的教師一樣理解、適應(yīng)并響應(yīng)每個(gè)孩子的需求。

3）Sonia：

開(kāi)發(fā)了 AI 驅(qū)動(dòng)的認(rèn)知行為治療師（CBT），提供語(yǔ)音和文本會(huì)話的心理健康治療服務(wù)。為用戶提供了成本效益高、可訪問(wèn)性強(qiáng)、隨時(shí)可用的心理健康治療解決方案，改善心理健康服務(wù)的可及性。

Sonia 通過(guò)手機(jī)應(yīng)用來(lái)提供完整的會(huì)話治療服務(wù)，用戶可以選擇語(yǔ)音或文本與 AI 治療師進(jìn)行交流，這一服務(wù)收費(fèi)為200 美元/年，和傳統(tǒng)的每次 200 美元的治療費(fèi)用，成本極低。

2. Hardware

To C 的另一個(gè)機(jī)會(huì)是基于 voice agent 的消費(fèi)級(jí)硬件，實(shí)時(shí)收集記錄用戶信息，實(shí)時(shí)交互反饋，成為更為具象的 personal assistant。但目前出現(xiàn)的出現(xiàn)的 humane、rabbit 的可用性、使用價(jià)值仍較差。

盡管尚未出現(xiàn)被廣泛認(rèn)可的“下一代硬件”，但該領(lǐng)域正積極嘗試開(kāi)發(fā)新產(chǎn)品。主要有兩種嘗試方向：首先是創(chuàng)造全新的、以語(yǔ)音交互為核心的硬件設(shè)備，如 Humane 和 rabbit ，這些產(chǎn)品旨在提供更加自然和直觀的用戶體驗(yàn)，但目前可用性、使用價(jià)值仍較差。市場(chǎng)上也出現(xiàn)了小型陪伴玩具，它們通過(guò)搭載 voice 交互能力，提供互動(dòng)性和娛樂(lè)性，例如 curio和 moxie 這樣的產(chǎn)品，不僅能夠吸引兒童的注意力，還能在一定程度上輔助教育和情感陪伴。

與 Gen-AI結(jié)合的具體案例：

因?yàn)榇蠹覍?duì) Humane 和 rabbit 已經(jīng)比較熟悉了，下面主要介紹兩款以 voice 為核心的游戲和陪伴類機(jī)器人：

1）Curio：

Curio Interactive Inc. 推出了 Grok、Grem和Gabbo 等 AI 玩具系列，這些玩具配備 WiFi、藍(lán)牙、揚(yáng)聲器和麥克風(fēng)，支持與兒童進(jìn)行語(yǔ)音或文本互動(dòng)，通過(guò)游戲和對(duì)話提升孩子的聽(tīng)力和交流技能，同時(shí)減少他們對(duì)屏幕的依賴。

2）Moxie

Moxie 是由 Embodied 公司開(kāi)發(fā)的一款具有情感智能的 AI 機(jī)器人，專為 5 至 10 歲兒童設(shè)計(jì)，幫助他們克服社交焦慮和孤獨(dú)感。它能夠理解語(yǔ)音和面部表情，維持眼神接觸，并以肢體動(dòng)作響應(yīng)互動(dòng)。Moxie 還能記住過(guò)去的對(duì)話，運(yùn)用特定療法如認(rèn)知行為療法，并適應(yīng)不同學(xué)習(xí)階段。

此外，Moxie 集成了先進(jìn)的對(duì)話 AI 技術(shù)，能夠?yàn)槎噙_(dá)四名兒童提供個(gè)性化互動(dòng)，且在不使用客戶數(shù)據(jù)的前提下，根據(jù)用戶反饋持續(xù)更新，從而提升智能和同情心。