Voice Agent:AI 時(shí)代的交互界面,下一代 SaaS 入口
隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)音交互已經(jīng)成為新一代人機(jī)交互界面的重要組成部分。與傳統(tǒng)的文本交互相比,語(yǔ)音交互以其直觀、低能耗的優(yōu)勢(shì),為用戶提供了更為便捷的體驗(yàn)。本文將深入探討語(yǔ)音代理(Voice Agent)在實(shí)時(shí)性、準(zhǔn)確性和創(chuàng)造性方面的要求,分析其在各個(gè)場(chǎng)景中的應(yīng)用前景,并識(shí)別出值得高度關(guān)注的創(chuàng)業(yè)及投資機(jī)會(huì)。
Voice agent 是與人類進(jìn)行對(duì)話溝通的 AI,是下一代人機(jī)交互界面。??
和文本相比,聲音交互的優(yōu)勢(shì)主要體現(xiàn)在:
? 語(yǔ)音交互以其與人類自然溝通方式的高度一致性,提供了一種更為直觀和低能耗的交互體驗(yàn),而打字文本交互的使用門檻更高;
? 語(yǔ)音交互非常適合于簡(jiǎn)短、即時(shí)的信息交流;
? Text copilot 往往需要人機(jī)協(xié)作,最后一公里由人類完成,voice agent 一旦落地將徹底替代人類,獨(dú)立完成交流任務(wù)。?
以上差異使 voice agent 能產(chǎn)生不同于其他模態(tài)的價(jià)值,所以我們選擇 voice agent 作為獨(dú)立市場(chǎng)進(jìn)行研究。
GPT-4o 是第一個(gè)實(shí)現(xiàn)端到端 voice-in, voice-out 的大模型,低延遲、高智能使下一代交互成為可能。傳統(tǒng)語(yǔ)音中 ASR + NLP(即使被替換為 LLM) + TTS 的延遲是用戶難以接受的,且很難沿著 scaling law 產(chǎn)生足夠智能的對(duì)話體驗(yàn)。GPT-4o 的出現(xiàn)讓新的交互形態(tài)成為可能,帶來(lái)了更多應(yīng)用場(chǎng)景的想象。
本篇研究中,我們根據(jù)不同場(chǎng)景對(duì)于實(shí)時(shí)性、準(zhǔn)確性、創(chuàng)造性的不同要求搭建了分析 voice agent 能力稟賦框架,識(shí)別出了值得高度關(guān)注的創(chuàng)業(yè)及投資機(jī)會(huì):短期內(nèi),我們較看好開(kāi)發(fā)者工具和面向垂直領(lǐng)域的 voice agent workflow,長(zhǎng)期則更期待消費(fèi)者端“Killer app”的出現(xiàn)。
01 Voice Agent 全景圖
為了快速框定出端到端模型出現(xiàn)后什么領(lǐng)域會(huì)有劇烈變化、什么領(lǐng)域不會(huì),我們搭建了以下框架來(lái)分析聲音領(lǐng)域的不同場(chǎng)景需求。?
象限分類標(biāo)準(zhǔn):1)縱軸是該場(chǎng)景是否對(duì)實(shí)時(shí)性敏感,上方的需要實(shí)時(shí)在線的回答,下方的可以離線完成聲音制作。2)橫軸是區(qū)分該場(chǎng)景準(zhǔn)確度還是創(chuàng)造力更重要,左側(cè)的要求 voice agent 能精準(zhǔn)的解決問(wèn)題或念出文稿,右側(cè)的需要 voice agent 更有創(chuàng)造力和表現(xiàn)力,能給出隨機(jī)應(yīng)變的回答。
? 第一象限(右上):是端到端模型帶來(lái)最大積極影響的。需要實(shí)時(shí)回答,但對(duì) AI 交流內(nèi)容的容錯(cuò)率和自由度比較高,典型的場(chǎng)景有:陪伴、心理療愈。
? 第二象限(左上):同時(shí)要求實(shí)時(shí)回答和高準(zhǔn)確度,目前是落地難度最大的場(chǎng)景,需要像真人一樣可靠。這需要通過(guò)對(duì) latency 和 RAG workflow 的極致優(yōu)化,常見(jiàn)場(chǎng)景有:call center、銷售、客服、教育。
? 第三象限(左下):可以離線完成,但要求 voice agent 能按臺(tái)本發(fā)揮,因此是 TTS 技術(shù)最好的使用場(chǎng)景。常見(jiàn)場(chǎng)景:有聲書(shū)、短視頻配音、模板化外呼電話。
? 第四象限(右下):這是一個(gè)想象空間比較大的領(lǐng)域,對(duì)創(chuàng)意要求高,但同時(shí)可以離線生成。目前比較常見(jiàn)的用例是:音樂(lè)生成、npc 語(yǔ)音生成。
根據(jù)以上分析框架,我們認(rèn)為有以下幾個(gè)值得高度關(guān)注的創(chuàng)業(yè)和投資機(jī)會(huì)。類比開(kāi)發(fā)軟件時(shí),前端和后端必然是分離的。聲音領(lǐng)域前端的機(jī)會(huì)在于 TTS,后端的機(jī)會(huì)在于 enterprise workflow,同時(shí)也存在端到端的應(yīng)用機(jī)會(huì):
1)療愈/陪伴類 voice agent(第一象限):端到端模型解鎖下一代交互形態(tài),在教育、陪伴等領(lǐng)域出現(xiàn) killer app。
2)Enterprise workflow(第二象限):企業(yè)使用時(shí)最大的痛點(diǎn)在于如何解決 corner case(邊緣場(chǎng)景) 的準(zhǔn)確性,planning & RAG workflow 在這里就非常重要。同時(shí),加入了 RAG 之后如何優(yōu)化 latency 提升用戶體驗(yàn)也很關(guān)鍵
3)TTS(第三象限):LLM 是大腦,但開(kāi)發(fā)者仍需要 interface 的可控性。11 Labs 這樣公司的價(jià)值持續(xù)存在。
前面我們提到 4o 這樣的端到端模型取代的是 ASR + LLM + TTS 的鏈路,那這幾個(gè)創(chuàng)業(yè)方向在整個(gè)工作流中處在什么位置?
我們根據(jù)目標(biāo)客戶將其分為開(kāi)發(fā)者(To Developer),企業(yè)用戶( To Enterprise), 消費(fèi)級(jí)(To Customer) 三個(gè)不同類型進(jìn)行梳理,這三個(gè)領(lǐng)域的成熟度和壁壘、價(jià)值各不相同。以下為結(jié)論,我們會(huì)在第二部分進(jìn)行詳細(xì)分析說(shuō)明。???????????
To Developer:
? 定義:指的是面向開(kāi)發(fā)者的 API 或開(kāi)發(fā)平臺(tái),包含 tts 那樣的單點(diǎn)模型、也包括把各 API 連接起來(lái)的平臺(tái)公司。
? 價(jià)值:高短期價(jià)值,所有需要搭建 voice agent 的團(tuán)隊(duì)都需要快速搭建的工具來(lái)縮短開(kāi)發(fā)周期;長(zhǎng)期價(jià)值不明確,業(yè)務(wù)真正依賴 voice agent 的公司最終一定會(huì)選擇自建。
? 壁壘:中,其中部分公司有一定的技術(shù)壁壘,部分公司只是其他技術(shù)產(chǎn)品的連接器??赡鼙籩2e大模型顛覆。
? 重要方向:TTS,emotion engine,RTC,F(xiàn)ull stack platform
? 值得關(guān)注的公司:
11labs:作為海外獨(dú)角獸持續(xù)追蹤的公司,我們認(rèn)為 11 labs 是目前最好的 TTS 公司,它憑借完勝競(jìng)品的聲音克隆體驗(yàn)和聲音質(zhì)量獲得了市場(chǎng)的關(guān)注和認(rèn)可,業(yè)務(wù)收入增長(zhǎng)迅速;
Hume AI:唯一相對(duì)成熟的 emotion engine,比 4o 更早實(shí)現(xiàn)了有高質(zhì)量語(yǔ)義情感的對(duì)話;
LiveKit:GPT-4o RTC 方案提供者;
Bland AI:Full stack 平臺(tái)中自有模型方案最成熟的公司;
Retell AI:Full stack 平臺(tái)中用戶體驗(yàn)較好的公司。
To Enterprise:
? 定義:面向企業(yè)用戶的 voice agent,既包括為銷售、醫(yī)療等垂直領(lǐng)域設(shè)計(jì)的 AI phone agent,也包括企業(yè)端的無(wú)代碼平臺(tái)。兩者邊界比較模糊。
? 價(jià)值:長(zhǎng)短期價(jià)值均一般,能夠替代臨時(shí)工提供的人力服務(wù),其精確性尚未達(dá)到標(biāo)準(zhǔn);長(zhǎng)期因?yàn)槭袌?chǎng)比較 fragmented,最多也只能在某一個(gè)垂直行業(yè)中占據(jù)比較大的份額。
? 壁壘:中等,壁壘主要來(lái)自于 GTM 和業(yè)務(wù) SOP 積累,其他主要依賴模型能力提升。
? 重要方向:Sales and Customers agent, Training and Recruiting
? 值得關(guān)注的公司:
Sierra:Sequoia、Benchmark 投資, 團(tuán)隊(duì)實(shí)力強(qiáng),資源豐富;
Sema4.ai:Benchmark 和 Mayfield Fund 領(lǐng)投, 團(tuán)隊(duì)實(shí)力較強(qiáng);
Kore.ai:雖然是相對(duì)傳統(tǒng)的 AI 客服公司,但 Kore.ai 的業(yè)務(wù)綜合表現(xiàn)在整個(gè)領(lǐng)域中仍相對(duì)靠前;
Cognigy:創(chuàng)立于 2016 年、位于歐洲,值得關(guān)注的是它在過(guò)去幾年中實(shí)現(xiàn)了三位數(shù)的增長(zhǎng);
Hyperbound:AI 銷售角色扮演平臺(tái),使用 voice agent 技術(shù)模擬真實(shí)的買家對(duì)話,幫助銷售團(tuán)隊(duì)提高電話銷售技巧。
To Customer:
? 定義:面向消費(fèi)者的語(yǔ)音交互應(yīng)用,例如 AI 陪伴、療愈師、語(yǔ)言老師,甚至 AI 交互硬件。
? 價(jià)值:短期內(nèi)較低,目前商業(yè)化價(jià)值尚不明確,還在探索下一代交互的過(guò)程中。但長(zhǎng)期價(jià)值高,可能出現(xiàn)下一個(gè) AI-native killer app。
? 壁壘:中~高,讓用戶交流更流暢的產(chǎn)品形態(tài)和用戶數(shù)據(jù)是其主要壁壘。如果出現(xiàn)更明確的數(shù)據(jù)飛輪,將有強(qiáng)規(guī)模效應(yīng)。
? 重要方向:心理療愈,教育和陪伴。
? 值得關(guān)注的公司:
Sonia:除了看好 voice agent 在心理療愈領(lǐng)域的應(yīng)用外,Sonia 的團(tuán)隊(duì)背景也較為亮眼;
Clare&Me:看好 voice agent 在心理療愈領(lǐng)域的應(yīng)用,歐洲市場(chǎng)廣闊。
02 具體環(huán)節(jié)分析
To Developer: 機(jī)會(huì)來(lái)自搭建 voice agent 的核心要素
AI voice agent 的搭建鏈路很長(zhǎng),把這些工具組合起來(lái)讓 voice agent work 并不容易。這個(gè)領(lǐng)域創(chuàng)業(yè)公司的核心價(jià)值就是使開(kāi)發(fā)者更快地開(kāi)發(fā)出一個(gè)高質(zhì)量的 voice agent,而其中最重要的變量是端到端模型。
1. 端到端多模態(tài)模型
GPT-4o 作為多模態(tài)端到端模型有著很驚艷的效果:低延遲、真實(shí)情感表達(dá)、很強(qiáng)的語(yǔ)義理解能力。未來(lái)可以同時(shí)用于 entertainment & productivity 場(chǎng)景,作為每個(gè)人的朋友和工作助理,想象空間巨大。同時(shí),對(duì) voice agent 的落地還有幾個(gè)關(guān)鍵問(wèn)題:
關(guān)鍵問(wèn)題1:voice agent 是否真的能在企業(yè)用例上落地?
端到端模型降低 latency 的同時(shí)也降低了可控性,這是企業(yè)端落地的重要阻礙:enterprise 使用時(shí)需要精確的內(nèi)容輸出,此時(shí)就需要 decompose 和 RAG 的加入。這對(duì)端到端模型并不友好,因?yàn)槠溲舆t優(yōu)勢(shì)會(huì)被 RAG 弱化,這時(shí)可控性、精確度和低延遲成了不可能三角。
在強(qiáng)領(lǐng)域知識(shí)的場(chǎng)景,可能需要端到端、易于微調(diào)的開(kāi)源模型(可能是 Llama 3 8b 的語(yǔ)音版),才能讓 voice agent 真正落地。這時(shí) Workflow 搭建很重要,用于解決 corner case 的精確性。
關(guān)鍵問(wèn)題2:GPT-4o 以什么形式、什么時(shí)間開(kāi)放 API ?
對(duì)于 to developer 的公司其 API 的開(kāi)放時(shí)間和形式可能是最大的變數(shù)。目前端到端 model 推理成本相比傳統(tǒng)方法明顯更貴,這讓 API 甚至今年內(nèi)可能都不會(huì)開(kāi)放。如果 OpenAI 將語(yǔ)音輸入輸出的接口也開(kāi)放了,F(xiàn)ull stack 的平臺(tái)價(jià)值會(huì)降低,voice agent 的技術(shù)棧會(huì)變成 LLM (+emotion engine/ TTS) + streaming service。
如果 API 能開(kāi)放多模態(tài)輸出的 API,語(yǔ)音+文字雙重輸出可以解決問(wèn)題 1 中的 RAG 問(wèn)題。先輸出一部分文字開(kāi)始對(duì)話的前半部分,在說(shuō)話的過(guò)程中完成一次 RAG,這樣可以基本避免 latency 問(wèn)題。
關(guān)鍵問(wèn)題3:端到端模型如何改變 voice agent 工作流?
GPT-4o 的出現(xiàn)把工作流中的很多步驟給簡(jiǎn)化了。在端到端模型出現(xiàn)前,要搭建一個(gè)好的 voice agent 鏈條很長(zhǎng):
? VAD 識(shí)別發(fā)言時(shí)機(jī):
voice agent 需要判斷何時(shí)用戶說(shuō)完了內(nèi)容、合適插入對(duì)話,以確保足夠互動(dòng)自然。這一領(lǐng)域的算法稱為 VAD,voice automatic detection,在 LLM 出現(xiàn)前就有相關(guān)技術(shù)。
從官方 demo 中,我們能感受到 GPT-4o 的涌現(xiàn)能力對(duì)之前的技術(shù)降維打擊,尚不清楚 4o 中這一模塊是外置模塊(可能是類似 speculative encoding 那樣的 oracle model )還是 LLM 自身的能力。
? ASR 音頻轉(zhuǎn)文字:
這一領(lǐng)域的技術(shù)供給一直比較穩(wěn)定,但端到端 LLM 會(huì)對(duì)這一類模型的能力產(chǎn)生降維打擊:以更快的實(shí)時(shí)性做到高質(zhì)量的語(yǔ)義理解。
這個(gè)領(lǐng)域的代表公司包括:Assembly AI,OpenAI(Whisper 是開(kāi)源SOTA)
? LLM 生成回答:
即使用 LLM 理解用戶意圖,生成自然的回答文本。這個(gè)過(guò)程中需要對(duì)回答推理步驟進(jìn)行 planning 拆解問(wèn)題,再用 RAG 從專有數(shù)據(jù)庫(kù)中檢索回答中的相關(guān)概念。要實(shí)現(xiàn)這一點(diǎn)就要求 LLM 要了解對(duì)解決問(wèn)題需要執(zhí)行的操作,比如下單退貨指令,并用 function call 能力分發(fā)至對(duì)應(yīng)任務(wù)上等。
? TTS 文本轉(zhuǎn)聲音:
TTS 將文本轉(zhuǎn)換為自然的語(yǔ)音輸出。這里可以加入更有感情和表現(xiàn)力的聲音,也可以加入固定的音色。
TTS 公司的業(yè)務(wù)主要替代傳統(tǒng)配音市場(chǎng)(有聲書(shū)、翻譯等),離線的個(gè)人創(chuàng)作者內(nèi)容生產(chǎn)。而 voice agent 則對(duì)實(shí)時(shí)性要求非常高,因此當(dāng)前 TTS 和 voice agent 相關(guān)度還比較低。兩者對(duì) voice 評(píng)估的目標(biāo)不同,11labs 客戶要求的是高質(zhì)量的聲音,而 voice agent 用戶要求的是高質(zhì)量的語(yǔ)義回答和 low latency。需求的不同讓 11labs 相對(duì)難被沖擊到,interface 層不會(huì)直接被 LLM 大腦沖擊到。
關(guān)于 GPT-4o 的影響,使用 4o 不一定必須用其自帶的 TTS。TTS 位于大模型內(nèi),對(duì)開(kāi)發(fā)者不太友好。客戶可能需要更多樣化的聲音模式,如定制化或卡通化風(fēng)格。未來(lái)最值得關(guān)注的是 4o API 是否同時(shí)支持Voice 和 Text 雙頭輸出。
代表公司:11labs,Wellsaid,play.ht
? 讓對(duì)話更加生動(dòng)的情感引擎(Emotion engine):
Voice agent 在客服、陪伴等場(chǎng)景中都非常需要理解人類的情感表達(dá),并盡可能模擬出人類表達(dá)時(shí)的情感,支持這樣能力的技術(shù)便被稱為 emotion engine。
代表公司 Hume AI 是目前唯一效果不錯(cuò)的 emotion engine。Hume AI 的 API 接口背后是一個(gè)“共情大模型”(eLLM)驅(qū)動(dòng),它能夠完成情感理解、共情回應(yīng)、通過(guò)個(gè)性化建議和干預(yù)幫助用戶管理情感。Hume AI 不是端到端模型,可以結(jié)合其他 LLM一起使用
但 emotional engine 方向最大的風(fēng)險(xiǎn)在于被涌現(xiàn)能力顛覆。GPT-4o 向我們證明了學(xué)習(xí)足夠多對(duì)話數(shù)據(jù)的端到端多模態(tài)模型自己能涌現(xiàn)出對(duì)人類情感的模仿能力,Hume 的能力很可能被降維打擊。
代表公司:Hume AI
? 用RTC 降低 streaming latency:
這類技術(shù)接口的價(jià)值是降低 LLM 交互的速度,讓其交互對(duì)用戶更絲滑無(wú)感。Voice agent 需要選用合適的 streaming service 來(lái)降低 voice agent 對(duì)話的延遲,例如 OpenAI 選擇 livekit 來(lái)降低 latency,Bland 選擇 Twillo 來(lái)接入各類語(yǔ)音電話。
LLM 需要實(shí)時(shí)接收用戶的音頻。由于人和 AI 都無(wú)法加速產(chǎn)生內(nèi)容,為了減少 100-200 毫秒的延遲,RTC是必須的解決方案。對(duì)于用戶的溝通文本,decoder-only transformer 無(wú)法提前讀入內(nèi)容,但 RTC 可以保證其在讀入內(nèi)容和輸入內(nèi)容時(shí)的 latency 被降到足夠低,且不同人物之間可以有并行處理和加速。
考慮到 RTC 是一個(gè)已經(jīng)發(fā)展了十年的技術(shù),其能力已經(jīng)相對(duì) commoditize了。對(duì)于 OpenAI 這樣的團(tuán)隊(duì),未來(lái)更有可能的是選擇招聘團(tuán)隊(duì)自建更完備的系統(tǒng)。這類玩家更可能的客戶是受到 OpenAI 名聲影響到的 voice agent applications。
代表公司:LiveKit
總的來(lái)說(shuō),在整個(gè) vocie agent 的 workflow 中,每一個(gè)模塊,都出現(xiàn)了一些重要公司:
Source: a16z
2. Full stack 平臺(tái)
除了圍繞 voice agent 的技術(shù)鏈條提供服務(wù)外,還有一類公司是將以上各個(gè)環(huán)節(jié)打通的 Full stack 平臺(tái)。值得一提的是,這是在 GPT-4o 前就出現(xiàn)的產(chǎn)品形態(tài),幫開(kāi)發(fā)者快速把 ASR + LLM + TTS 的鏈路打通??梢约?xì)分為以下兩類,核心區(qū)別在于是否自己訓(xùn)練模型:
? End2end infra:自己訓(xùn)練模型,端到端完成所有任務(wù)的公司,從轉(zhuǎn)錄、推理、文本到語(yǔ)音,到構(gòu)建決策圖和可配置的函數(shù)調(diào)用和 API 請(qǐng)求。
這個(gè)板塊的代表公司 Bland AI 是一家專注于托管客戶微調(diào)模型棧并提供低延遲通話解決方案的公司,為開(kāi)發(fā)者和企業(yè)定制化語(yǔ)音代理以適應(yīng)特定用例。其核心產(chǎn)品是一個(gè)多功能的 AI Phone API,能夠自動(dòng)化和管理各類電話呼叫,包括出站和入站呼叫、對(duì)話能力、合規(guī)工具、可擴(kuò)展性以及與現(xiàn)有系統(tǒng)的無(wú)縫集成。Bland AI致力于構(gòu)建 AI 呼叫中心,通過(guò)將語(yǔ)音轉(zhuǎn)換為文本并快速生成回應(yīng),同時(shí)在 LLM 中構(gòu)建防護(hù)措施以降低風(fēng)險(xiǎn)。該公司采用訂閱模式,提供從每分鐘 0.07 美元起的定價(jià),已獲得Acacia Venture Capital Partners、Team Ignite Ventures和Y Combinator的投資。
? Middleware router:中間件層,不自己訓(xùn)練模型而是將不同組件串聯(lián)起來(lái)。幫助企業(yè)提高了靈活性,能以最快的方式選擇自己合適的模型并將其開(kāi)發(fā)為 voice agent。
在11labs 客服訪談中,我們看到有不少客戶選用 11labs 作為tts,和其他 API 一起使用,往往就采用了中間件或自建基站,而不是上文的 Full stack 平臺(tái)一體化基建。
例如, Verizon Communications 利用 11labs 為在野外工作的工程師建立 AI agent,使得工程師可以通過(guò)手機(jī)應(yīng)用程序與聊天機(jī)器人交流,通過(guò)語(yǔ)音來(lái)接收信息。
作為中間件的代表公司,Retell AI 提供用于構(gòu)建對(duì)話式語(yǔ)音 AI 代理的中間件解決方案。API 主要功能包括語(yǔ)音穩(wěn)定性控制、實(shí)時(shí)自動(dòng)語(yǔ)音識(shí)別(ASR)轉(zhuǎn)錄、自定義語(yǔ)音以及即將推出的情感分析和環(huán)境噪聲添加等,團(tuán)隊(duì)由前字節(jié)跳動(dòng)/TikTok 產(chǎn)品經(jīng)理,Google 軟件工程師,Meta 項(xiàng)目經(jīng)理和技術(shù)主管組成。包括 Y Combinator 在內(nèi)的投資者已經(jīng)為 Retell 投資了總計(jì)453 萬(wàn)美元的資金。
To B: 新一代 Saas 入口
語(yǔ)音是進(jìn)入核心客戶行為(如預(yù)訂、續(xù)約、報(bào)價(jià)等)的自然入口。如果下一代SaaS解決方案能夠充分利用voice agent技術(shù),那么在2B領(lǐng)域,它們將擁有較大的增長(zhǎng)潛力和市場(chǎng)優(yōu)勢(shì)。
大部分語(yǔ)音對(duì)話不需要很高的智能程度,相反,它們更依賴于對(duì)上下文的理解、隨時(shí) on call 以及對(duì)客戶需求的快速響應(yīng)。有了可靠的 voice agent,企業(yè)就不再需要人工接線員來(lái)工具式地打電話,可以節(jié)省大量時(shí)間和成本。由于 To B voice agent 就是與客戶溝通的電子員工,需要了解很多相關(guān)領(lǐng)域的背景知識(shí),因此這一個(gè)領(lǐng)域是垂直公司的機(jī)會(huì)。
以下是一些關(guān)鍵因素,解釋了為什么垂直領(lǐng)域存在市場(chǎng)機(jī)會(huì):
? 呼叫類型、語(yǔ)氣和內(nèi)容結(jié)構(gòu):不同行業(yè)的客戶互動(dòng)具有特定的模式和風(fēng)格。語(yǔ)音代理需要根據(jù)行業(yè)特點(diǎn)調(diào)整其溝通方式。比如語(yǔ)調(diào)、內(nèi)容結(jié)構(gòu);?
? 數(shù)據(jù)集成和工作流:每個(gè)垂直領(lǐng)域都有其獨(dú)特的數(shù)據(jù)管理和工作流程;?
? GTM 策略(GTM)和 killer feature:需要具備能夠解決特定行業(yè)痛點(diǎn)的能力。
? 邊緣場(chǎng)景難度:將電話交給AI的質(zhì)量標(biāo)準(zhǔn)非常高。這些公司最關(guān)鍵的任務(wù)就是去解決垂直領(lǐng)域里的邊緣場(chǎng)景,例如通用模型可能會(huì)誤解的獨(dú)特詞匯。
? 法規(guī)和許可:一些語(yǔ)音代理公司面臨特殊的限制和認(rèn)證需求。例如,醫(yī)療保健領(lǐng)域需要遵守 HIPAA 合規(guī)性,銷售領(lǐng)域也出現(xiàn)了針對(duì) AI 冷呼叫的國(guó)家級(jí)別的法規(guī)。
為什么 To B 場(chǎng)景下的垂直解決方案相對(duì)難被端到端模型顛覆?
在垂直場(chǎng)景中真正解決問(wèn)題,需要做嚴(yán)謹(jǐn)?shù)?RAG 和任務(wù)規(guī)劃,因此并不適合端到端模型一次生成。通常的過(guò)程是先通過(guò)文本內(nèi)容 retrieve 相關(guān)信息,再次生成文字和進(jìn)行 TTS。這時(shí)端到端模型的 latency 優(yōu)勢(shì)就不再了,關(guān)鍵難點(diǎn)在于領(lǐng)域數(shù)據(jù)和 workflow 的推理。
1. 企業(yè)工作流
企業(yè)工作流領(lǐng)域的公司不局限于特定行業(yè)、特定場(chǎng)景,而是跨行業(yè)提供服務(wù),但目前主要應(yīng)用場(chǎng)景仍為 sales/support。他們以 low code 平臺(tái)或 SaaS 的形式提供服務(wù)。
我們根據(jù)銷售工作流,可以將 AI 客服分為幾類:
1)營(yíng)銷類外呼:售前場(chǎng)景因?yàn)閷?duì)于模型的理解和智能能力要求較低,是目前比較好的落地場(chǎng)景。Voice agent可以帶來(lái)更自然的對(duì)話體驗(yàn),同時(shí)能夠結(jié)合分析歷史通話數(shù)據(jù),實(shí)現(xiàn)營(yíng)銷轉(zhuǎn)化的提高。如果遇到太難的問(wèn)題,LLM 也可以檢測(cè)后發(fā)給普通的客服。
2)銷售中:目前LLM還比較少的被應(yīng)用到直面leads,因?yàn)槭苣芰ο拗?,失敗了損失過(guò)大。但被充分應(yīng)用于客服培訓(xùn)中,一方面節(jié)省了因?yàn)殡婁N頻繁離職導(dǎo)致的過(guò)多培訓(xùn)時(shí)間成本;另一方面可以做到知識(shí)庫(kù)實(shí)時(shí)對(duì)齊,成為電銷的語(yǔ)音 copilot。
3)投訴/售后服務(wù)、客戶回訪:AI 可以幫助客服收集客戶投訴,解決簡(jiǎn)單的售后服務(wù)問(wèn)題。同時(shí)可以進(jìn)行大規(guī)模的客戶回訪,也開(kāi)始被企業(yè)廣泛的采用。
代表公司:傳統(tǒng)公司以 Parloa、Kore AI 為代表;新興公司則包括 Sierra,Sema4.ai
Sierra 專注于為企業(yè)打造 AI Phone Agent,提供基于 autonomous agents 理念的軟件,結(jié)合多個(gè)模型生成響應(yīng)。由 Salesforce 前高管 Bret Taylor 和 Google 前VR負(fù)責(zé)人Clay Bavor創(chuàng)立,已獲得Sequoia和Benchmark 等投資方 1.1 億美元融資。公司采用基于結(jié)果的定價(jià)策略,客戶僅在問(wèn)題解決時(shí)付費(fèi)。WeightWatchers 利用 Sierra AI 提高了客戶服務(wù)效率和質(zhì)量,實(shí)現(xiàn)了高客戶滿意度和問(wèn)題解決率。
2. Training and Recruiting
Training and Recruiting 是值得關(guān)注的另一大模塊。
GPT-4o 可能預(yù)示著新一代解決方案的到來(lái)。引入 voice agent 技術(shù)有助于企業(yè)降低成本并提高效率。值得注意的是,該領(lǐng)域的專業(yè)性非常強(qiáng),因?yàn)椴煌袠I(yè)的培訓(xùn)內(nèi)容和面試測(cè)試有不同的需求。企業(yè)培訓(xùn)市場(chǎng)覆蓋了技術(shù)培訓(xùn)、軟技能開(kāi)發(fā)、質(zhì)量培訓(xùn)、合規(guī)培訓(xùn)等多個(gè)細(xì)分領(lǐng)域,服務(wù)于零售、醫(yī)療保健、金融服務(wù)、IT 等多個(gè)垂直行業(yè)。
根據(jù) Global Industry Research 研究,Corporate Training Market 市場(chǎng)規(guī)模在2024年估計(jì)為 1331 億美元,并預(yù)計(jì)在預(yù)測(cè)期內(nèi)以 9.47% 的復(fù)合年增長(zhǎng)率增長(zhǎng)。而 Polaris 調(diào)研 Recruitment Process Outsourcing (RPO) 市場(chǎng)在2023年的市場(chǎng)規(guī)模為 87.5 億美元,預(yù)計(jì)到 2032 年將達(dá)到 333.4 億美元。在這一市場(chǎng)中,頭部培訓(xùn)公司包括 Skillsoft、LinkedIn Learning(微軟)、Pluralsight、Cornerstone OnDemand、Udemy for Business等。同時(shí),頭部RPO公司有Cielo、Randstad Sourceright、Korn Ferry、Alexander Mann Solutions (AMS)。盡管市場(chǎng)存在一些頭部企業(yè),但并沒(méi)有形成壟斷,為創(chuàng)新公司提供了機(jī)會(huì)。招聘方向的創(chuàng)業(yè)公司如 HeyMilo、Interviewer.AI;在培訓(xùn)方向的Hyperbound和moctalk 等公司值得關(guān)注。
如 Hyperbound 是一個(gè)利用 AI 和 voice agent 的 AI 銷售角色扮演平臺(tái),通過(guò)模擬真實(shí)買家對(duì)話來(lái)提升銷售團(tuán)隊(duì)的電話銷售技巧。該平臺(tái)通過(guò) AI 買家模擬、角色扮演練習(xí),快速提升銷售代表的熟練程度,加速新員工入職,提高轉(zhuǎn)化率,并減少練習(xí)過(guò)程中對(duì)潛在客戶的負(fù)面影響。Hyperbound 還提供分析和反饋工具,幫助管理者評(píng)估和提升銷售團(tuán)隊(duì)表現(xiàn)。團(tuán)隊(duì)由銷售教練、AI 工程師以及前 Salesforce Einstein 工程師組成。
To C: AI 時(shí)代的交互界面
To C 產(chǎn)品的主要邏輯是,將昂貴或難以獲得的人類服務(wù),且是基于對(duì)話且可以在線完成的,替換為 AI,主要場(chǎng)景包括心理療愈、輔導(dǎo)、陪伴等。
早期的 AI 陪伴等應(yīng)用主要基于文字,如 character.ai,但文字形態(tài)的用戶門檻高一直限制著用戶規(guī)模。聲音比文字增加的維度:音色、情緒,讓用戶與 chatbot 交互的使用成本大幅降低。
1. Consumer Apps
對(duì)于 comsumer apps,未來(lái)可預(yù)見(jiàn)的確定性變化,其一是成本會(huì)大幅度降低,甚至降低 99%,從而帶來(lái)用戶規(guī)模的擴(kuò)大。對(duì)于現(xiàn)階段的 AI 教育、陪伴、心理療愈這些產(chǎn)品,如 Duolingo Max、Speak、praktika 等普遍由于 LLM 及 TTS 調(diào)用成本過(guò)高,限制了大規(guī)模的采用。如果調(diào)用成本大幅度降低,將使得企業(yè)能夠以更低的價(jià)格提供服務(wù)。
其二是由于 GPT-4o 新架構(gòu)的采用、webrtc 優(yōu)化, latency 將繼續(xù)降低,帶來(lái)更自然的交互,那么對(duì)于 c 端實(shí)時(shí)、擬人程度要求高的場(chǎng)景,也有較大的效果提升。
具體有 4 個(gè)應(yīng)用場(chǎng)景:
面向成人的教育應(yīng)用:成人教育目前主要以語(yǔ)言學(xué)習(xí)應(yīng)用為主,而語(yǔ)言學(xué)習(xí)也正是目前最適合通過(guò)語(yǔ)音交互進(jìn)行的領(lǐng)域,因此我們認(rèn)為 vocie agent 的發(fā)展可以讓這個(gè)領(lǐng)域直接受益。
面向兒童的教育應(yīng)用:除了語(yǔ)言學(xué)習(xí)外,在更高質(zhì)量的聲音輔助下,兒童學(xué)習(xí)伴侶的具象化和游戲化是創(chuàng)新的方向。
陪伴:Character.ai 和 ChatGPT Dan 的爆火已經(jīng)佐證了陪伴市場(chǎng)的潛力,但目前大多數(shù)應(yīng)用仍停留在簡(jiǎn)單的 AI 朋友或虛擬伴侶階段,未來(lái)的創(chuàng)新可能包括具象化、游戲化,以及將AI伴侶集成到硬件中,實(shí)現(xiàn)隨時(shí)隨地的陪伴。
心理療愈:心理療愈是陪伴場(chǎng)景的升級(jí),其核心在于情緒疏導(dǎo)和心理健康支持,但因?yàn)槭轻t(yī)療場(chǎng)景,所以關(guān)鍵挑戰(zhàn)在于合規(guī)性和避免幻覺(jué)問(wèn)題。
與 Gen-AI 結(jié)合的具體案例:
1)Praktika.AI
? 產(chǎn)品:Praktika 使用 GPT-4+Unity Avatars+11labs,創(chuàng)建 voice agent 形式的 AI tutor,提供不同地域口音的 Avatar,模擬真實(shí)對(duì)話,幫助用戶克服語(yǔ)言障礙,提升溝通技巧;
? 差異:針對(duì)有實(shí)際英語(yǔ)溝通需求的用戶,如職業(yè)需求、出國(guó)留學(xué)等。與競(jìng)爭(zhēng)對(duì)手相比,Praktika 更注重真實(shí)對(duì)話的模仿,Avatar 是其特點(diǎn)。
2)Ello:
面向兒童的閱讀伴侶應(yīng)用程序,為幼兒園到三年級(jí)的孩子設(shè)計(jì),提供與孩子閱讀水平和興趣相匹配的電子書(shū)籍和紙質(zhì)書(shū)籍,幫助孩子培養(yǎng)閱讀習(xí)慣。Adaptive Learn™ 是 Ello 的 AI 引擎,能夠像一對(duì)一的教師一樣理解、適應(yīng)并響應(yīng)每個(gè)孩子的需求。
3)Sonia:
開(kāi)發(fā)了 AI 驅(qū)動(dòng)的認(rèn)知行為治療師(CBT),提供語(yǔ)音和文本會(huì)話的心理健康治療服務(wù)。為用戶提供了成本效益高、可訪問(wèn)性強(qiáng)、隨時(shí)可用的心理健康治療解決方案,改善心理健康服務(wù)的可及性。
Sonia 通過(guò)手機(jī)應(yīng)用來(lái)提供完整的會(huì)話治療服務(wù),用戶可以選擇語(yǔ)音或文本與 AI 治療師進(jìn)行交流,這一服務(wù)收費(fèi)為200 美元/年,和傳統(tǒng)的每次 200 美元的治療費(fèi)用,成本極低。
2. Hardware
To C 的另一個(gè)機(jī)會(huì)是基于 voice agent 的消費(fèi)級(jí)硬件,實(shí)時(shí)收集記錄用戶信息,實(shí)時(shí)交互反饋,成為更為具象的 personal assistant。但目前出現(xiàn)的出現(xiàn)的 humane、rabbit 的可用性、使用價(jià)值仍較差。
盡管尚未出現(xiàn)被廣泛認(rèn)可的“下一代硬件”,但該領(lǐng)域正積極嘗試開(kāi)發(fā)新產(chǎn)品。主要有兩種嘗試方向:首先是創(chuàng)造全新的、以語(yǔ)音交互為核心的硬件設(shè)備,如 Humane 和 rabbit ,這些產(chǎn)品旨在提供更加自然和直觀的用戶體驗(yàn),但目前可用性、使用價(jià)值仍較差。市場(chǎng)上也出現(xiàn)了小型陪伴玩具,它們通過(guò)搭載 voice 交互能力,提供互動(dòng)性和娛樂(lè)性,例如 curio和 moxie 這樣的產(chǎn)品,不僅能夠吸引兒童的注意力,還能在一定程度上輔助教育和情感陪伴。
與 Gen-AI結(jié)合的具體案例:
因?yàn)榇蠹覍?duì) Humane 和 rabbit 已經(jīng)比較熟悉了,下面主要介紹兩款以 voice 為核心的游戲和陪伴類機(jī)器人:
1)Curio:
Curio Interactive Inc. 推出了 Grok、Grem和Gabbo 等 AI 玩具系列,這些玩具配備 WiFi、藍(lán)牙、揚(yáng)聲器和麥克風(fēng),支持與兒童進(jìn)行語(yǔ)音或文本互動(dòng),通過(guò)游戲和對(duì)話提升孩子的聽(tīng)力和交流技能,同時(shí)減少他們對(duì)屏幕的依賴。
2)Moxie
Moxie 是由 Embodied 公司開(kāi)發(fā)的一款具有情感智能的 AI 機(jī)器人,專為 5 至 10 歲兒童設(shè)計(jì),幫助他們克服社交焦慮和孤獨(dú)感。它能夠理解語(yǔ)音和面部表情,維持眼神接觸,并以肢體動(dòng)作響應(yīng)互動(dòng)。Moxie 還能記住過(guò)去的對(duì)話,運(yùn)用特定療法如認(rèn)知行為療法,并適應(yīng)不同學(xué)習(xí)階段。
此外,Moxie 集成了先進(jìn)的對(duì)話 AI 技術(shù),能夠?yàn)槎噙_(dá)四名兒童提供個(gè)性化互動(dòng),且在不使用客戶數(shù)據(jù)的前提下,根據(jù)用戶反饋持續(xù)更新,從而提升智能和同情心。
作者 | Cage, haina
編輯 | Siqi
本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號(hào):【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
這么硬核啊,我希望作者能繼續(xù)深入挖掘相關(guān)領(lǐng)域,提供更多簡(jiǎn)單點(diǎn)的內(nèi)容。