国产精品成人在亚洲,图片小说视频一区二区,国产精品自在线拍国产第一页

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

開通會員

發(fā)布

注冊 | 登錄

從智障到智能，語音交互對智能座艙的重要性

ALICS

2024-05-15

3 評論 641 瀏覽 2 收藏

🔗 产品经理的职业发展路径主要有四个方向：专业线、管理线、项目线和自主创业。管理线是指转向管理岗位，带一个团队..

語音交互不占用視覺和雙手，因而最適合放在智能座艙之類的場景上。這篇文章，我們來看看智能座艙中語音交互的使用效率和頻率，如何進行提升。

在聊智能座艙中的語音交互技術(shù)之前，我們先來插播一條新聞：5月14日，OpenAI宣布推出GPT-4o，據(jù)說GPT-4o在處理速度上提升了高達200%，同時在價格上也實現(xiàn)了50%的下降，GPT-4o所有功能包括視覺、聯(lián)網(wǎng)、記憶、執(zhí)行代碼以及GPT Store等，后續(xù)將對所有用戶免費開放。

不得不說，在IA賽道上，我們國內(nèi)廠商又被甩了半步！

GPT-4o的名稱中“o”代表Omni，即全能的意思，凸顯了其多功能的特性，GPT-4o是OpenAI為聊天機器人ChatGPT發(fā)布的語言模型，“可以實時對音頻、視覺和文本進行推理，新模型使ChatGPT能夠處理50種不同的語言，同時提高了速度和質(zhì)量?？梢灶A(yù)期，GPT-4o的能力接入智能座艙，將會給整個用戶體驗帶來更大的想象空間。

當前每個車企都在全力發(fā)展語音交互技術(shù)，其中重要原因是語音交互幾乎不占視覺和手部資源，從而可以大幅提高駕駛安全。車機屏幕中的大量視覺信息占用駕駛員的認知資源，從而引起駕駛員的分心。其次，基于屏幕的GUI交互需要駕駛員通過觸摸或者按鍵的方式進行交互，前者需要駕駛員單手離開方向盤從而有可能引起安全風險，后者則效率低下。

從智能座艙語音交互技術(shù)發(fā)展來看，提升語音交互的使用效率和頻率我認為主要由以下四點決定。

一、更自然的喚醒技術(shù)

部分語音技術(shù)供應(yīng)商支持“免喚醒”和“one-shot”技術(shù)，“免喚醒”是指省略喚醒詞直接說“打開車窗”，車窗就會直接打開。其實“免喚醒”正是用了喚醒詞技術(shù)，只不過把默認喚醒詞改為指令，新的喚醒詞被命中后會直接執(zhí)行相關(guān)指令。

“one-shot”技術(shù)也被稱為“喚醒連說”，支持用戶在說出喚醒詞之后不作停頓，立刻說出后續(xù)需求。例如用戶直接說“小艾同學幫我打開車窗”，小艾同學就能直接把車窗打開。這種方式摒棄傳統(tǒng)的一問一答形式，極大減少了用戶語音操控的步驟。

二、全雙工語音交互

在幾年前，由于部分語音交互技術(shù)暫未成熟，用戶和語音助手的交互大多屬于單輪交互或多輪交互，兩種交互方式帶來的問題是用戶無法持續(xù)地向語音助手發(fā)起指令。單輪交互是指每次語音助手被喚醒后只能完成一項對話，不管任務(wù)能否被完成，語音助手都會進入休眠狀態(tài)。多輪交互是指用戶可以不用多次晚醒語音助手，雙方可以通過多輪交流的方式完成一個任務(wù)，當任務(wù)完成后語音助手會自動進入休眠狀態(tài)。

為了讓語音交互擁有更自然和更高效率的體驗，近年陸續(xù)有車企推出持續(xù)監(jiān)聽和全雙工語音交互技術(shù)。持續(xù)監(jiān)聽可以理解為一旦喚醒語音助手，語音助手會把麥克風一直打開。用戶可以一直說，語音助手會針對用戶每一句話分別做出響應(yīng)。

B端究竟需要什么样的产品经理？

B端产品经理都是以提升供应侧的工作效率为目的，所以B端需求主要是以业务问题为导向。这个是B端产品比较重要的一点，B端产品是服务于一个主体 ...

查看详情 >

但是持續(xù)監(jiān)聽的體驗依然存在很多問題，因為麥克風一直打開，語音助手會把所有的聲音進行聆聽并做出響應(yīng)。假設(shè)上一輪對話未結(jié)束，這時候語音助手聽到其他人說的話，誤以為這是新的語音任務(wù)，會把上一輪對話直接結(jié)束并報新的內(nèi)容。

相比簡單地把麥克風打開，全雙工語音交互不會像持續(xù)監(jiān)聽一樣容易被噪聲打斷整個對話過程。要實現(xiàn)以上效果，全雙工語音交互需要擁有更強的抗噪能力和上下文理解能力，它能理解聲音是否跟當前任務(wù)有關(guān)，并且能猜測當前任務(wù)下一輪對話是什么，這對于技術(shù)的要求非常高。

全雙工語音交互可以簡單地理解為真正的“邊聽邊說”，用戶一旦習慣了全雙工語音交互，就很難回到以上三種交互模式，所以全雙工語音交互是提升語音交互的使用效率和頻率的重要基礎(chǔ)能力。

三、實現(xiàn)捷徑

小鵬汽車 P7在2020年發(fā)布的官方視頻中提到駕駛員進入座艙時對語音助手說一句話，系統(tǒng)會自動幫助駕駛員完成十幾項步驟，極大提升了人和機器的交互效率。這項體驗的背后是捷徑的實現(xiàn)，捷徑是指用戶可以將若干操作選項按順序整合在一起，并賦予一個指令，當指令被響應(yīng)后，涉及的操作選項按順序會依次執(zhí)行。

盡管該技術(shù)跟語音交互沒有太大的關(guān)系，但從用戶心智來看，這是語音交互和人工智能技術(shù)帶來的便利。