GPT-4o和Gemini Live,OpenAI和谷歌都在重新定義大模型產(chǎn)品的人機交互標準
就在這周的前幾天,OpenAI和Google都相繼發(fā)布了新的大模型產(chǎn)品。盡管真正的具身智能還有很長的路,但大家都在借助新的AI想定義新的人機交互標準,在多模態(tài)交互上,邁出關鍵一步。
這是我們首次在易用性方面取得重大突破,意義非凡!因為這揭示了我們與機器之間未來的互動方式。
——Mira Murati OpenAI首席技術官
GPT-4o的發(fā)布,無疑是昨日AI圈一大焦點。很多文章都做了詳細介紹和功能解析,總結(jié)下來有3個核心優(yōu)勢:
- 使用門檻更低:免費開放、API價格減半、Mac版工具
- 使用體驗更好:速度翻倍、跨模態(tài)推理、自然對話
- 使用場景更豐富:情緒感知、實時語音、視覺增強
其中最能引發(fā)遐想的,我覺得是“實時理解世界”的能力,包括對物理現(xiàn)實的理解,和人類情緒的理解。
無獨有偶,就在5月15日凌晨,谷歌在Google I/O開發(fā)者大會展示了名為“Gemini Live”的新體驗:
和GPT-4o一樣,Gemini Live可以通過手機攝像頭拍攝的照片或視頻,查看用戶的周圍環(huán)境,并對其做出反應。作為人類的代理,它可以看到和聽到我們所做的事,更好地了解我們所處的環(huán)境,并在對話中快速做出反應,從而讓交互更自然。
這項能力的發(fā)布,很明顯都在指向一個關鍵詞:具身智能。
具身智能強調(diào)“感知—行動回路”,并呈現(xiàn)出三個特點:
- 一定是多模態(tài)的,能像人一樣通過視覺、聽覺、觸覺等感官,以及語言、運動、交互等行為,完成一系列智能任務。
- 能根據(jù)環(huán)境的交互積累經(jīng)驗,基于不同數(shù)據(jù)構(gòu)建不同模型,產(chǎn)生不同的智能,在完成任務上更智能;
- 機器人或智能體有自主性,和人類的學習和認知過程一致。
盡管距離真正的具身智能還有很長的路要走,但我看到了在多模態(tài)交互上,人類邁出了關鍵一步。
我覺得無論是OpenAI還是谷歌,都在借助新的AI技術,為我們制定了新的大模型產(chǎn)品的人機交互標準。
一、大模型產(chǎn)品的人機交互標準是什么?
說起大模型產(chǎn)品的交互方式,通常第一反應都是CUI(Conversational User Interface 對話式用戶交互界面),或者叫LUI(Language User Interface,語言交互界面)。甚至很多人一度認為,這就是AI產(chǎn)品最終的交互方式了。
然而真是這樣么?回歸到交互的本質(zhì),無論是圖形界面,還是對話界面,目的都是要更精準地解讀用戶的輸入意圖,達成更匹配的輸出。
表面上看,似乎用對話方式,用戶可以更自由、靈活地表達需求,而不用局限在產(chǎn)品經(jīng)理預設的界面上去完成任務。然而,回歸到交互設計原則上看,到底什么樣的交互,是真正對用戶友好的?
著名的美國認知心理學家、用戶體驗設計大師唐·諾曼(Don Norman),曾提過一個好產(chǎn)品的交互設計六項基本原則,分別是:
示能(Affordance)
指一個物理對象本身就有的、特定的交互方式,不需要解釋,它直接就可以被感知到。比如一把椅子,不管它怎么設計,一定會有一個平面可以坐人。這里面的“平面”,就是一種示能。一出現(xiàn)平面,人們就會天然地認為,這個地方是可以坐的。
意符(Signifiers)
意符是一種提示,告訴用戶可以采取什么行為。比如我們經(jīng)??吹剑行┥虉龅拇箝T上,會寫上“推”或者“拉”的提示,這個推和拉就是一種意符。
約束(Constraint)
約束限定了一系列可能的操作。在設計中有效使用約束因素,就可以讓用戶在任何未知環(huán)境下都能找到合適的操作方法。比如拼樂高積木、使用電源插座。
映射(Mapping)
映射表示兩組事物要素之間的關系,是可以直觀反映在物理位置上的。比如辦公室的頂燈和對應的開關,它們之間的排布是一一對應的,你就可以知道按哪個按鈕開關哪排燈。
反饋(Feedback)
好設計一定要有即時反饋,稍有延遲便會令人不安。生活中我們經(jīng)常會碰到有人在電梯前反復按樓層鍵,就是因為缺少及時反饋。反饋需要精心策劃,以一種不顯著的方式確認所有操作。
概念模型(Conceptual Models)
指高度簡化的說明,告訴用戶產(chǎn)品是如何工作的。比如電腦中的文件和文件夾就是一套概念模型,實際上硬盤上并不存在文件夾,但這比復雜的計算機指令更能讓用戶理解計算機的操作。
我們把傳統(tǒng)對話式交互,分別帶入這6個原則:
你會發(fā)現(xiàn),似乎文字對話框式的使用方式,并不符合一個好產(chǎn)品的交互原則。
而GPT-4o和Gemini Live的出現(xiàn),我認為是重新定義了大語言模型產(chǎn)品的交互設計標準。因為它為我們帶來了:
- 更即時的交互反饋
- 更立體的交互方式
- 更情緒化的交互過程
二、更即時的交互反饋
Murati在發(fā)布會上提到,與GPT-4-Turbo相比,GPT-4o的速度快2倍。尤其在語音對話場景,GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒,而GPT-4o對音頻輸入的平均響應時間為320毫秒,最短的響應時間為232毫秒,與人類的響應時間相似。Gemini Live也支持在聊天時打斷,讓AI實時適應人類語言表達的模式。
這樣的高效,帶來了更自然的使用體驗,讓人類和大模型的交流,更符合人與人之間面對面溝通的概念模型。也創(chuàng)造了更即時的反饋。將這些技術和增強的語音引擎相結(jié)合,就可以實現(xiàn)更一致的情感表達和現(xiàn)實的多輪對話。
三、更立體的交互方式
人機交互的底層原理,可以概括為:事件有反饋,操作有結(jié)果。
輸入的對象是機器,輸入給機器的內(nèi)容,是固定化的指令和多樣化的信息。而輸出的對象是人,輸出的內(nèi)容是給到人的感官反饋。優(yōu)秀的交互設計,就是用更多元的輸入,帶給用戶更豐富的輸出。
喬布斯說過:
蘋果電腦就是21世紀人類的自行車,只要愿意,誰都可以擁有它。它是工具,是人類大腦的延伸。
在人與電腦之間,可以發(fā)展出特殊的關系,它可以改善個人的生產(chǎn)力。
GPT-4o交付給我們的,不光是人類的第二大腦,更是第二雙眼睛、耳朵和嘴。
通過GPT-4o,大模型的示能方式可以延展為“能說話的攝像頭”,扮演教你做題的數(shù)學老師、為你同聲傳譯的翻譯官、理解你情緒的咨詢師。
而文字表達帶來的低約束性問題,也可以借助對視覺、聲音、語調(diào)的理解,讓大模型圍繞特定環(huán)境給出更精準的對話引導。想象下,當打開AI后,它會先環(huán)顧四周,知道你在哪兒,身邊都有誰,大家在說什么,再開啟一場更符合場景的對話,這樣的交互簡直不能再自然了。
四、更情緒化的交互過程
“人類的生命,不能以時間長短來衡量,心中充滿愛時,剎那即為永恒”
人與機器的區(qū)別之一,就在于能否理解情緒,甚至表達情緒。
AI+情緒,也一直是創(chuàng)業(yè)者熱衷投入的賽道。無論是微軟小冰、Glow、Character.AI、Replika等聊天陪伴型機器人,還是Pi、Hume.AI這種對情緒理解更深入的技術解決方案。都希望借助情感化設計,提供更貼心和人性化的服務。
唐·諾曼(Don Norman)在《設計心理學3-情感設計》中寫到,情感化設計,自底向上分為:本能層、行為層、反思層三層結(jié)構(gòu)。
- 本能層表現(xiàn)為感性認知,憑借第一印象吸引用戶。
- 行為層體現(xiàn)在操作產(chǎn)品時,是否有清晰流暢的步驟,明確的使用動線,靠體驗留住用戶。
- 反思層則代表產(chǎn)品融入了獨特的文化內(nèi)涵和差異化的亮點設計,能打動人心,扎根在記憶中。
想象下,具備情緒感知和視覺理解的AI,可以在本能層表現(xiàn)的更加自然生動,在行為層給出更連貫、可打斷、有記憶的個性化輸出,在反思層深深植入每個人獨有的陪伴角色。
當然,也許你會覺得我想多了,這些新技術沒那么厲害。不就是在文字聊天的基礎上,增加了語音和視頻通話的功能么?說它是重新定義了AI交互,太夸張了。
說的沒毛病。不過我更關心的,不在定義本身,而是想為你提供一種設計AI產(chǎn)品交互界面的新思路。
我的觀點是:
作為生產(chǎn)力工具的大模型產(chǎn)品,在產(chǎn)品設計之初,就應該考慮多模態(tài)的交互方式。
- 大模型產(chǎn)品,應該是可以“看”的——通過視覺或其他感官,感知環(huán)境。
- 大模型產(chǎn)品,應該是可以“說”的——根據(jù)環(huán)境的不同,進行自然語言對話。
- 大模型產(chǎn)品,應該是可以“聽”的——在對話和觀察中感知情緒,認真聆聽,做出反應。
- 大模型產(chǎn)品,應該是可以“記”的——在長期交互中形成記憶,動態(tài)調(diào)整和你的互動方式和輸出的內(nèi)容。
回看當初OpenAI發(fā)布Sora時,曾提出“視頻生成模型是世界模擬器”的觀點(Video generation models as world simulators)。構(gòu)建世界模擬器的前提,就是要增強對世界的理解,補充更多物理規(guī)律和世界常識。多模態(tài)交互的設計,正是達成這一目標的最優(yōu)解。
五、結(jié)語
最后,我們再來看看本文開頭提到的交互設計六原則,我想試著把多模態(tài)交互也填進去,看看和傳統(tǒng)chat式交互的對比差異。
客觀看,就算增加了多模態(tài),當前的大模型和人類的交互方式,仍不是最優(yōu)的,那還有沒有其他解法呢?
肯定是有的,好的交互,永遠不是單一設計。
我們完全可以融合GUI+CUI/LUI+多模態(tài)幾種形式到一起,在指定場景下,為特定角色設計交互方式。比如老師機器人、醫(yī)生機器人、教練機器人。人類都可以分角色,為什么AI不行呢?
專欄作家
申悅,微信公眾號:互聯(lián)網(wǎng)悅讀筆記(ID:pmboxs),人人都是產(chǎn)品經(jīng)理專欄作家,前360產(chǎn)品總監(jiān),起點學院優(yōu)秀導師。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!