十問Chat:關于LUI,你知道多少?
隨著人工智能技術的飛速發(fā)展,語言用戶界面(LUI)逐漸成為人機交互的新寵。然而,這種看似自然直觀的交互方式是否真的適合所有場景?本文通過深入探討ChatGPT等LUI形態(tài)的局限性,提出了一系列引人深思的問題,并提供了當前的一些解決方案。
從ChatGPT開始到現(xiàn)在,似乎我們默認了所謂的LUI(Language User Interface),不過黃叔從來沒有覺得這是應該的,也隨著對于AI產品研究的逐漸深入,在5月份情感陪伴這篇文章,就清晰的指出:
大部分人被ChatGPT和C.ai騙了!
那今天,我們進一步闡述Chat這種LUI形態(tài)是如何的“反人類”,更多是提出問題,也給出當前的一些解決方案,希望能為從業(yè)者們提供一些靈感,歡迎大家互通有無。
有位朋友總結的挺好的:“Chat更像是早期尋找PMF的交互形態(tài), 給人曠野而非軌道?!毕M蠹夷芨玫恼业阶约旱能壍溃海?/p>
Q1:Chat對話的自然性和信息效率之間存在矛盾?
我們都知道目前的AI產品大部分很容易遇到天花板問題,比如Kimi的增長已經非常明顯卡住了:
這背后當然存在多個層面的因素影響了,但AI應用至少在國內,我們能很明顯看到還處在一個早期階段,有一點很明顯的是:
Chat對話是很自然的,很符合日常交流的,但是和信息的效率(包含輸入和獲?。┲g,似乎存在很大的矛盾。
這是一個很大的話題,作為本篇文章的起始,后面黃叔會嘗試從多個角度拋磚引玉:文字是線性的!Prompt的存在就是逆天開放性vs目標導向文字輸入vs多模態(tài)輸入不適合用Chat的形態(tài)文字輸出vs多模態(tài)輸出用戶認知和預期管理問題個性化和定制化能力不足大家都被ChatGPT和Cai騙了
Q2:文字是線性的。。。
平克說過非常有名的一段話:
寫作之難,在于將網狀的思想,通過樹狀的句法,用線性的文字展開
我們大腦中有無數(shù)碎片化的想法,你要找到一條最佳的文字線串起來,這件事情對于人類來說,是普遍非常難的,所以在搜索這個人類最大的輸入框里,大量的Query都是短詞。
如果無法用文字清晰的表達自己究竟想要的是什么,意味著Chat形態(tài)不是老百姓最好的和AI交互的形態(tài)。
這里還會有進一步的影響:認知負荷和互動深度。
一個是用戶在上下文中,自己就需要記住之前的對話內容,這增加了認知負擔,另一個是線性文字限制了互動的深度和廣度,難以實現(xiàn)復雜的交互和多層次的信息傳遞。
Q3:Chat需要Prompt功能才能獲得好結果?
Prompt是什么?Prompt是Chat交互形態(tài)下自然長出來的一個玩意。
Andrej Karpathy在2023年5月,微軟build大會上,分享過《State of GPT》,其中具體說了Prompt是人類語言和機器語言之間的橋梁,我們需要用Prompt來彌補人類思維與機器處理方式之間的差異。
這也是因為大模型本身就基于海量的數(shù)據(jù)做的訓練,你需要更加細致的描述,才能讓它知道你具體需要什么。
對應的,用戶如果希望獲得更高質量的AI生成的內容,也需要輸入更高質量的Prompt,現(xiàn)在你理解為何會有提示詞工程師這么一個職業(yè)存在的原因了吧:
Q4:在 Chat 對話中融入 GUI元素是否可行?
既然輸入那么難,那么能不能在Chat對話中融入GUI元素?
舉一個具體例子大家可以更清晰的理解,比如你去看病,醫(yī)生肯定會問一些關鍵信息,但會問你哪些關鍵信息其實是背后大量的診療經驗,以及基于望聞問切,甚至是病歷做出的,這個過程,用一個對你過去信息知道不多的大模型來多輪對話,顯然效率很低,在夸克瀏覽器里,我們就看到一個不錯的案例:
這個就是GUI(GUI是”Graphical User Interface”的縮寫,中文通常翻譯為”圖形用戶界面”)比起LUI的好處:
GUI是點擊操作,可以觸發(fā)預置好的信息,關鍵在【預置】,用選擇代替輸入,效率上比Chat高很多倍。 (from @杜昭)
有和夸克的同學交流過,AI健康問答這個場景,也是他們著重發(fā)力的,拿了大量的數(shù)據(jù)以及找了專業(yè)的醫(yī)生團隊做了驗證后,抽象出來的補充信息模塊。
另外,即刻上的@申悅 也給了個案例,智譜的智能體里,輸入也增加了表單,可以更方便的用戶知道應該輸入什么信息:
可以看到,GUI對于Chat的開放性是有很好的約束作用的,面對空白的輸入框,用戶很容易發(fā)懵:“我到底應該輸入啥才能獲得好答案?”,GUI限定條件后,用戶能更明確一些。
Q5:除了文字輸入,還有哪些更便捷、高效的輸入方式能夠應用于 Chat 對話,以降低用戶的表達門檻?
有很多方式,不是所有的方式都依賴于文字輸入。
我們在情感陪伴一文的總結中,提到了情感陪伴實際上是內容消費的邏輯,那對應的,抖音是一種上下滑和雙擊屏幕就能完成的輕互動內容消費產品,那AI生成的內容產品里,如何借用呢?
美團WOW的互動故事就提供了一種可能性,AI先生成一個章節(jié),然后給出選項用戶點擊選擇(也可以手動輸入),AI繼續(xù)生成,循環(huán)如此:
除了上面這種,最典型的就是語音輸入,甚至是實時語音互動,最為典型的就是GPT-4o,非常炸裂的發(fā)布會我們都看到了,300ms以內的低時延,擊穿了“實時性”這個人類能感知到的節(jié)點。
大量的AI助手,也強依賴于語音交互,典型的比如Siri、小愛同學,車機上的“理想同學”“Nomi”等等。
當然難度也是語音識別的準確性,以及環(huán)境噪音、用戶有口音,以及用戶輸入意愿度的問題,特別是語音交互里,長文本的對話就不現(xiàn)實了,比如MiniMax的海螺AI,當打開實時語音對話時,AI的人設就會變成傾向于短回答來保證交互效率。
除此之外,圖片、視頻輸入更為典型,圖片輸入比如前陣子的網紅應用胃之書:
它的輸入并不需要輸入文字,點擊拍照,然后大模型就會自動解析,幾乎全自動的完成了錄入。
再比如360AI搜索,增加了拍照上傳功能:
更經典的解決方案是雷鵬眼鏡,在鏡框上面增加攝像頭,真正做到了所見即所得,用“Hi,meta”作為喚醒詞即可調用AI完成交互:
所以,AI眼鏡是蠻有未來機會的一種新硬件載體。
Q6:有不適合用Chat的形態(tài)么?
很典型的,Notion AI推出之后,大家也更能理解對于寫作,inline非常重要,即:在文本中間整合加入AI能力,才能更有效的幫助用戶完成創(chuàng)作:
同樣是文字處理,但是直接在內容里嵌入AI能力,并且點選即可完成,這種效率似乎提高了不是一星半點。
當然,Notion AI同樣加入了Copilot,用對話來幫助用戶更好的使用更多AI能力。
這種呢,就是比較復雜的文字處理,不便于在Chat線性的交互形態(tài)里完成,所以需要inline的邏輯來做,對應的,我們可以引申一下:
- 復雜的數(shù)據(jù)分析和可視化(Excel等)
- 長篇文檔編輯和排版(Notion AI)
- 實時協(xié)作和團隊溝通高度專業(yè)化的技術開發(fā)(Github Copilot)
- 設計和創(chuàng)意工作(視頻工作流單純的Chat不好做)
- 教育和培訓(高度互動的教學)
Q7:AI除了輸出文字,不能輸出其他形態(tài)的內容么?
ChatGPT誕生至今,大量的ChatBot都以文字輸入輸出為核心,這也導致我們在上一篇《十問AI搜索》中提出一個問題:
AI搜索是一種退化?結論:搜索從10個鏈接到1個答案是進化,但從視頻到文字是退化
我們可以看一下抖音的AI搜索,如上~
抖音的日活達到7個億以后,我相信已經有非常多所謂下沉市場的用戶在使用了,他們已經非常的習慣于刷短視頻來獲取信息了,那上面的文字版本的抖音AI搜索是不是一種所謂的倒退呢?或許用戶在看到抖音里出現(xiàn)大片段文字的時候,會直接關掉。
交叉對比,我有和小紅書的運營交流過,小紅書其實鼓勵我多去發(fā)圖文筆記,因為一二線的用戶對于圖文筆記的吸收效率是最快的,想想圖文筆記的結構化和信息提取速度,一目十行,可以非??斓木屠斫獾侥惚磉_的意思。但是視頻內容其實就更加的線性,只能隨著視頻內容的按時間展開:
兩者結合,會發(fā)現(xiàn)一個有意思的現(xiàn)象:
- 一二線城市受過高等教育的用戶更容易接受圖文結構化的信息;
- 三四線城市/農村的用戶,只能接受視頻信息。
這也意味著,AI產品想要突破當前的圈層,勢必要延展出去,有更多模態(tài)的內容呈現(xiàn),才能讓用戶更加容易吸收。
我們會發(fā)現(xiàn)很多產品開始逐漸增加對多模態(tài)的支持,比如Genspark重新組織了Sparkpage在內容形式的組織上,比如一些AI游戲,把AI融入到游戲中的嘗試,都非常的有趣。比如百川也做了碟鏡Dreamland:
還有AiPPT類內容的組織,也很好的實現(xiàn)了Query to PPT方式的形態(tài),比如做得很好的Gamma:
這塊隨著技術的成熟也會逐漸開始發(fā)展起來,值得期待。
除了上面輸入輸出方面的的問題之外,還有下面的問題:
Q8:用戶認知和預期管理問題?
ChatBot形式的交互界面,很容易讓用戶高估 AI 的理解和解決問題的能力。
那我自己舉例子,作為一名蔚來車主,在看到蔚來宣傳Nomi接入大模型,升級為NomiGPT后,就嘗試做一些交流,但會發(fā)現(xiàn)很多問題給的答案都很差,就會默認覺得NomiGPT不行,下意識的會拒絕使用。
其實作為車機里的GPT,應該非常清晰的給出一些關鍵指引,比如用車相關,車控相關,這樣更容易讓用戶找到Good Case,而不是面面俱到,很容易就遇到Bad Case,宣傳角色扮演、樹洞情感陪伴,這種非常不好。
假如說1000萬次的總聊天互動次數(shù),那角色扮演和情感陪伴只占到總數(shù)的千分之二三,并且這兩點其實最先進的大模型都滿足的不好,何況一個接入了國產大模型的Nomi。
這背后就涉及到,要明確產品定位和功能邊界: 讓用戶清楚地知道 AI 產品能做什么,不能做什么。同時加強用戶的引導,再不斷提高用戶常見Query的效果。
Q9:個性化和定制化能力不足?
既然是Chat,用戶會把AI當成某個角色在腦海中進行演繹,但目前許多 Chatbot 產品就像流水線生產的“標準化”機器人,缺乏“個性”和“溫度”,無法滿足用戶對獨特體驗的需求。
比如,很多 Chatbot 的語言風格過于機械、生硬,缺乏情感和個性,無法與用戶建立情感連接。用戶難以感知到 Chatbot 的“人設”,更像是在與一個冰冷的機器對話。
比如,理想情況下,Chatbot 應該像一個貼心的朋友一樣,記住用戶的喜好和習慣,提供更加個性化的服務。但現(xiàn)實是,很多 Chatbot 缺乏記憶能力,無法根據(jù)用戶的歷史行為和偏好進行個性化推薦或服務。
能部分做到這一點的,拿到了OpenAI投資的Dot,在即刻已經發(fā)現(xiàn)一些朋友對這款產品極度的喜愛:
當然,受限于前面說的幾個問題,也會影響它被大眾接受的廣泛度。
再比如,很多 Chatbot 產品的功能和服務都是固定的,用戶無法根據(jù)自己的需求進行定制化設置。例如,用戶無法選擇 Chatbot 的語言風格、對話主題、信息推送頻率等。
還有,很多 Chatbot 產品的設計目標是服務于大眾用戶,缺乏對特定場景和用戶群體的針對性設計。例如,面向老年人的 Chatbot 產品應該是什么樣的?或者說并不需要一個ChatBot,而是一個人形機器人?
總而言之,個性化和定制化是 Chatbot 產品未來發(fā)展的重要方向。
Q10:大家都被ChatGPT和Character.ai騙了?
這個問題的核心在于,ChatGPT和Character.ai等聊天型AI產品是否在某種程度上誤導了用戶對AI的期望和認知。
首先,Chat這種形態(tài)的引入,還是把AI模擬成了人類,從圖靈測試開始,似乎大家對于AI就有了這種感性的認知,似乎Chat是必然的智能表現(xiàn)的形態(tài):
特別是ChatGPT和Character.ai流暢的對話能力,給用戶帶來了高度智能的錯覺。
所謂的LUI范式出現(xiàn)了。對應的問題一直沒有答案:
LUI是不是符合用戶需求的最佳范式?
沒有答案,大家都一直在探索,個人認為,LLM的智能,只用Chat來表達是非常狹隘的,隨著GPT4o和Gemini 1.5的多模態(tài)能力出現(xiàn),我們也發(fā)現(xiàn)了GPT5遲遲無法發(fā)布的前提下,大模型仍然在進化,也出現(xiàn)了更多的應用落地可能性。
把思考抽出來,重新理解Chat的局限,也有助于我們更好的設計產品。
本文由人人都是產品經理作者【Super黃】,微信公眾號:【AI產品黃叔】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!