超越机器人:在 AI 时代重新定义聊天机器人设计 [译]

超越机器人:在 AI 时代重新定义聊天机器人设计 [译]

从类人对话体验到语音定制与无障碍性,了解如何打造更智能、更以用户为中心的聊天机器人。

AI 的崛起改变了我们对产品设计和开发的思考方式。像 GPT、Gemini 这样的平台让我们能够打造前所未有的高水平聊天机器人,将尖端技术更好地融入日常应用。但这不仅是工具或功能的革新,更是对设计思路的根本转变。

对设计师而言,AI 的出现标志着 一个新的篇章的开始,需要我们重新审视传统流程并采用全新的方法。构建 AI 驱动的产品绝不是简单地“即插即用”;它需要对用户体验的细致关注,对用户行为的深入洞察,并致力于提供超越功能性的解决方案。有了 AI,我们获得了与用户更个性化沟通的绝佳机会,能针对他们的独特需求、偏好与局限性,打造量身定制的体验。

在过去的一年里,我专注于设计一款 AI 驱动的聊天机器人,期间积累了不少有价值的见解与经验。在本文中,我会分享一些关于如何让聊天机器人体验更加真实、自然和友好——也就是人们在对话式 AI 中真正期待的品质。


设计你的聊天机器人外观

在为聊天机器人进行可视化设计时,有几种思路。无面孔的聊天机器人(如 GPT、Gemini 或 Google Assistant)通常以简洁的插画或图标呈现,尤其在文字模式中,它们的头像尺寸很小,需要一个清晰易识别的设计。而在语音模式中,这些聊天机器人有时会用抽象的视觉元素,例如 GPT、Gemini 或最近改版的 Siri 所采用的风格。这在那些为广泛嵌入各种特定产品而设计的 AI 模型中很常见。(顺带一提,我个人很喜欢 Siri 的新外观!)

两张智能手机屏幕展示聊天机器人界面:左边为一个发光的球体图标搭配麦克风按钮,黑色背景;右边带有实时状态栏、渐变背景和通话控制按钮。

ChatGPT & Gemini 语音聊天模式

当我们更深入地开发面向特定用途的产品时,选择头像的策略也会相应改变。在这种情况下,常常可以看到聊天机器人带有角色化的头像。有些人可能觉得这样的做法太过直白,但在客户服务等场景下,这种方式往往非常有效。然而,若角色头像显得太过逼真却未达到足以让人感到“像真人”那种完美程度,就可能掉进“恐怖谷”(Uncanny Valley)——即头像看起来几乎像人类,但又稍显不足,以至于给用户带来怪异或不舒服的感觉。我将在后续文章中更深入地探讨这个问题。

两张智能手机屏幕展示 AI 教师界面:左边是“Camila”这位教师的简介(口音、大学背景等),右边则在家庭场景中与虚拟头像对话。

Praktika.ai:由生成式 AI 驱动的 1 对 1 自动家教

如何做出正确的设计选择

如果你不确定该采用哪种方式,可以考虑在设置中允许用户自定义聊天机器人的外观。提供几种不同风格,包括抽象和具象,让用户自由选择偏好。这样的方式不仅能让体验更具个性化,也能为你收集宝贵的数据。通过分析这些使用数据,你能发现趋势并做出更明智的设计决策。


定制声音:语调和风格

借助 ElevenLabs 这类新兴产品,我们现在可以更灵活地微调聊天机器人语音回复的语调和风格。设计师可以决定聊天机器人是采用中性、通用的语调,还是用更柔和、耳语般的音色,甚至根据具体情境动态地调整声线和语调。

白色界面中间有一个多彩动态圆形图案,标有“Listening”字样,界面元素整体简洁。

ElevenLabs.io:AI Agent;测试模式

为什么需要如此精细的定制?原因有二。首先,在现实生活中,我们说话的方式很少是单一线性的。 人类是情感化的存在,语境几乎总会影响我们的沟通。 例如,向别人道歉的语气和庆祝时的语气截然不同。若想让聊天机器人体验更贴近现实、(并可能提高用户参与度——虽然末尾还有一个警示,我会在文章最后提到),就需要让机器人根据对话内容的分量来调整说话风格,使得体验更真实。

良好的沟通远不止文字本身。根据著名的 55/38/7 公式,只有 7% 的信息通过文字传递,38% 来自声调,55% 来自非语言信号。因此,让聊天机器人呈现出更有人性与情感的回复至关重要。 ==这不仅要求聊天机器人语调与语境匹配,也要让它能更深层次地理解用户输入的情感内涵,从而带来真正自然的交互。==


口音的角色

聊天机器人的语音风格中,口音也是一个重要维度。对于英语国家以外的用户而言,人们通常会认为“标准”英国口音,即 Received Pronunciation (RP) 才是正统发音,但事实上随着时代变化,这种观念在弱化。英国本土就有将近 40 种不同的地区口音,各自都有独特的语音特点,展现了英语口语的多样性。

https://youtu.be/ZtD8bruCHw0

标准英音新式标准英国口音

ChatGPT 语音模式里一个惊喜且有趣的更新是它已经能切换口音。但是这不只是简单地选择一个口音(这一点其实已经很常见了),==你甚至可以要求它用“混合口音”,例如一个在爱尔兰生活多年的波兰人口音GPT 的表现非常不错,会把明显的东欧口音与爱尔兰英语典型的语速和韵律结合起来,听起来既真实又相当有趣。==

四张智能手机屏幕,界面上有“Choose a voice”的设置选项,每个界面都显示了一个发光的球体,并分别用“Santa”、“Spruce”、“Sol”、“Vale”标注,底部有“Start new chat”按钮。

ChatGPT:语音聊天;可选语音示例

试想:如果你要为英国不同地区设计客服聊天机器人,那么与其只提供单一的标准语音,不如让聊天机器人在不同地区采用当地口音,给用户带来更贴近生活、更有归属感的体验。比如在纽卡斯尔(Newcastle),聊天机器人就使用乔迪口音(Geordie),而在伯明翰(Birmingham)则使用布拉米口音(Brummie)。如此高度定制化的方式不仅能提升用户的参与度,而且还能融入当地文化特色,让交互更具亲切感与真实性。

虽然现在还没有任何模型能提供大范围的区域口音选择(比较遗憾),GPT 也只支持少量英语口音。但随着更多这方面的实验,区域口音定制的前景还是值得期待的。


文本显示:平衡信息长度与用户体验

在聊天机器人回复长度方面,像 GPT、Gemini 这样的平台通常会在简洁与深度之间做出平衡。默认情况下,这些模型会尽量简明扼要地回答,同时确保覆盖用户提问的核心。例如,对于简单问题,通常会给出 20–50 字左右的回答(英语单词数,这里做中文翻译时仅供参考)。

然而,并非所有聊天机器人都需要遵循这种策略。例如,故事型聊天机器人(Storytelling Chatbot)可能需要更长、更具吸引力的内容来娱乐用户,目标不仅仅是传递信息。

黑色界面上正在呈现打字机式的文本动画:顶部是用户输入的“写一个关于时间旅行冒险的故事”,下方慢慢显示机器人的文字回复。

ChatGPT:文字聊天模式

为什么这很重要?

让文本风格与产品目标以及对话情境相匹配是关键。同时,如果一段文字过长,而界面设计又不足以处理大篇幅内容,那么用户就会感觉负担过重。对文字呈现方式和交互设计的深入思考,可以使用户体验变得流畅,并让 UI 和 UX 相互配合、相得益彰。

观察当下的主流 AI 模型(GPT、Claude、Gemini、Grok 等),就会发现它们在向用户展示信息的方式上有显著差异:

  • GPT 和 Claude 采用类似打字机的样式,像是在实时“打字”逐字显示。这种方式虽然显得生动,但对于一些对视觉刺激或时间紧迫感比较敏感的用户来说,可能略显紧张。

黑色界面上在滚动显示文字的动画:顶部是用户“写一个关于时间旅行冒险的故事”的指令,文字在屏幕上逐字出现。

Claude:文字聊天模式

  • Gemini 则采用不同的方式,会先显示一个带有闪烁效果的加载动画,然后再将生成好的文字一次性呈现。这种方式略带悬念,也相对不那么突兀。

黑色界面上更平滑地显示文字动画:顶部是用户“写一个关于时间旅行冒险的故事”的请求,下方的文字分段出现。

Gemini:文字聊天模式

  • Grok 和 Pi.ai(基于 Claude) 在文字呈现方面则更加平滑自然。他们的文字出现速度和动画效果比较柔和,就算输出内容很长,阅读体验依旧舒适。

浅米色界面,左侧有内容建议栏,中间是对话提示区,底部是输入框,用户输入“写一个关于时间旅行冒险的故事”,内容渐渐呈现。

Pi.ai:文字聊天模式

管理认知负担

聊天机器人设计中另一个关键是 管理认知负担,尽量减少视觉干扰并保持用户的关注重点。例如 Pi.ai 会在生成新回复时将较早的回复收起或移除视野,让界面保持整洁,并将重点放在当前信息上,不会被过长的聊天记录淹没。


调整回复节奏

对于语音聊天机器人而言,一个较少被深入探讨的设计点是让用户在设置里调整聊天机器人的回复速度。类似的工具在屏幕阅读器场景相当常见,但在语音聊天机器人领域仍是少数。

设想一下,界面里简单提供两个滑杆:

  • 一个控制 总体语速(机器人说话有多快),

  • 另一个控制说话过程中不同句子或段落间的 停顿时长

这项功能其实很简单,却极其实用,可惜目前在 AI 聊天机器人里还不常见。(如果你见过提供类似功能的机器人,欢迎在评论中告诉我!)

智能手机界面,展示“VoiceOver”设置中的“Speaking Rate”滑杆选项,显示此滑杆被调到较低速率。

VoiceOver 无障碍设置:语速调节滑杆

这样做对以下人群非常有帮助:

  • 有听力障碍 的用户,需要更慢、更清晰的回复。

  • 非母语用户,通常需要更慢的语速与更长的停顿来理解。

  • 有认知障碍 的用户,更慢、更有节奏感的语音能帮助他们理解。

  • 高压环境 中的用户(例如心理健康或危机援助聊天场景),更慢、更平和的语音能降低焦虑。

加入这样的小功能不仅能提升可访问性,也能让体验更具个性化,给用户带来更加友好和舒适的使用感受。


其他对话方式与界面模式

目前,人机语音对话主要有三种常见的 UI 模式:

  1. 语音对语音模式(Voice-to-Voice):最自然,用户完全免去实体操作设备的需求。

  2. 按住说话(Hold-to-Talk):用户按住麦克风按钮开始说话,松手后停止输入。

  3. 录音模式(Record Mode):类似绝大多数即时通讯软件,用户录好音后发送给聊天机器人(或者真人)。

三张智能手机屏幕展示发光的蓝色“环形”符号,黑色背景,分别标注“Listening”、“Hold to Talk”以及显示音波的界面。

1:语音对语音;2:按住说话;3:录音

从沟通的角度来看,语音对语音是最自然的方式,但就算是功能很强大的 ChatGPT,目前在用户体验层面仍有一些障碍。其中一个明显问题在于,聊天机器人仍难以精准判断用户是否说完了话。

优化语音交互

在最新版本的 GPT 语音聊天中,偶尔会出现用户思考停顿时,机器人误判其已说完并开始作答的情形,这会打断对话的连贯性。不过,GPT 提供了一些可显著改善体验的功能:

  • 可打断性(Interruptibility):用户可以在机器人回答到一半时进行打断。机器人会立即停止讲话并切换回聆听状态,让用户继续发言。

  • 可调整聆听时长(Adjustable Listening Time):用户可以让机器人“等我说完再开始回答”,这样停顿思考时也不会被错误打断,使对话更加顺畅。

这些设计让最新的 GPT 成为了功能最先进的语音聊天助手之一,在解决语音对语音互动的常见问题上进展明显。

可靠的语音输入方式

如果你正在设计聊天机器人,尤其是语音交互,需要正视上述挑战。就目前的技术水准而言,以下输入方式还是最稳妥的:

  • 按住说话(Hold-to-Talk):简单易用,又能最大程度避免对识别说话结束时机的误判。

  • 录音模式(Record Mode):更适合异步的语音输入,广泛被用户接受。

虽然完全免操作的语音对语音体验正在迅速提升,但它还没达到完全无误的程度。暂时来说,借助可控性更高的按住说话或录音模式,能给用户提供更可靠的使用体验。随着技术的不断进步,语音对语音终将变得无缝流畅,但现在还需要一段时间。


总结

以上提到的各个设计点,并不是一套放之四海而皆准的绝对指导。因为我们正处在“机器人时代”的早期阶段,而聊天机器人本质上也属于机器人范畴——我们并不完全能预测用户会如何适应。 有些聊天机器人也许更加适合自然、类人化的风格,另一些则可能在“更死板、更机械”的模式下表现更好。

面对这场 UX/UI 新变革,没有一个统一的公式或通用的最佳方案。想要打造高性能聊天机器人,需要不断 迭代——设计、测试、学习、再设计。只有通过这个循环,才能持续优化并顺应用户不断变化的需求和偏好。


推荐阅读