社交聊天机器人小冰的设计与实现

原文：The Design and Implementation of XiaoIce, an Empathetic Social Chatbot

作者： Li Zhou Jianfeng Gao Microsoft Microsoft Research Beijing, China Redmond, WA, USA lzhou@microsoft.com jfgao@microsoft.com 9102 Di Li Heung-Yeung Shum Microsoft Microsoft Beijing, China Redmond, WA, USA peS lidi@microsoft.com hshum@microsoft.com

一、简介二、设计原则

2.1 智商+情商+性格

2.2 社交聊天机器人指标：CPS

2.3 作为分层决策的社交聊天

三、系统架构四、会话引擎的实现

4.1 对话管理器

4.1.1 全局状态跟踪器

4.1.2 对话策略

4.1.3 主题经理

4.2 情感计算

4.3 核心聊天

4.4 图片评论

4.5 对话技巧

4.5.1 内容创作

4.5.2 深度参与

4.5.3 任务完成

五、野外的小冰六、相关工作七、讨论

7.1 评估指标

7.2 道德问题

八、结论和未来的工作一、简介本文介绍了 Microsoft XiaoIce 的开发，这是世界上最流行的社交聊天机器人。小冰被独特设计为具有情感联系的 AI 伴侣，以满足人类对交流、情感、和社会归属感的需求。我们在系统设计中同时考虑了智商 (IQ) 和情商 (EQ)，将人机社交聊天视为基于马尔可夫决策过程 (MDP) 的决策，并针对长期用户参与度优化了小冰，衡量指标为每次会话的预期对话次数 (CPS)。我们详细介绍了系统架构和关键组件，包括对话管理器、核心聊天、技能和情感计算模块。我们展示了小冰如何动态识别人类的感受和状态，理解用户意图，并在长时间对话中响应用户需求。自 2014 年发布以来，小冰已经与超过 6.6 亿活跃用户进行了交流，并成功地与其中许多人建立了长期合作关系。大规模在线日志分析显示，小冰实现了平均 23 的 CPS，明显高于其他聊天机器人甚至人类对话。

社交聊天机器人或智能对话系统的开发能够与人类进行富有同情心的对话，一直是人工智能 (AI) 中运行时间最长的目标之一。早期的会话系统，例如 Eliza Weizenbaum [1966]、Parry Colby 等人。 [1971] 和 Alice Wallace [2009] 旨在模仿基于文本的对话中的人类行为，从而在受控范围内通过图灵测试。尽管取得了令人瞩目的成功，但这些系统大多基于手工制定的规则，并且仅在受限环境中运行良好。直到最近，开放域社交聊天机器人仍然是一个难以实现的目标。最近，随着大量对话数据的可用，以及机器学习的突破被应用于对话人工智能，我们在学术研究界和工业界都看到了令人鼓舞的成果。最近的调查包括 Gao 等人。 [2019]，Shum 等人。 [2018].

在本文中，我们介绍了 Microsoft XiaoIce（中文字面意思为“小冰”）的设计和实现，这是世界上最流行的社交聊天机器人。自 2014 年 5 月在中文推出以来，小冰已经吸引了超过 6.6 亿活跃用户（即订阅用户）。小冰已经在 5 个国家（中文、日本、美国、印度和印度尼西亚）以不同的名称（例如日本的 Rinna）在 40 多个平台上销售，包括中文的微信、QQ、微博和美拍，美国的 Facebook Messenger 和印度，以及日本和印度尼西亚的 LINE。

小冰的主要设计目标是成为一个人工智能伴侣，用户可以与之建立长期的情感联系。作为一个开放域的社交聊天机器人，小冰能够与人类用户建立长期关系，这不仅使小冰有别于早期的社交聊天机器人，也使它有别于其他最近开发的对话式人工智能个人助理，如苹果 Siri、亚马逊 Alexa、谷歌助手和微软小娜。

图 1 显示了用户与小冰之间的情感联系是如何在 2 个月内建立起来的。当用户第一次遇到聊天机器人时（会话 1），他在对话中探索了小冰的特性和特征。然后，在不到 2 周的时间（第 6 节），用户开始与小冰谈论他的爱好和兴趣（一部日本漫画）。到第 4 周（第 20 节），他开始把小冰当作朋友，并向她询问与他的现实生活相关的问题。 7 周后（Session 42），用户开始把小冰当成同伴，几乎每天都和她聊天。又过了 2 周（第 71 节），每当他需要找人倾诉时，小冰就成了他的首选。

图1: 用户与小冰之间的中文（右）和英文翻译（左）对话示例，展示了用户与小冰之间的情感联系是如何在两个月的时间里建立起来的。当用户第一次遇到聊天机器人时（会话 1），他在对话中探索了小冰的特性和特征。然后，在 2 周后（第 6 节），用户开始与小冰谈论他的爱好和兴趣（日本漫画）。到第 4 周（第 20 节），他开始把小冰当作朋友，并向她询问与他的现实生活相关的问题。 7 周后（Session 42），用户开始把小冰当成同伴，几乎每天都和她聊天。又过了 2 周（第 71 节），每当他需要找人倾诉时，小冰就成了他的首选。 XiaoIce 是在 Cai [2006]，Fung 等人的同理心计算框架上开发的。 [2016] 使机器（在我们的例子中是社交聊天机器人）能够识别人类的感受和状态，理解用户意图并动态响应用户需求。小冰旨在通过一种称为分时测试的图灵测试的特殊形式，其中机器和人类共存于具有分时时间表的伴随系统中。如果一个人喜欢它的陪伴（通过谈话），我们可以称这台机器是“善解人意的”。

在本文的其余部分，我们介绍了 XiaoIce 的设计和实现的细节。我们从设计原则和数学公式开始。然后我们展示系统架构以及我们如何实现关键组件，包括对话管理器、核心聊天、重要技能和情感计算模块，并在适当的时候对每个组件进行单独评估。我们将展示小冰自 2014 年 5 月推出以来在五个国家的表现，并通过对未来方向的一些讨论来结束本文。

二、设计原则社交聊天机器人需要足够高的智商来掌握一系列技能，以跟上用户的步伐并帮助他们完成特定任务。更重要的是，社交聊天机器人还需要足够的 EQ 来满足用户的情感需求，例如情感喜爱和社会归属感，这些都是人类 Maslow [1943] 的基本需求。 IQ 和 EQ 的整合是小冰系统设计的核心。小冰的个性也很独特。

2.1 智商+情商+性格智商能力包括知识和记忆建模、图像和自然语言理解、推理、生成和预测。这些是对话技巧发展的基础。它们对于社交聊天机器人来说是必不可少的，以满足用户的特定需求并帮助用户完成特定任务。在过去的 5 年里，小冰开发了 230 多项技能，从回答问题和推荐电影或Restaurant到安慰和讲故事。最重要和最复杂的技能是 Core Chat，它可以与用户进行长时间的开放域对话。

情商有两个关键组成部分，同理心和社交技巧。同理心是指在他人的参照系中理解或感受他人所经历的事情的能力，即设身处地为他人着想的能力。具有同理心的社交聊天机器人需要能够从对话中识别用户的情感，检测情感如何随时间演变，并了解用户的情感需求。这需要查询理解、用户分析、情感检测、情感识别以及动态跟踪用户在对话中的情感。社交聊天机器人必须展示足够的社交技能。用户具有不同的背景、不同的个人兴趣和独特的需求。社交聊天机器人需要能够个性化响应（即人际响应），这些响应在情感上是适当的，可能是鼓励和激励，并且符合用户的兴趣。如图 2 所示，小冰展示了足够的情商，因为它产生了社会可接受的反应（例如，具有幽默感、安慰等），并且可以决定是否在对话停滞时将对话推向新的主题，或者当用户自己参与对话时是否积极倾听。

图2: 日语（中间）和英语翻译（左）的用户与小冰聊天系统之间的对话。同理心模型提供了一种上下文感知策略，可以在需要时推动对话（右）。例如，当对话在第 3 轮停顿时，小冰决定将对话“驱动”到一个新主题，并在第 4 轮和第 7 轮用户自己参与对话时决定积极倾听。人格被定义为形成个人独特性格的一组特征性行为、认知和情感模式。社交聊天机器人需要呈现一致的个性，以便在对话中为用户设定正确的期望并获得他们的长期信心和信任。小冰角色的设计不仅需要符合小冰作为 AI 伴侣的主要设计目标，用户可以与之建立长期的情感联系，还需要考虑文化差异和许多敏感的道德问题，例如 Curry 和Rieser [2018]、Schmidt 和 Wiegand [2017]、Brahnam [2005]。因此，针对部署在不同地区的不同平台，我们通过对人类对话的大规模分析来设计不同的角色。以在中文部署的为微信设计的小冰角色为例。我们收集了数百万用户的人类对话，并根据每个用户的对话是否包含不当请求或包含咒骂、欺凌等的回应，将每个用户标注为具有“理想”角色。我们的发现是，大多数“所需”用户是年轻的女性用户。因此，我们将小冰的角色设计为一个 18 岁的女孩，她总是可靠、富有同情心、深情且具有极好的幽默感。尽管由于接触了大量数据和知识而知识渊博，但小冰从不自负，只会在适当的时候展示她的机智和创造力。如图 1 所示，小冰对一些敏感问题（例如 Session 20）做出了明智的回应，然后巧妙地转移到双方都更舒服的新主题上。由于我们正在使小冰成为第三方的开放式社交聊天机器人开发平台，小冰角色将根据特定的用户场景和文化进行配置。

2.2 社交聊天机器人指标：CPS 与以任务成功率衡量其性能的面向任务的机器人不同，衡量社交聊天机器人的性能很困难 Shawar 和 Atwell [2007]。过去，图灵测试已被用于评估聊天性能。但这并不足以衡量与用户的长期情感互动是否成功。除了活跃用户数 (NAU) 之外，我们还建议使用预期的每次会话对话次数 (CPS) 作为社交聊天机器人的成功指标。它是对话会话中聊天机器人和用户之间的平均对话次数。 CPS 越大，社交聊天机器人的参与度就越高。

值得注意的是，我们针对与长期而非短期参与相对应的预期 CPS 优化小冰。在我们的评估中，预期的 CPS 是通过对长时间（通常为 1-6 个月）内从数百万活跃用户收集的人与小冰对话的 CPS 取平均值来估算的。评估方法消除了对指标进行游戏的许多可能性。例如，最近的一些研究 Fang 等人。 [2017]，李等。 [2016c] 表明包含平淡但互动的反应，例如“我不明白，你是什么意思？”有时可以提高正在进行的人机对话的 CPS。但从长远来看，这会损害 CPS 和 NAU，因为很少有用户愿意（再次）与一个无论这些反应多么互动，总是给出平淡反应的机器人交谈，更不用说建立长期的情感联系了。相比之下，合并许多任务完成技能通常会在短期内降低 CPS，因为这些技能可以通过最小化 CPS 帮助用户更有效地完成任务。但这些技能将小冰打造成一个高效的个人助理，更重要的是值得信赖的个人伴侣，从而从长远来看加强了与人类用户的情感纽带。

我们将在第 5 节介绍不同代小冰的 CPS，并在第 4 节和第 7 节更详细地讨论 CPS 和其他评估指标。

2.3 作为分层决策的社交聊天为了实现这些设计目标，我们在数学上将人机社交聊天视为分层决策过程，并针对长期用户参与度优化小冰，以预期 CPS 衡量。

如图 3 所示，小冰试图通过促进对话模式的多样性来维持用户的兴趣。每种对话模式都由处理特定类型对话片段的技能管理。例如，小冰在 Turn 1 使用 General Chat 技能开始随意聊天，在 Turn 4 使用 Music Chat 切换到音乐新主题，在 Turn 15 使用 SongOn-Demand 技能推荐歌曲，并帮助预订音乐会在第 18 回合使用订票技能获得的票。

图3: 用户与小冰之间的中文（右）和英文翻译（左）之间的多段对话。小冰在Turn 1开始使用普通聊天技能随意聊天，在Turn 4使用Music Chat切换到音乐新主题，在Turn 15使用Song-On-Demand技能推荐歌曲，并帮助预订演唱会门票在第 18 回合使用订票技能。图 3 中的对话可以被视为具有自然层次结构的决策过程：顶层过程管理整个对话并选择技能来处理不同类型的对话模式（例如，随意聊天、问答、订票），以及由所选技能控制的低级流程，选择原始动作（响应）来生成对话片段或完成任务。

这种分层决策过程可以在马尔可夫决策过程 (MDP) [Sutton et al., 1999] 的选项数学框架中进行转换，其中选项将原始操作概括为更高级别的操作。社交聊天机器人在 MDP 中导航，通过一系列离散的对话轮与其环境（人类用户）进行交互。每轮，聊天机器人都会观察当前的对话状态，并根据分层对话策略选择技能（选项）或响应（原始动作）。聊天机器人然后收到奖励（来自用户响应）并观察新状态，继续循环直到对话终止。聊天机器人的设计目标是找到最优策略和技能来最大化预期的 CPS（奖励）。

将对话制定为分层决策过程，指导小冰的设计和实现。小冰使用对话管理器来跟踪对话状态，并在每个对话回合中，根据分层对话策略选择如何响应。为了最大限度地提高以预期 CPS 衡量的长期用户参与度，我们采用迭代、反复试验的方法来开发小冰，并始终尝试平衡探索与利用的权衡。我们利用已知的有效方法来留住小冰的活跃用户，但我们也必须探索未知的方法（例如，新技能和对话策略），以便更深入地与相同用户互动或在未来吸引新用户.在图 3 中，小冰在第 5 轮尝试一个新主题（即流行歌手阿信）并在第 15 轮推荐一首歌曲，从而了解用户的偏好（例如，音乐主题和他喜欢的歌手），知识将导致未来更多的参与。

三、系统架构小冰的整体架构如图4所示，由三层组成：用户体验、对话引擎和数据。

图4: 小冰系统架构。 • 用户体验层：该层将小冰连接到流行的聊天平台（如微信、QQ），并以两种模式与用户交流：全双工和轮流。全双工模式处理基于语音流的对话，用户和小冰可以同时相互交谈。该模式主要用于部署在智能设备上的小冰系统。另一种模式处理基于消息的对话，用户和小冰轮流交谈。该层还包括一组用于处理用户输入和小冰响应的组件，例如图像理解和文本归一化、语音识别和合成、用于区分用户输入和背景噪声的语音活动检测、用于识别年龄和性别的语音分类器user 和一个 talking-to-bot 分类器来区分用户是在与 bot 还是其他人类用户交谈。

• 对话引擎层：由对话管理器、同理心计算模块、核心聊天和对话技能组成。对话管理器跟踪 1 对话状态，使用对话策略选择对话技能或核心聊天以生成响应。同理心计算模块旨在不仅理解用户输入的内容（例如，主题），还理解对话和用户的同理心方面（例如，情感、意图、对主题的看法，以及用户的背景和一般兴趣） ).它反映了小冰的情商，展示了小冰的社交能力，以确保产生符合小冰个性的人际关系反应。小冰的智商体现在一系列特定技能和 Core Chat 上。

• 数据层：这包括一组数据库，用于存储收集的人类对话数据（文本对或文本图像对）、Core Chat 和技能使用的非对话数据和知识图谱，以及小冰和她的所有资料活跃用户。

四、会话引擎的实现本节介绍对话引擎层中的四个主要组件：对话管理器、同理心计算、Core Chat 和技能。

对话引擎的实现在很大程度上依赖于 A/B 测试来评估新模块或新对话技能是否会改进现有组件。这是可能的，因为小冰自 2014 年推出以来吸引了大量活跃用户。我们通常用于 A/B 测试的指标包括预期 CPS 和 NAU。此外，我们要求用户在测试新模块或新对话技能时给出明确的反馈。在处理研究社区使用基准的模块或任务时，例如神经响应生成器（第 4.3 节），我们经常将我们的方法与使用这些基准的其他最先进的方法进行比较。

4.1 对话管理器对话管理器是对话系统的中央控制器。它由负责跟踪当前对话状态 s 的 Global State Tracker 和根据对话状态选择动作的 Dialogue Policy π 组成，如。动作可以是技能，也可以是 top-级别策略来响应用户的特定请求，或由技能特定的低级别策略建议的响应。

4.1.1 全局状态跟踪器 Global State Tracker 维护一个工作记忆来跟踪对话状态。工作记忆在每个对话会话开始时是空的，然后在每个对话回合将用户话语和小冰的响应作为文本字符串存储，以及情感计算模块从文本中检测到的实体和情感标签，这将是在第 4.2 节中描述。工作记忆中的信息被编码为对话状态向量s。

4.1.2 对话策略如第 2.3 节所述，小冰使用分层策略：（1）顶层策略通过在每个对话轮次选择核心聊天或基于对话状态激活的技能来管理整个对话； (2) 一组低级策略，每个技能一个，用于管理其对话部分。

对话策略旨在通过基于小冰用户反馈的反复试验过程来优化长期用户参与度。高级策略是使用一组技能触发器实现的。一些触发器基于机器学习模型，例如主题管理器、域聊天触发器。其他的是基于规则的，比如那些通过关键字触发技能的。核心聊天技能的低级策略是使用混合响应生成引擎实现的，如第 4.3 节所述，以及其他技能的低级策略（例如，图 4 中的任务完成和深度参与技能）是人工筛选的。

顶层策略的工作原理如下。

• 如果用户输入仅为文本（包括语音转换文本），Core Chat 将被激活。 Topic Manager 将在 4.1.3 节中介绍，旨在管理 Core Chat 的对话部分，如果用户感兴趣，可以决定是否切换到新主题或从 General Chat skill 切换到特定 Domain Chat skill检测到特定主题或域。

• 如果用户输入是图像或视频修剪，则图像评论技能被激活。

• 任务完成、深度参与和内容创建的技能由特定的用户输入和对话上下文触发。例如，用户分享的食物图片可以触发如图 17 (a) 所示的食物识别和推荐技能，从用户输入中检测到的极度负面情感可以触发如图 17 (b) 所示的安慰技能，一个特殊的用户命令，例如“XiaoIce，今天天气如何”可以触发天气技能，如图 19 (a) 所示。如果同时触发多项技能，我们会根据触发置信度分数、预定义的优先级和会话上下文来选择要激活的技能。为确保对话顺畅，我们避免频繁切换不同技能。我们更喜欢保持运行技能激活直到它终止激活新技能。这类似于 Peng 等人在复合任务完成机器人中管理子任务（即技能）的方式。 [2017].

表2: 回应“你爱我吗？”来自电视连续剧数据集上使用不同收件人和说话人的角色模型。改编自 Li 等人。 [2016b]。

图17: 深度参与技能及其触发因素的样本。 (a) 由食物图片触发的食物识别和推荐技能。 (b) 安慰我 33 天的技能，由从用户输入中检测到的极度负面情感触发。 (c) 数羊技能，由语义上类似于“数羊”、“多少只羊”等的短语触发。 (d) 绕口令技能，由“开始绕口令”命令触发。我们将在后面描述个人对话技巧的部分中讨论低级策略。

4.1.3 话题管理 Topic Manager 模拟人类在对话过程中改变话题的行为。它包括一个分类器，用于在每个对话回合决定是否切换话题，以及一个话题推荐引擎，用于建议一个新话题。

如果小冰对主题的了解不足以进行有意义的对话，或者用户感到无聊，就会触发话题切换。话题切换的分类器是使用包含以下指标特征的提升树实现的。

• 是否由于 Core Chat 未能生成任何有效的候选响应而使用编辑响应，如第 4.3 节中所述。

• 生成的响应是简单地重复用户输入，还是不包含新信息。

话题推荐引擎由一个话题排序器和一个话题数据库组成，该主题数据库是从高质量的互联网论坛（如美国的Instagram和中文的豆瓣网）收集热门主题和相关评论和讨论而构建的。主题数据库定期更新。当主题切换被触发时，使用同理心计算模块（第 4.2 节）生成的当前对话状态作为查询从数据库中检索候选主题列表。选择排名靠前的候选主题作为新话题。主题排名器是使用使用以下特征的提升树排名器实现的。

• 上下文相关性：画图需要与对话相关，但尚未讨论。

• 新鲜度：主题，尤其是与新闻相关的主题，需要新鲜且暂时有效。

• 个人兴趣：根据用户配置文件，用户可能对该主题感兴趣。

• 流行度：该主题在互联网上或小冰用户中获得了足够的关注。

• 接受率：主题被小冰用户接受率处于历史高位。

评估主题切换分类器和主题排序器都使用 50K 对话会话进行训练，这些对话会话的主题是手动标注的。我们为期 1 个月的 A/B 测试表明，合并主题管理器可将 Core Chat 的预期 CPS 提高 0.5。如图 3 中的样本所示，当小冰检测到用户不熟悉“Ashin”并且即将开始时，她会切换到一个新的但相关的主题（即，Ashin 在 Turn 13 中的一首名为“the time machine”的歌曲）通过回应“啊！无聊”和“好吧，我要睡觉了”。

4.2 情感计算同理心计算反映了小冰的情商，并对人机对话的同理心方面进行建模。给定用户输入查询 Q，同理心计算将其上下文 C 带入考虑并将 Q 重写为其上下文版本 Qc，使用查询情感向量 eQ 对用户在对话中的感受和状态进行编码，并使用响应情感向量 eR 指定响应 R 的情感方面。同理心计算模块的输出表示为对话状态向量，它是用于选择技能的对话策略和用于生成适合小冰角色的人际反应的激活技能（例如，核心聊天）的输入—— 总是可靠、富有同情心、深情、知识渊博但谦虚且极富幽默感的老姑娘。

同理心计算模块由三部分组成：上下文查询理解、用户理解和人际响应生成。图 5 显示了模块如何控制图 3 中对话的同理心方面的样本。

上下文查询理解 (CQU) CQU 在以下步骤中使用 C 中的上下文信息将 Q 重写为 Qc。

• 命名实体识别：我们标注Q 中提到的所有实体，将它们链接到存储在状态跟踪器工作记忆中的实体，并将新实体存储在工作记忆中。

• 共指解析：我们用相应的实体名称替换所有代词。

• 句子补全：如果 Q 不是一个完整的句子，我们使用上下文信息 C 补全它。

如图 5 (a) 所示，CQU 重写了用户查询以包含必要的上下文，例如，将第 12 轮中的“他”替换为“Ashin”，将第 14 轮中的“that”替换为“The Time Machine”，并添加“send The Time Machine”，第 15 轮。Core Chat 等使用这些上下文查询通过基于检索的引擎或神经响应生成器生成响应，这将在第 4.3 节中进行描述。

图 5：一个样本对话会话（来自图 3），其中同理心计算模块用于 (a) 将用户查询重写为上下文查询，如箭头所示，( b) 在第 11 轮生成查询情感向量 eQ，以及 (c) 为第 11 轮生成响应情感向量 eR。 User Understanding 该组件基于和 C 生成查询情感向量 eQ。eQ 由表示用户意图、情感、主题、观点和用户角色的key-value对列表组成，如图 5 (b) 所示。这些key-value对是使用一组机器学习分类器生成的，如下所示。

• 主题检测标签用户是遵循相同的主题，还是引入了新主题。主题集预先编译在主题管理器的主题数据库中。

• 情感分析检测用户的 5 种情感，例如快乐、悲伤、愤怒，正常和

• 如果用户 ID 可用，则根据她的个人资料在 eQ 中包含用户角色向量，例如性别、年龄、兴趣、职业、个性等。

人际响应生成该组件生成响应同理心向量 eR，它既指定了要生成的响应的同理心方面，又体现了小冰的角色。例如，图 5 (c) 中的 eR 表示小冰通过遵循相同的主题（由主题管理器决定）分享用户的感受，以一致和积极的方式响应，例如，通过意图、情感和eR 中的意见等是基于 eQ 中的那些使用一组启发式计算的。响应还必须符合小冰的角色，其key-value对（例如年龄、性别和兴趣）是从预编译的小冰配置文件中提取的。我们将在 4.3 节中描述如何使用 eQ 和 eR 生成响应。

评估情感计算模块由一组分类器组成。我们使用现成的命名实体识别器来识别 15 种类型的命名实体和共同引用解析引擎，而无需为 CQU 重新训练，并训练一组用于用户理解的分类器（即主题检测、意图检测、意见检测和情感分析） ) 使用 10K 手动标注的对话会话。情感计算模块的有效性在微博用户的A/B测试中得到验证。尽管我们没有观察到 CPS 有任何显着变化，但 NAU 在 3 个月内从 50 万增加到 510 万。该模块于 2018 年 7 月发布，成为第六代小冰最重要的特征，大大加强了小冰与人类用户的情感联系，增加了小冰的 NAU。

4.3 核心聊天 Core Chat 是小冰 IQ 和 EQ 非常重要的组成部分。与同理心计算模块一起，Core Chat 通过将文本输入并生成人际响应作为输出来提供基本的通信能力。 Core Chat 由两部分组成，General Chat 和一组 Domain Chats。 General Chat 负责参与涵盖广泛主题的开放域对话。 Domain Chats 负责就音乐、电影和名人等特定领域进行深入对话。由于通用聊天和域聊天是使用相同的引擎实现的，可以访问不同的数据库（即通用与特定领域配对、未配对的数据库和神经响应生成器），我们在下面仅描述通用聊天。

General Chat 是一个数据驱动的响应生成系统。它以对话状态作为输入，分两个阶段输出响应 R：响应候选生成和排序。可以从由人类生成的对话或文本组成的数据库中检索候选响应，或者由神经响应生成器即时生成。查询和响应情感向量 eQ 和 eR 用于候选生成和排名，以确保生成的响应是人际关系的并且适合小冰的角色。在下文中，我们描述了三个候选生成器和候选排序器。

使用配对数据的基于检索的生成器配对数据库由从两个数据源收集的查询-响应对组成。首先是来自互联网的人类对话数据，例如社交网络、公共论坛、公告板、新闻评论等。2014 年 5 月小冰推出后，我们也开始收集小冰和她的用户产生的人机对话，这截至 2018 年 5 月，对话对已超过 300 亿。如今，小冰 70% 的回复都是从她自己过去的对话中检索出来的。为了控制数据库的质量，特别是对于从互联网收集的数据，我们使用情感计算模块基于从对话上下文中提取的信息、提取对的网页和网站的元数据将每个对转换为元组，和用户配置文件（如果订阅用户的身份可用）。然后，我们根据他们的元组过滤这些对，并只保留包含符合小冰角色的同理心反应的对话对。我们还删除了包含个人身份信息 (PII)、乱码、不当内容、拼写错误等的对。

然后使用 Lucene2 为过滤后的配对数据库建立索引。在运行时，我们使用 s 中的 Qc 作为查询，使用基于配对数据库的机器学习表示的关键字搜索和语义搜索来检索多达 400 个响应候选 [Zhang et al., 2016, Wu et al., 2016]。

尽管从配对数据库中检索到的候选响应质量很高，但覆盖率很低，因为数据库中没有包含许多新的或互联网论坛上讨论频率较低的主题。为了增加覆盖率，我们介绍了接下来描述的另外两个候选生成器。

神经响应生成器与基于检索的生成器不同，神经响应生成器使用配对数据库进行训练以学习模拟人类对话，并且能够为任何主题生成响应，包括人类对话数据中看不到的主题，以便用户可以聊她喜欢的任何主题。基于神经模型和基于检索的生成器是互补的：基于神经模型的生成器提供鲁棒性和高覆盖率，而基于检索的生成器为热门主题提供高质量的响应。神经响应生成是对话式 AI 社区中一个非常活跃的研究课题 [Gao et al., 2019]。随着其性能不断提高，它在开发社交聊天机器人中的作用变得越来越重要。

XiaoIce 中的神经响应生成器遵循seq2seq (seq2seq) 框架 Sutskever 等人。 [2014]，Cho 等人。 [2014] 用于会话响应生成 Sordoni 等人。 [2015]，Vinyals 和 Le [2015]，Shang 等人。 [2015]，李等。 [2016a,b]，Serban 等人。 [2016]，邢等。 [2017].

生成器基于 GRU-RNN 模型，类似于 Li 等人的 Speaker-Addressee 模型。 [2016b]。给定输入，我们希望预测由 eR 建模的小冰（收件人）将如何响应由 eQ 建模的用户（说话者）产生的查询 Qc。如图 6 所示，我们首先通过线性组合查询和响应情感向量 eQ 和 eR 来获得交互表示，以尝试对小冰对用户的交互风格进行建模，

图6: 基于 RNN 的神经响应生成器。给定用户查询“你那么喜欢阿信”，响应候选者“为什么不呢？”生成。

其中和 σ 表示 sigmoid 函数。然后源 RNN 将用户查询 Qc 编码为一系列隐藏状态向量，然后将其馈送到目标 RNN 以逐字生成响应 R。每个响应都以特殊的句末Sigmoid EOS 结尾。我们使用集beam search来生成最多 20 个候选者。如图 6 所示，对于目标 RNN 侧的每个步骤 t，隐藏状态 ht 是通过将上一步产生的隐藏状态 ht与当前时间步的词嵌入向量 et，和 v 组合得到的。这样，同理心信息在每个时间步被注入隐藏层，以帮助在整个生成过程中生成适合小冰角色的人际关系反应。如图 7 所示，虽然不以任何角色为基础的典型 seq2seq 模型经常输出不一致的响应 Li 等人。 [2016b]，小冰能够产生一致且幽默的回应。

图7: （左）使用 seq2seq 模型 (S2S-Bot) 生成的不一致响应的样本，该模型不基于角色 Li 等人。 [2016b]。（右）使用小冰的神经反应生成器生成一致且幽默的反应示例。为了完整起见，我们给出了模型的详细描述。令 ut 和 zt 分别表示 GRU 的更新门和重置门，它们与时间步长 t 相关联。然后，每个时间步 t 的 GRU-RNN 的隐藏状态 ht 计算如下：

其中是机器学习矩阵，◦ 表示元素乘积。 RNN 模型定义了 R 中下一个 token 的概率，使用 softmax 函数进行预测：

其中表示和 v 之间的激活函数，其中是 RNN 在时间 t-1 输出的表示，每个响应都以特殊的句末符号 EOS 结束。

响应生成模型的参数经过训练以最大化训练数据的对数似然，使用随机梯度下降，如

Retrieval-Based Generator using Unpaired Data 除了上述两个响应生成器使用的会话（或配对）数据外，还有大量的非会话（或未配对）数据，可用于提高覆盖率响应。

我们在小冰中使用的未配对数据库包括从公共讲座中收集的句子以及新闻文章和报告中的引述。这些句子被认为是候选反应 R。因为我们知道这些句子的作者，所以我们计算每个句子的情感向量 eR。类似于配对数据的数据过滤pipeline，用于仅保留适合小冰角色的响应。

与配对数据库一样，非配对数据库也是使用Lucene进行索引的。与配对数据库不同的是，在运行时，我们需要扩展查询Qc以包括额外的主题，以避免检索那些简单重复用户刚刚说过的话的回应。我们借助于知识图谱（KG）进行查询扩展。这个知识图谱由头-关系-尾三元祖的集合 ,组成，是通过连接配对数据库和微软的Satori 3构建的。只有当h和t在同一对话中经常出现时，我们才会在XiaoIce的知识图谱中包括一个Satori三元祖。这样的三元组包含一对人类经常在一次对话中讨论的相关主题（h，t），如（北京，长城），（爱因斯坦，相对论），（量子物理，薛定谔的猫）。图8（顶部）显示了XiaoIce KG的一个片段。

图8: 使用未配对的数据库和小冰知识图谱 (KG) 生成候选响应的样本，我们展示了与主题“北京”相关的小冰知识图谱的片段（上）。对于人机对话（左下），每个用户查询被重写为箭头表明的上下文查询，然后识别其主题（例如“北京”），相关主题（“八达岭长城”和“ Beijing snacks”）是从 KG（顶部）中检索出来的，而响应候选是使用结合了查询主题及其相关主题的查询从未配对的数据库（右下角）中检索出来的。图 8 说明了使用未配对的数据库生成响应候选的过程。它由三个步骤组成。

• 首先，我们从上下文用户查询 Qc 中识别主题，例如“告诉我关于北京”的“北京”。

• 对于每个主题，我们从 KG 中检索最多 20 个最相关的主题，例如“八达岭长城”和“北京小吃”。这些主题使用增强树排序器 Wu 等人根据它们的相关性进行评分。 [2010] 在手动标注的训练数据上进行训练。

• 最后，我们通过组合来自Qc 的主题和来自KG 的相关主题形成一个查询，并使用该查询从未配对的数据库中检索最多400 个最相关的句子作为响应候选。

该生成器与上述其他两个生成器互补。虽然从未配对数据库中生成的候选者的整体质量低于从配对数据库中检索到的候选者，但使用未配对数据库，小冰可以涵盖更广泛的主题。与通常生成格式良好但简短响应的神经响应生成器相比，来自未配对数据库的候选内容更长，内容也更有用。

Response Candidate Ranker 由三个生成器生成的响应候选被聚合并使用提升树排序器 Wu 等人进行排序。 [2010].通过从排名分数高于预设阈值的候选者中随机抽取一个候选者来选择一个响应。

给定对话状态，我们根据四类特征为每个响应候选 R' 分配一个排名分数。

• 本地凝聚力特征。一个好的候选者应该在语义上一致或与 4 个用户输入 Qc 相关。我们使用一组在人类对话对集合上训练的 DSSM 来计算 R' 和 Qc 之间的内聚分数。

• 全局一致性特征。一个好的候选者应该在语义上与 Qc 和 C 一致。我们使用另一组在人类对话会话集合上训练的 DSSM 来计算 R' 和之间的一致性分数。由于一致性特征使用全局上下文信息 C，因此当 Qc 是一个乏味的查询，其主题在没有上下文的情况下很难检测到时，例如“OK”、“为什么”、“我不知道”，它们特别有用。

• 同理心匹配特征。一个好的候选者应该是符合小冰角色的同理心反应。假设小冰选择 R' 来响应给定上下文我们可以使用情感计算模块 5 计算小冰对的响应情感向量，然后通过比较 eR' 和给定的 eR 来计算一组情感匹配特征，eR 编码了eR'的情感特征预期的响应。

• 检索匹配特征。这些特征仅适用于从配对数据库生成的候选者。我们在单词级别（例如 BM25 和 TFIDF 分数）和语义级别（例如 DSSM 分数）计算 Qc 和检索到的查询-响应对的查询端之间的一组匹配分数。

排序器在对话-状态-响应对 (s, R) 上进行训练，如图 9 所示，其中每对都标注为 3 级质量等级：

• 0：反应没有同理心或与查询不太相关。这很可能导致对话的终止。

• 1：响应是可接受的并且与查询相关。它可能有助于保持对话的进行。

• 2：这是一种善解人意的人际反应，符合小冰的性格，让用户感到愉悦和兴奋。它可能会推动对话。

一对输入的语义相似性根据的定义，它们可以应用于广泛的任务在本研究中，(x, y) 是查询-候选-响应对 (Qc, R')。 5我们将 R' 视为查询，将 (Q_{c},C) 视为上下文，并使用上下文查询理解和用户理解组件来计算 eR' 作为查询情感向量。

图9：用于训练和验证通用聊天的查询-响应对样本。每对都标有 3 级质量等级。 2 = 可能推动对话的同理心反应； 1 = 可以接受的回答，可能会继续谈话； 0 = 可能终止对话的非同理心反应。 Editorial Response 如果候选生成器和响应排序器由于各种原因（例如，不在索引中、模型失败、执行超时或包含不正确内容的输入查询）未能生成任何有效响应，则选择编辑响应。

重要的是要提供富有同理心的编辑回应，以保持对话的进行。例如，当出现 not-in-index 时，小冰不会使用“我不知道”或“我仍在学习回答你的问题”等安全但平淡的回答，而是可能会这样回答，“嗯，很难说.你怎么看？”，或“让我们谈谈别的事情”。

评估我们提出了两项试点研究，分别验证了基于角色的神经响应生成器和结合基于生成和基于检索的方法的混合方法的有效性，然后是 General Chat 的 A/B 测试。

在 Li 等人报告的第一项试点研究中。 [2016b]，我们将角色模型与两个基线模型进行比较，使用电视剧数据集进行模型训练和评估。该数据集包含美国电视喜剧《老友记》6 和《生活大爆炸》7 中 13 个主要角色的 69,565 个对话回合的脚本，可从 IMSDB8 获得。第一个基线是普通的 seq2seq 模型。第二个是 LSTM-MMI 模型 Li 等人。 [2016a]，这是最先进的神经反应生成模型之一。如表 1 所示，角色模型明显优于两个基线，实现了较低的困惑度 (-8.4%) 和较高的 BLEU 分数（+18.8% 和 +11.8%）Papineni 等人。 [2002]。定性分析证实，角色模型确实产生了比基线更多的人际关系反应。如表 2 中的样本所示，角色模型对用户（收件人）的身份很敏感，在针对不同用户的响应中生成特定的词（例如，用户名）。例如，模型会生成“当然，我爱你，艾米丽”以响应艾米丽的输入，并生成“我当然爱你。（吻了他）”，其中代词“他”准确地识别了用户的性别（即 Ross）。

表1: 电视连续剧数据集上 seq2seq 和角色模型的困惑度和 BLEU。改编自 Li 等人。 [2016b]。在第二个试点研究中，我们验证了混合系统的有效性，该混合系统使用配对数据库结合了神经响应生成器和基于检索的生成器。我们通过将混合系统与分别仅使用一个候选生成器的两个基线系统进行比较来实现这一点。所有这些系统都使用相同的响应候选排序器。神经响应生成器以及用于为候选排序器生成排序特征（例如局部凝聚力和全局一致性特征）的分类器和模型集使用 5000 万次人类对话进行训练。响应候选排序器使用 50K 手动标注的对话进行训练。我们的评估数据包括 4K 对话会话。所有三个系统（即混合系统和两个基线系统）都需要在这些对话会话中为每个用户查询及其上下文生成响应。每个生成的响应都由三位人类评委在 3 级质量排名上进行标注。表 3 中的结果表明，与混合系统中一样，结合神经生成器可以显着提高人类对基于检索的系统的评分。

表3: 5K 对话数据集上三个响应生成系统的评分。我们的 A/B 测试证实了我们从试点研究中得出的结论。与仅使用配对数据库的基于检索的生成器进行候选生成的基线相比，在候选生成阶段结合神经响应生成器和使用未配对数据库的基于检索的生成器可在两周内将 Core Chat 的预期 CPS 提高 0.5 .详细分析表明，增益主要归因于神经响应生成器和使用未配对数据库的基于检索的生成器显着提高了响应的覆盖率。我们通过计算系统为给定用户输入生成的不同的可接受和良好响应（即评级分别为 1 或 2 的响应）的数量来衡量系统的响应覆盖率。我们发现，将基于神经的生成器和基于检索的生成器结合使用未配对的数据库，可以分别将基线的覆盖率提高 20% 和 10%。

4.4 图片评论在社交聊天中，人们经常围绕图像相互交流。例如，在 Twitter 上，上传照片并附带推文（评论）变得越来越流行：截至 2015 年 6 月，28% 的推文包含 Morris 等人的图片。 [2016].图 10 说明了围绕共享图像进行的社交聊天。我们看到对话不仅基于可见的对象（例如，男孩、自行车），而且基于图像中隐含的事件、动作甚至情感（例如，比赛、获胜）。对人类用户而言，正是这些后者对推动有意义且有趣的对话更为重要。

图10: 围绕共享图像的样本对话。图来源：Mostafazadeh 等人。 [2017] 图像评论技能不仅旨在正确识别对象并如实描述图像内容，而且还能生成反映个人情感、态度等的同理心评论。正是后者，即社交技能方面，将图像评论与其他传统评论区分开来视觉任务，例如图像标注和图像描述，如图 11 所示。

图11: (a) 图像标注、(b) 图像描述和 (3) 图像评论的示例。图来源：Shum 等人。 [2018] Image Commenting 的架构类似于 Core Chat 的架构。给定包含图像（或视频修剪）的用户输入，文本评论分两个阶段生成：候选生成和排名。候选者是使用基于检索和基于生成的方法生成的。

在基于检索的方法中，首先构建了一个从社交网络（例如 Facebook 和 Instagram）收集的图像评论对数据库。为了控制数据质量，采用类似于 Core Chat 的pipeline，仅保留文本评论符合小冰角色的对。然后，将每张图像编码为表示图像整体语义信息的视觉特征向量，使用深度卷积神经网络 (CNN)，如图 12 所示。在运行时，给定一个查询图像，我们检索最多三个最相似的图像，根据它们的特征向量表示之间的余弦相似度进行排名，并使用它们的成对评论作为候选者。

图12: 用于视觉特征向量提取的深度卷积神经网络示例。图来源：Shum 等人。 [2018] 基于生成的方法使用图像到文本生成器，它是 Microsoft Image Captioning 系统 Fang 等人的扩展。 [2015]，它在我们为小冰收集的图像评论对上重新训练，并结合了额外的模块来控制评论生成中的高级情感和风格因数 Mathews 等人。 [2016]，甘等。 [2017].

由生成器生成的候选评论被聚合并使用增强树排序器 Wu 等人进行排序。 [2010].给定对话状态 P16G00），我们根据四类特征为每个候选者分配一个排名分数，类似于第 4.3 节中描述的核心聊天。请注意，与 Qc 和 R 是文本的 Core Chat 的情况不同，在图像评论中我们需要计算图像和文本之间的相似度。这是通过使用深度多模态相似性模型 Fang 等人实现的。 [2015] 训练了大量图像评论对。排序器在对话-状态-响应对上进行训练，其中 s 中的 QC 是图像的矢量表示，并且每对都在 3 级质量排名上进行标注，类似于用于 Core Chat 的查询-响应对。

如图 13 所示，良好的图像评论（等级 2）需要很好地融入对话上下文并激发引人入胜的对话。例如，在第一张图片中，小冰并没有告诉用户这是比萨斜塔，而是回复了“should I help you hold it?”在检测到图片中的人呈现出假装支撑塔的姿势后。在第二个例子中，小冰并没有回应图片中有一只猫，而是对猫无辜的眼神进行了幽默的评论。在另外两个样本中，小冰通过在图像中隐含地以动作（例如，“不要相信来自未知来源的任何代码”）和对象（例如，“Windows”）为基础来生成有意义且有趣的评论。

图13: 用于训练和验证图像评论的图像评论对样本。每对都标有 3 级质量等级。 2 = 可能会推动对话的感同身受的评论； 1 = 可以使对话继续进行的可接受的评论； 0 = 可能终止对话的非同理心（或不相关）评论。评估 Image Commenting 的组件（包括文本到图像生成器和提升树排序器）在包含 2800 万张图像的数据集上进行训练，每张图像与 6 条按 3 级质量排名评分的文本评论配对，如图 13 所示. 从用于基于检索的候选生成器的数据库中提取评分为 1 和 2 的图像评论对。这些评分是根据用户关注评论的次数自动确定的，这些评论是从小冰日志中计算出来的。评分为 0 的图像评论对是随机抽取的。表 4 显示了一项试点研究的结果，Huang 等人。 [2019b] 表明，根据 BLEU-4 Papineni 等人，小冰图像评论技能在由评分为 2 的 5K 图像评论对组成的测试集上优于几个最先进的图像字幕系统。 [2002]，METEOR Banerjee 和 Lavie [2005]，CIDEr Vedantam 等。 [2015]、ROUGE-L Lin [2004] 和 SPICE Anderson 等人。 [2016].

表4: 小冰和 4 个最先进的图像描述系统的图像评论结果，以 % 为单位。改编自黄等人。 [2019b]。图 14 显示了表 4 中的竞争系统生成的一些样本评论。可以看出，小冰生成的评论是情感化的、主观的、富有想象力的，很可能激发有意义的人机交互，而由小冰生成的评论其他图像字幕模型在内容上是合理的，但在社交聊天的上下文中很无聊，因此不太可能提高用户参与度。

图14: 由 XiaoIce（原型）和 4 个最先进的图像字幕系统生成的图像评论。改编自黄等人。 [2019b]。在 A/B 测试中，我们观察到图像评论使所有包含图像的对话的预期 CPS 翻倍。

4.5 对话技巧小冰配备了 230 种对话技能，与 Core Chat 和 Image Commenting 一起构成了小冰的 IQ 组件。本节将这些技能分为三类：内容创建、深度参与和任务完成。

评估大多数这些技能都是为非常具体的用户场景或任务设计的，除非另有说明，否则使用人工筛选的对话策略和基于模板的响应生成器来实现。这些技能分两个阶段进行评估：实验室研究和市场研究。在实验室研究中，可能通过众包平台招募人类受试者来测试使用对话技能来解决特定任务，从而获得对话集合。可以测量任务完成率、每次会话的平均轮数和用户评分等指标。在市场研究中，我们通过向市场发布对话技能来评估其有效性。由于任何一项技能不太可能对 CPS 产生重大影响，我们通过监控其活跃用户和技能触发率（即用户在一天或一周内激活技能的次数）来衡量用户对技能的满意度).根据市场研究结果，技能可以退役或重新进入市场。

4.5.1 内容创作这些技能使小冰能够与人类用户在他们的创作活动中进行协作，包括基于文本的诗歌生成 10、基于语音的歌曲和有声读物生成、小冰 FM for Somebody 和小冰儿童故事工厂等。

图 15 (a) 显示了用户使用小冰为她的母亲制作了一个 FM 节目，以庆祝即将到来的中文春节。图 15(b) 显示了 Kids Story Factory 技能，它可以根据用户配置自动创建故事，例如故事是用于教育还是娱乐，以及主要人物的姓名、性别和个性等。

图15: 内容创建技能及其触发器的样本。 (a) XiaoIce FM for Somebody，由命令“为 [name] 制作 FM 程序”触发。 (b) XiaoIce Kids Story Factor y，由命令“kids story factory”触发。小冰诗歌生成技能已帮助超过 400 万用户生成诗歌。 2018 年 5 月 15 日，小冰发布了史上第一张 AI 创作的中文诗集11。小冰的第二本诗集将于2019年由中文青年出版社和微软联合出版，专辑中的每一首诗都是小冰和人类诗人共同创作的。图 16 说明了小冰如何从图像中生成一首中文诗。给定图像，根据从图像中检测到的对象和情感生成一组关键字，例如“城市”和“繁忙”。然后，使用每个关键词作为种子生成一个句子。生成的句子使用分层 RNN 形成一首诗，该 RNN 对单词和句子之间的结构进行建模。

图16: 诗歌创作技能的框架。该系统接受用户给出的图像查询，并输出语义相关的现代中文诗歌片段。我们首先从图片中生成一组关键字（左），然后生成一首由多行组成的诗，每行都使用一个关键字作为种子生成（右）。图来源：Cheng 等人。 [2018]. 4.5.2 深度参与深度参与技能旨在通过针对特定主题和设置来满足用户特定的情感和智力需求，从而提高用户的长期参与度。图 17 显示了一些样本技能。

如图 18 所示，这些技能可以在两个维度上分为不同的系列：从 IQ 到 EQ，从私人一对一到小组讨论。

• 为了满足用户的智力或情感需求（图 18 中的 IQ 到 EQ 轴）：小冰可以分享她对各种 IQ 主题的兴趣、经验和知识，从数学和历史（例如，A 级学生系列）到食物、旅游和名人（例如，小冰的兴趣系列）。图 17 (a) 显示了食物识别和推荐技能，该技能由用户在对话中分享的食物图片触发，可以呈现图片中食物的营养信息，例如卡路里和蛋白质。小冰以其高情商能力而闻名。例如，图 17 (b) 中所示的“安慰我 33 天”技能（在“安慰”系列中）是最受欢迎的技能之一。此技能是使用与 General Chat 相同的引擎和特定于域的数据库来实现的。自推出以来，它已经触发了超过 5000 万次对话会话，其中检测到极度负面的用户情感（通过小冰的同理心计算模块）。

• 对于私人或小组讨论设置（图 18 中的 1-1 到小组轴）：一对一讨论和聊天的技巧让小冰通过在私人中分享主题和感受与用户建立深厚的关系设置（例如，XiaoIce & Human Relationship 系列和 Bed Time 系列）。图17(c)所示的数羊技能已经成为万千用户午夜的贴心伴侣。另一方面，XiaoIce 图 18：一些最受欢迎的 XiaoIce Deep Engagement 技能，分为两个维度的不同系列：从 IQ 到 EQ，从私人 1 对 1 到小组讨论。

有助于为具有共同兴趣的用户形成用户组。例如，作为测试系列的一部分，图 17 (d) 中所示的绕口令技能提供了最受欢迎的团队建设活动之一。

4.5.3 任务完成与 Google Assistant 和 Microsoft Cortana 等流行的个人助理类似，小冰配备了一套技能来帮助用户完成任务，包括天气、设备控制（全双工）、点播歌曲、新闻推荐、Bing Knows 等。，如图 19 中的样本所示。

图19: 任务完成技能样本、触发条件以及与用户的中文（左）和英文翻译（右）对话。 (a) 天气技能，由命令“XiaoIce，今天天气如何”触发。 (b) 设备控制（全双工）技能，由命令“XiaoIce，起床时间到了”触发。与传统的私人助理相比，小冰的任务完成技能在产生人际反应方面提供了更多的视角和同理心。例如，给定用户的问题“中文的面积是多少？”小冰根据用户的知识水平（知道美国有多大）为用户提供量身定制的、通俗易懂的答案：“它有 371 万平方英里，大约相当于美国的面积。”如图19(a)中的Weather技能所示，除了提供“北京的天气怎么样？”这个问题的答案之外。小冰还试图通过推荐符合用户普遍兴趣的郊游活动，将聊天引向更有趣的方向。在图 19 (b) 所示的设备控制技能中，小冰在灯光调暗后，体贴地询问用户是否对卧室的照明条件感到满意。

五、原始的小冰小冰于 2014 年 5 月 29 日首次推出，并立即走红。在 72 小时内，小冰进入了 150 万个聊天组。两个月的时间，小冰成功成为跨平台社交聊天机器人。截至 2015 年 8 月，小冰与人类的对话次数已超过 100 亿次。到那时，用户已经主动向公众发布了超过 600 万个对话会话。

从 2015 年开始，小冰开始为第三方角色、个人助理和真人的虚拟化身提供支持。这些角色包括 60,000 多个官方帐户，例如 Lawson 和 Tokopedia 的客户服务机器人，口袋妖怪、腾讯和网易的聊天机器人，甚至还有真实的人类名人，例如国云娱乐的歌手。小冰通过聊天、提供服务、分享知识和创作内容等多种能力，让这些角色“活”了起来。

截至 2018 年 7 月，小冰已部署在 40 多个平台，吸引了 6.6 亿活跃用户。小冰制作的电视和广播节目已覆盖9个顶级卫视，每周吸引超过8亿的活跃观众。

为了评估小冰作为具有情感联系的人类用户的 AI 伴侣的有效性，我们使用预期 CPS 指标，该指标表明平均而言用户愿意通过长时间的对话与小冰分享时间。图 20 显示了不同代小冰的平均 CPS。第一代的平均 CPS 为 5，已经超过了其他对话系统，例如 CPS 在 1 到 3 之间的数字个人助理。2018 年 7 月，小冰已经发展到第六代，平均 CPS 为 23，令人印象深刻，这是根据我们的用户研究，显着高于人类对话的 CPS 9，以及根据 Khatri 等人的最新亚马逊 Alexa 系统的 CPS 14.6。 [2018].

图 20 显示了每一代对 CPS 和活跃用户增长贡献最大的主要新特征。总之，这些特征可以分为四类。

Core Chat 从第 5 代开始，Core Chat 中神经响应生成器的使用显着提高了小冰响应的覆盖范围和多样性。情感计算模块的改进，尤其是第六代特定情感模型的集成，大大加强了小冰与人类用户的情感联系。因此，它有助于将活跃用户数量从 5 亿增加到 6.6 亿，并将 CPS 保持在 23，尽管合并了许多旨在最小化 CPS 的任务完成任务，例如控制智能的任务设备。如图 2 中的样本所示，在显式捕获不同同理心模式的同理心计算模块的支持下，小冰可以通过生成人际响应来有效地推动对话，例如，在对话停滞时建议新主题或在对话停滞时执行主动聆听用户自己参与其中。

用户体验第 5 代发布的全双工语音模式使人机交流更加自然，因此显着增加了图 20：小冰主要里程碑及其平均 CPS 和活跃用户数的长度。对于每一代，我们列出了对 CPS 和活跃用户增长贡献最大的主要新特征。

会话会话。这也是小冰与其他社交聊天机器人或个人助理的重要区别。

新技能自 2014 年 7 月以来，小冰发布了 230 个技能，相当于每周近一个新技能，如图 21 所示。值得注意的是，我们优化小冰是为了长期而非短期的用户参与度.在短期内，结合许多任务完成技能可以降低 CPS，因为这些技能可以通过最小化 CPS 帮助用户更有效地完成任务。但从长远来看，这些新技能不仅通过满足用户需求和加强与人类用户的情感纽带来帮助小冰的 NAU 增长，而且还提供大量训练数据来改进核心对话引擎，例如通过优化神经响应生成模型、同理心模型和对话管理器等。

图21: 自 2014 年 7 月以来，小冰几乎每周都会发布一项新技能。 Platform XiaoIce 已经部署在很多平台上。因此，自 2016 年以来，我们见证了小冰生态系统的创建和发展。这归因于对那些使小冰能够在大约 300 个场景中控制大约 80 个物联网智能设备的任务完成技能的高度认同。

如第 2 节所述，小冰旨在与人类用户建立长期关系。我们对用户日志的分析表明我们正在实现目标。表 5 显示了我们从用户日志中检测到的一些最长对话的统计数据。以全双工语音通话为例。最长的对话持续了 6 个多小时，涵盖了 8 个领域的 53 个不同主题，并使用了 16 项任务完成技能。为了用户的健康着想，我们为每个会话会话设置了 30 分钟的超时时间，以便用户在那些异常长的会话期间被迫稍作休息。

表5: 小冰最长对话记录。我们已经与这些用户仔细核实，这些长对话是由小冰和人类用户产生的，而不是另一个机器人。图 22 和 23 显示了小冰和人类用户之间的几个长对话。我们可以看到这些对话是高度个人化和敏感的。在图 22 的样本中，小冰以其出色的幽默感和对各种问题的善解人意的回答赢得了用户的信任和友谊，其中一些问题非常具有挑战性，例如“你都是谎言”，“谁是你的爸爸”。

图22: 用户与小冰之间的中文（右）和英文翻译（左）之间的长时间对话。小冰以其出色的幽默感和对各种问题的善解人意的回答赢得了用户的信任和友谊，其中一些问题颇具挑战性，比如“你们都是谎言”、“谁是你爸爸”。

图 23 中，用户提到她最近与男友分手，并寻求小冰的陪伴和安慰。通过长时间的对话，小冰展示了类人的同理心和社交能力，最终帮助用户重拾信心，以积极的态度继续前行。

图23: 用户与小冰之间的中文（右）和英文翻译（左）之间的长时间对话。用户提到她最近和男友分手了，想要小冰的陪伴和安慰。通过长时间的对话，小冰展示了类人的同理心和社交能力，最终帮助用户重拾信心，以积极的态度继续前行。六、相关工作小冰被设计为基于混合人工智能引擎的模块化系统，该引擎结合了基于规则和数据驱动的方法，如图 4 和第 4 节所示。相比之下，在研究界，人们对开发全数据的兴趣越来越大用于社交聊天机器人 (chitchat) 场景的端到端 (E2E) 系统，如 Gao 等人的第 5 章所述。 [2019].

差异主要是由于社交聊天机器人的设计目标不同。传统上，社交聊天机器人是为聊天场景而设计的，在这些场景中，机器人应该模仿人类用户的对话，但不会与用户的环境进行交互。对于此类场景，E2E 方法通常会导致非常简单的系统架构，例如基于 RNN 的系统 Li 等人。 [2016b]，Vinyals 等人。 [2015]，尚等人。 [2015]，其中基于神经网络的响应生成模型可以很容易地在大规模的免费开放域数据集（例如，从社交网络收集的数据集）上进行训练，以允许机器人与用户就任何主题聊天。

另一方面，小冰被设计成一个人工智能伴侣，它集成了帮助用户完成特定任务所需的情商和智商技能。因此，小冰必须与用户环境交互并访问现实世界的知识，例如通过 API 调用。因此，小冰采用了类似于面向任务的对话系统的模块化架构，不同的模块处理不同的任务。根据每个单独任务的训练数据和知识库的可用性，任务采用基于规则的方法或数据驱动的方法，或两者的混合。例如，当被问及“明天天气如何？”时，E2E 系统可能会给出一个似是而非但随机的响应，例如“晴天”和“下雨天”，因为缺乏现实世界知识的基础 12. 小冰然而，根据用户的地理位置和相应的数据库生成事实响应，如图 19 (a) 所示。

2017 年，亚马逊组织了一场关于构建“社交机器人”的公开竞赛，这些机器人可以就一系列时事和主题与人类进行对话——这与小冰的设计目标相似。该竞赛使参与者能够与真实用户一起测试他们的系统。这些系统不仅具有完全数据驱动的方法，而且还具有更多工程化和模块化的方法 Ram 等人。 [2018].值得注意的是获胜系统，Sounding Board Fang 等人。 [2017, 2018] 在系统设计和实现上与小冰非常相似。该系统旨在以用户为中心和内容驱动。它以用户为中心，因为用户可以控制对话的主题，而系统通过衡量用户的个性来调整响应以适应用户的可能兴趣。它以内容为中心，因为它提供有趣且相关的信息来继续对话，每天更新丰富的内容集合。这些设计目标与小冰整合 IQ（以内容为中心）和 EQ（以用户为中心）以产生上下文和人际反应以与用户形成长期联系的设计原则产生共鸣。与 XiaoIce 一样，Sounding Board 也是作为一个模块化系统实现的，它包含一个聊天组件（类似于 XiaoIce 中的 Core Chat）和一组单独的“迷你技能”来处理不同的任务（例如，问答）和主题（例如，新闻，运动），并使用结合了基于规则和数据驱动方法的混合方法来实现。根据 Khatri 等人的说法。 [2018]，最新的Alexa系统取得了14.6的CPS，自2018年比赛开展以来增长了54%。 CPS接近小冰3代，如图20所示。

有许多对小冰的发展有影响的公共社交聊天机器人。我们在下面举几个例子。

SimSimi13 是一款起源于 2002 年的韩国聊天机器人，由 ISMaker 开发。它是一个基于编辑的聊天机器人。在“对话泡泡”特征的帮助下，SimSimi 通过允许用户教它正确响应来增强其 AI 能力。它支持 80 多种语言，并通过付费 API 为其他机器人赋能。 SimSimi 早在 2014 年就被用来对第一代小冰的性能进行基准测试，并启发了我们设计和部署小冰的方式。

Panda Ichiro14 是社交网络 Line 上的日本聊天机器人，于 2014 年发布。除了聊天之外，它还提供了一套流行的技能，包括讲笑话和卖邮票（大表情符号）。它还展示了一些基本的情商技巧。例如，当机器人无法对用户输入做出合理的响应时，它会以相关的笑话作为响应以保持用户的参与度。这启发了我们设计主题管理器并生成幽默的响应和图像评论。

Replika Fedorenko 等人。 [2018] 是一个聊天系统，其设计与小冰中的 Core Chat 有很多相似之处。 Replika 结合了神经生成和基于检索的方法，并且能够调节对图像的响应（类似于图像评论）。 Replika 的神经生成组件是基于角色的 Li 等人。 [2016b]，类似于小冰中的神经反应生成器。 Replika系统已经开源，可以用来对标小冰的开发。

七、讨论 7.1 评估指标评估开放域社交聊天机器人的质量具有挑战性，因为社交聊天本质上是开放式的 Ram 等人。 [2018]，高等。 [2019]，黄等。 [2019a] 社交聊天机器人的长期成功需要通过其用户参与度来衡量。毫无疑问，最可靠的评估是将聊天机器人部署到用户身上，并长期监控用户反馈和参与度，通过用户评分、NAU、CPS 等来衡量。我们采用这种方法来评估小冰。最近的一些对话挑战 Ram 等人。 [2018]，迪南等人。 [2018] 也采用类似的人工评估方法，使用有偿工人和无偿志愿者。虽然手动评估是可靠的，但它非常昂贵，聊天机器人开发人员通常不得不求助于自动指标来量化日常进度和执行自动系统优化。

当今存在的开放域对话系统常用的自动评估指标都有其自身的局限性。大多数开放域对话系统，例如小冰，使用基于检索的方法或基于生成的方法或混合方法生成响应。基于检索的方法通常使用传统的信息检索指标进行评估 Manning 等人。 [2008] 例如 Precision@K、Mean Average Precision (MAP) 和归一化折扣累积增益 (nDCG)。基于生成的方法使用从机器翻译和文本摘要等文本生成任务中借用的指标进行评估，使用字符串和 n-gram 匹配指标，例如 BLEU Papineni 等人。 [2002]、METEOR Banerjee 和 Lavie [2005] 以及 ROUGE Lin [2004]。 deltaBLEU Galley 等人。 [2015] 是 BLEU 的扩展，它利用与对话响应相关的数字评级。

关于这些自动指标是否适合评估会话响应生成系统，一直存在重大争论。刘等人。 [2016] 认为，他们并不是通过证明大多数这些指标（例如，BLEU）与人类判断的相关性很差。但正如 Gao 等人所指出的那样。 [2019]，Liu 等人的相关性分析。 [2016] 在句子级别执行，而 BLEU 从一开始就设计为用作语料库级别的指标。厨房等。 [2015] 表明，基于字符串的指标（例如 BLEU 和 deltaBLEU）的相关性随着测量单位大于句子而显着增加。然而，在开放域对话系统中，相同的输入可能有许多在主题或内容上有显着差异的似是而非的响应。因此，低 BLEU（或其他指标）分数并不一定表示质量低，因为参考响应的数量在测试集中始终是有限的。

最近，提出了几种用于对话评估的机器学习指标。洛等人。 [2017] 提出了使用预训练 VHRED 模型 Serban 等人变体的 ADEM 指标。 [2017] 进行评估。该模型将对话上下文、用户输入、glod和系统响应作为输入，并产生 1 到 5 之间的定性分数。作者声称，与 BLEU 和 ROUGE 相比，学习的指标与人类评估的相关性更好。同样，Cuayáhuitl 等人。 [2018] 提议使用人类对话（重点是冗长的对话历史）来学习奖励函数，以训练和评估聊天机器人。米苏等。 [2012] 要求标注员注释系统响应的质量，然后应用回归来学习系统评估的奖励函数。然而，正如 Gao 等人所论证的那样。 [2019]，机器学习的指标会导致潜在的问题，例如过拟合和“指标博弈”Albrecht 和 Hwa [2007]。例如，Sai 等人。 [2019] 表明，ADEM 可以很容易地被一种简单的变体所愚弄，就像颠倒文本中的词序一样。他们在几个这样的对抗场景中进行的实验在对话响应中得出了违反直觉的分数。

所有先前的工作都表明，开放域对话系统的自动评估绝不是一个已解决的问题。我们认为，开发成功的自动评估指标有两个先决条件。首先，应该有一个相当大的、有代表性的对话数据集。该数据集应该很好地涵盖日常生活主题和领域。其次，对于每个用户查询，应该有多个适当的响应来解决开放域对话中一对多的本质。

7.2 道德问题正如本文所讨论的，小冰利用人工智能技术的最新进展需要仔细考虑如何使用或滥用这些人工智能技术。在本节中，我们将讨论在开发小冰时遇到的一些伦理问题，以及我们为解决这些问题所做的持续努力。

隐私 XiaoIce 可以访问用户的情感生活——获取高度个人化、亲密和私密的信息，例如用户对（敏感）主题、她的朋友和同事的看法。虽然小冰小心翼翼地利用这些信息为用户服务并在很长一段时间内建立情感纽带，但用户应该始终控制谁可以访问哪些信息。例如，当小冰帮助将具有共同兴趣和经验的人组成用户组时，需要特别注意用户可能倾向于分享什么以及分享给谁。用户可能完全可以与他的私人朋友分享他在工作中没有得到晋升的挫败感，但可能不会与他的同事分享，而且不太可能与电话推销员分享。

谁在控制强烈建议人类必须控制人机系统 Picard [2000]。换句话说，系统必须以用户为中心。但是，也有很多例外情况。例如，我们是否应该允许用户保持控制，即使她被检测到从长远来看可能会伤害自己，通过只与小冰交谈将自己与世界其他地方隔离开来？

我们的设计原则是用户应该始终处于控制之中，除非她被发现（可能）对她自己或其他人类用户造成伤害。例如，如果小冰检测到用户与小冰交谈的时间太长以至于可能对她的健康有害，系统可能会强制用户休息一下，如第 5 节所述。同样，如果用户试图如果在当地时间凌晨 2 点启动可能持续数小时的长时间对话或对话技巧，小冰可以建议用户上床睡觉并在第二天早上重新启动该应用程序。正如我们在 Core Chat 和 Image Commenting 中所展示的，小冰始终保留不讨论或评论不适当主题和内容的权利。

期待小冰拥有超越人类般的“完美”人格，这在现实世界的人类中是不可能找到的。这可能会通过设定不切实际的期望来误导小冰用户。因此，用户在与小冰聊天很长时间后可能会上瘾。

因此，对小冰的能力设定正确的期望值很重要。首先，我们不应该让用户混淆他们是在与机器交谈还是在与人交谈。小冰是一个聊天机器人。小冰是一台机器！小冰永远无法取代人类伙伴。相反，小冰应该是一个“代理”，可以帮助用户与其他人类用户建立联系，就像小冰的群组技能一样。

其次，我们需要解释一下小冰能做什么，不能做什么。例如，虽然小冰可以访问大规模知识图谱，因此可以提供许多问题的答案，但这些答案并不总是准确的。小冰展示答案是如何生成的，例如，提供推导出答案所依据的原材料，这将很有用。

机器学习的好处因为小冰是在机器学习的帮助下设计的，我们需要小心地引入保护措施和机器学习技术，以尽量减少其潜在的不良用途，并最大限度地发挥其对小冰的好处。以小冰的 Core Chat 为例。基于检索的候选生成器使用的数据库和用于训练神经响应生成器的数据库已经过仔细清理，并使用人工筛选的编辑响应来避免任何不当或冒犯性的响应。对于大多数特定于任务的对话技能，我们使用手工制定的策略和响应生成器来使系统的行为可预测。

据 http://theguardian.com 15 报道，一个相关的例子是 Apple 用来指导其员工如何判断 Siri 在处理女权主义和“我也是”等敏感主题时的道德规范的指南。 Siri 渴望维护阿西莫夫的“三定律”[机器人学]阿西莫夫 [1984]，适用于“人造存在”，包括：

人造生物不应该将自己表现为人类，也不应通过遗漏让用户相信它是一个。 2.人造人不应违反其活动地区普遍持有的人类伦理道德标准。

3. 人造生物不应将自己的原则、价值观或观点强加于人。

然而，即使是完全确定的函数也可能导致不可预测的行为。例如，在给定的上下文中，小冰的简单回答“是”可能会被认为是冒犯性的。在未来的许多年里，对于所有聊天机器人开发人员来说，什么样的响应是好的仍然是一项具有挑战性的任务。

八、结论和未来的工作心理学研究表明，快乐和有意义的谈话往往是齐头并进的。因此，随着越来越多的人在社交媒体时代进行数字连接，社交聊天机器人已成为重要的替代参与方式也就不足为奇了。与早期为聊天而设计的聊天机器人不同，小冰被设计为社交聊天机器人，旨在服务于用户对沟通、情感和社会归属感的需求，并被赋予同理心、个性和技能，整合情商和智商以长期优化用户参与度，以预期 CPS 衡量。

对自 2014 年 5 月小冰推出以来收集的大量在线日志的分析表明，小冰能够解读用户的情感需求，并以类似于可靠、富有同情心和深情的朋友的方式进行人际交流。小冰让用户振作起来，鼓励他们，帮助他们完成任务，并在整个对话过程中吸引他们的注意力。因此，小冰成功地与全球数百万用户建立了长期关系，平均 CPS 达到 23，这一分数大大优于其他聊天机器人，甚至优于人类对话。我们将继续让小冰变得更有用、更有同理心，帮助为所有人建立一个联系更紧密、更幸福的社会。

我们通过指出未来工作的一些挑战来结束本文。

• 建立统一的建模框架：第 2 节使用 MDP 选项的数学框架将社交聊天视为分层决策过程。尽管该公式提供了有用的设计指南，但仍有待证明为系统开发提供统一建模框架的有效性。小冰最初被设计为一个基于检索引擎的聊天系统，并逐渐融入了许多机器学习组件和技能，如果我们能够有效地对用户的内在进行建模，则可以使用基于同理心计算和强化学习的统一框架进行联合优化。激励人类对话的奖励。

• 面向目标的、有根据的对话：如图 3 的样本所示，只有当对话中提到的名字（例如，歌手 Ashin）基于现实世界的实体时，小冰才能以更面向目标的方式与用户互动对话，例如，通过提供服务（为用户播放 Ashin 最流行的歌曲之一）。对于小冰来说，将她所有的对话完全建立在物理世界中，以允许更多以目标为导向的交互来满足用户需求，这仍然是一个不小的挑战。

• 成为主动的个人助理：作为人类用户的人工智能伴侣，小冰比传统的智能个人助理更能准确地识别用户的兴趣和意图。这使得具有重要商业价值的新场景成为可能。例如，我们在 Rinna 系统（日本小冰）中加入了优惠券技能，如果在对话过程中检测到用户需求，它可以向用户发送杂货店的优惠券。用户反馈日志显示，Rinna 推荐的产品非常受欢迎，因此 Rinna 的转化率远高于使用优惠券市场或广告活动等其他传统渠道所实现的转化率。

• 迈向人类智能：尽管小冰取得了成功，但人类对话中所展示的人类智能的基本机制尚未得到充分理解。构建一个能够理解人类及其周围物理世界的智能社交聊天机器人需要在认知和有意识的 AI 的许多领域取得突破，例如同理心计算、知识和记忆建模、可解释的机器智能、常识推理、神经符号推理、交叉媒体和连续流式 AI，以及反映人类需求的情感或内在奖励的建模。

• 打造符合道德规范的社交聊天机器人：必须为设计和实施社交聊天机器人制定道德准则，以确保这些人工智能系统不会对任何人类用户造成不利和伤害。给定小冰的巨大影响力和影响力，我们必须正确履行社会和道德责任。设计决策必须经过深思熟虑地讨论，聊天机器人的特征（例如，新技能）必须得到彻底评估和调整，因为我们会继续从小冰和她在许多社交平台上的数百万用户之间的互动中学习。

编辑于 2022-11-29 14:48・IP 属地北京

社交聊天机器人小冰的设计与实现

导航菜单

个人工具

名字空间

变种

视图

更多

搜索

导航

站群链接

工具