查看“微软小冰主要框架和流程及相关技术”的源代码
←
微软小冰主要框架和流程及相关技术
跳转至:
导航
、
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
{{5}}作者:Jeu 来源:[https://blog.csdn.net/cuipanguo/article/details/90481447 CSDN] 主要是看了知乎上面一位作者写的解析,然后自己在看的过程中顺带记录一下,流程差不多,自己写的话复习比较直观快速 [[文件:小冰框架和流程01.jpg]] 1、Query是用户输入的问题 2、DM(对话管理模块)层: [[文件:小冰框架和流程02.jpg]] 这一模块分为:状态追踪(对句子进行处理CQU+UU+SU)+对话策略(确定使用后续哪个功能) 状态追踪=s=(Qc,C,eQ,eR)=CQU(带背景query理解)+UU(用户理解)+SU(系统理解) C是对话背景; Qc是利用C对用户当前queryQ进行改写; eQ是用户相关的各中心信息,如当前情绪、对话题的观点、个人资料等; eR是小冰的信息,和上面类似。 CQU=实体识别+指代消解+句子补全 UU = 基于Qc和C产生eQ,包括话题+意图+情感+观点+个人资料 SU = eR,有些直接从UU拷贝,如话题等。 对话策略=依据更新后的对话状态来决定接下来的策略,也即决定这个信息是交由哪个功能处理,是核心闲聊还是某个技能。激活某个功能后,这个功能也会有自己的对话策略或者流程,来最终决定返回什么信息作为回复,称为分层决策 优化过程:RL模型和EE策略 3、核心闲聊(Core Chat) 这一块分为两类:通用闲聊(一般性信息)+领域闲聊(带主题) 话题管理(Topic Manager):分类模型。继续当前话题还是开启新话题(无法产生有意思回复或用户对当前对话感觉无聊) 新话题:话题库是利用一些高质量论坛爬取的数据构建,检索+排序:与背景信息相关性+新鲜度+用户感兴趣+流行度+接受度+boosted tree 通用闲聊:图示就是说的检索+排序 [[文件:小冰框架和流程03.jpg]] 检索主要是产生response候选集,这些候选集再由排序模块进行排序。方法有三种:Paired-Data based Retriever(PDR)+Neural Response Generator(NRG)+Unpaired-Data based Retriever(UDR) PDR:系统收集了很多query-response对(网上各种平台+小冰日志),检索器从这些qr中检索出最相关的一些候选,获取的qr使用同理心计算模块(模块2)转化成s,然后基于小冰的人设和其他规则过滤掉不合适结果。线上使用时,Qc作为检索输入,然后利用关键词搜索和语义搜索从候选库中检索出400个最相关的qr对,PDR产生的response效果很好,但覆盖面比较小。 NER:使用了标准的GRU-RNN seq2seq框架,训练数据就是收集的qr对,输入上除了Qc外,还会使用eQ,eR, [[文件:小冰框架和流程03-1.png]] 然后把v注入到解码器的每个时间点。 [[文件:小冰框架和流程04.jpg]] NRG使用beam search产生20个response。覆盖面广,效果差,生成文本一般比较短。 UDR:从网上的公开演讲和新闻报道收集unpaired句子。和PDR不同,UDR中只有候选response数据,而没有对应的query数据。所以线上使用光靠query是无法确定哪些候选response更合适,q和r之间需要一个桥梁。解决方案是引入知识图谱KG来搭起这座桥。 处理过程: 识别Qc中包含的所有话题 对于每个话题,从KG中检索出20个最相关的话题。最相关是利用boosted tree模型排序得到,模型的训练数据是人为标注。 query中的所有topic和上一步检索的topic一起作为检索输入,从收集的unpaired的数据集中检索出400个最相关的句子作为候选response。 UDR的候选质量没有PDR好,但覆盖面更广。UDR的结果比NRG生成的结果包含更多文字。 排序:PDR\UDR\NRG生成所有的候选response,利用boosted tree模型统一排序,最终的response基本是最高的那一批结果。=局部凝聚力(DSSM)+全局凝聚力(DSSM)+同理心匹配(计算期望eR之间的匹配度)+检索匹配(BM25、TF-idf、DSSM) 编辑回复:无法回复时,口语化表述 4、对话技能(Skills) =图片评论(Image Commenting)+内容创建(Content Creation) +互动(Deep Engagement)+任务完成(Task Completion) 图片评论:用户发图---检索和生成候选response---排序,具体过程如下 RR首先从社交网站上收集图片、评论对,对输入图像首先量化(CNN)等,然后检索出3张最相思图片,对应评论就是候选评论了。 GR(Generator-based Retriever)就是image-to-text的结构,只是会融入对生成结果的情感和形式要求 Ranker boosted tree模型 内容创建:用户设置条件,小冰创建(具体框架不知) 互动:小冰和用户一起做情绪和智能方面的互动 任务完成: [[文件:小冰框架和流程05.jpg]]
该页面使用的模板:
模板:5
(
查看源代码
)
返回至
微软小冰主要框架和流程及相关技术
。
导航菜单
个人工具
登录
名字空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
社区主页
新闻动态
最近更改
随机页面
帮助
华师附中老三届
站群链接
社友网(sn)
产品百科(cpwiki)
产品与服务(sn)
社区支持农业(sn)
工具
链入页面
相关更改
特殊页面
页面信息