一种融入外部知识的端到端对话方法及系统技术方案

技术编号:22000139 阅读:55 留言:0更新日期:2019-08-31 05:22
本发明专利技术公开了一种融入外部知识的端到端对话方法及系统,其中,该方法包括:获取输入文本信息;获取与输入文本信息对应的对话历史信息,对对话历史信息进行编码,生成历史信息向量;获取数据库信息,通过外部数据库接入模块的多头键值对记忆网络对数据库信息进行编码,生成数据库向量;对输入文本信息进行编码,并根据历史信息向量和数据库向量生成文本回复。该方法搭建一个完全基于注意力机制的对话系统,降低模型训练时间,从多个维度提取知识库信息,增强知识库检索能力。

An End-to-End Dialogue Method and System Integrating External Knowledge

【技术实现步骤摘要】
一种融入外部知识的端到端对话方法及系统
本专利技术涉及数据交互
,特别涉及一种融入外部知识的端到端对话方法及系统。
技术介绍
对话系统作为人工智能的一个研究热点,以其潜在的智能便利性和诱人的商业价值,得到学术界和工业界的广泛关注。传统的任务型对话系统采用流水线方法,由语言理解、状态跟踪、数据库查询与语言生成四个模块组成,但模块化的对话系统在训练的过程会非常依赖特定领域的数据,若迁移至别的领域需根据新数据重新训练各个模块的模型,同样在确定错误来源时需要在各个模块中进行繁琐的错误分析,耗费大量人力。在这样的环境下,如何简化对话模型,使用最少的人力实现可迁移的任务型对话系统是现在研究的重点课题。目前虽大多企业仍采用传统模块化方式构建任务型对话,但仍有部分企业与学者尝试将端到端方法应用到对话系统构建中。端到端方法直接将用户输入映射到回复生成中,省去中间繁复的模块构建,减少人力耗费且迁移性强。但端到端方法由于模型过于精简,回复生成精度与效果都与实际应用存在距离;并且模型常基于RNN构建,串行框架解码时存在耗时问题,数据库难以寻到合适位置融入对话模型中。在相关技术中,公开了一种流水线处理的对话系统,但该对话系统不包括语言生成,最终的回复是在模版中选取。该对话系统包括:输入处理器,提取对应于用户的话语的动作;存储装置,存储语境信息的信息值;对话管理处理器,从存储装置获取用于确定对应于用户的话语的动作是否可执行的条件确定参数的参数值以及结果处理器,通过使用所获取的动作参数的参数值,生成对执行所确定的动作的响应。另外还公开了一种改进的封闭域智能人机对话系统,着重改进流水线方法中的意图识别和对话管理。该系统包括:第一建模模块,第一建模模块用于基于双向长短时记忆网络和卷积神经网络构建多特征融合深度意图识别模型;第二建模模块,用于采用人机对话状态系统当前状态输入与上下文语句联合建模方式来构建基于MC-BLSTM-MSCNN的对话状态跟踪模型;第三建模模块,用于构建基于移位注意力机制的域外恢复机制的Bi-LSTM匹配模型,以将识别到的用户意图、用户槽值输入移位网络进行注意力机制的权重分发,实现对话状态的编码和对话控制的匹配。相关的对话系统采用流水线方法和端到端方法得到回复。流水线方法虽技术成熟、广泛用于工业界,但存在模型相互依赖,不以纠错,耗费人力等问题;端到端方法虽解决流水线方法中模块依赖和耗费人力的问题,但由于技术并不成熟,缺乏外部知识的支撑与实际应用场景下的推理能力,影响对话质量与任务的完成度。相关技术中的端到端任务型对话系统绝大部分都是无数据库支持的,且都采用传统流水线RNN方法编码对话过程,训练上耗费大量时间,并未有一种通用的高效实用且可访问数据库的对话系统。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种融入外部知识的端到端对话方法,该方法搭建一个完全基于注意力机制的对话系统,降低模型训练时间,从多个维度提取知识库信息,增强知识库检索能力。本专利技术的另一个目的在于提出一种融入外部知识的端到端对话系统。为达到上述目的,本专利技术一方面实施例提出了一种融入外部知识的端到端对话方法,包括:获取输入文本信息;获取与所述输入文本信息对应的对话历史信息,对所述对话历史信息进行编码,生成历史信息向量;获取数据库信息,通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码,生成数据库向量;对所述输入文本信息进行编码,并根据所述历史信息向量和所述数据库向量生成文本回复。本专利技术实施例的一种融入外部知识的端到端对话方法,通过一个知识型高速有效的并行化端到端任务型对话系统,设计友好的外部数据库访问入口,并采用基于注意力机制的transformer框架编码对话信息,综合考虑对话历史信息,且并行化框架大大减少对话模型训练时间,增强工业适用性。另外,根据本专利技术上述实施例的一种融入外部知识的端到端对话方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述获取对话历史信息,对所述对话历史信息进行编码,生成历史信息向量,包括:对所述对话历史信息进行分词和编号生成所述历史信息对应的词语的索引,利用学习好的嵌套模型将所述索引转化为词向量;获取词语间的相对和绝对位置信息,根据所述相对和绝对位置信息生成位置向量;将词向量和位置向量相加输入到对话历史信息编码模块,经过所述对话历史信息编码模块的多头自注意力机制和前向网络,生成所述历史信息向量。进一步地,在本专利技术的一个实施例中,所述历史对话信息包含历史对话轮次信息和当前对话轮次信息。进一步地,在本专利技术的一个实施例中,所述获取数据库信息,通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码,生成数据库向量,包括:所述数据库信息以三元组的形式存储,将所述数据库信息编码进所述多头键值对记忆网络的记忆结构,在用户输入对话询问时,通过键值对机制进行数据库检索,得到最终的数据库查询值,生成数据库向量。进一步地,在本专利技术的一个实施例中,对所述输入文本信息进行编码,并根据所述历史信息向量和所述数据库向量生成文本回复,包括:对所述输入文本信息进行处理得到词向量和位置向量,将词向量和位置向量相加作为输入向量输入到对话回复解码模块的掩码多头自注意力机制部件,对所述输入文本信息进行编码;将编码后的所述输入文本信息分别输入所述对话回复解码模块的多头文本自注意力机制部件和所述外部数据库接入模块;所述多头文本自注意力机制部件根据所述对话历史信息编码模块生成的所述历史信息向量和所述掩码多头自注意力机制部件的输出,进行注意力运算后输入所述对话回复解码模块的前向网络中得到所述对话回复解码模块的最终输出信息;将所述对话回复解码模块最终输出信息和所述外部数据库接入模块的所述数据库向量进行连接,再做线性变换拟合逻辑回归映射到最终的词表上,生成所述文本回复。为达到上述目的,本专利技术另一方面实施例提出了一种融入外部知识的端到端对话系统,包括:获取模块,用于获取输入文本信息;第一生成模块,用于获取与所述输入文本信息对应的对话历史信息,对所述对话历史信息进行编码,生成历史信息向量;第二生成模块,用于获取数据库信息,通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码,生成数据库向量;第三生成模块,用于对所述输入文本信息进行编码,并根据所述历史信息向量和所述数据库向量生成文本回复。本专利技术实施例的一种融入外部知识的端到端对话系统,通过一个知识型高速有效的并行化端到端任务型对话系统,设计友好的外部数据库访问入口,并采用基于注意力机制的transformer框架编码对话信息,综合考虑对话历史信息,且并行化框架大大减少对话模型训练时间,增强工业适用性。另外,根据本专利技术上述实施例的一种融入外部知识的端到端对话系统还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述第一生成模块,具体用于,对所述对话历史信息进行分词和编号生成所述历史信息对应的词语的索引,利用学习好的嵌套模型将所述索引转化为词向量;获取词语间的相对和绝对位置信息,根据所述相对和绝对位置信息生成位置向量;将词向量和位置向量相加输入到对话历史信息编码模块,经过所述对话历史信息编码模本文档来自技高网
...

【技术保护点】
1.一种融入外部知识的端到端对话方法,其特征在于,包括以下步骤:获取输入文本信息;获取与所述输入文本信息对应的对话历史信息,对所述对话历史信息进行编码,生成历史信息向量;获取数据库信息,通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码,生成数据库向量;对所述输入文本信息进行编码,并根据所述历史信息向量和所述数据库向量生成文本回复。

【技术特征摘要】
1.一种融入外部知识的端到端对话方法,其特征在于,包括以下步骤:获取输入文本信息;获取与所述输入文本信息对应的对话历史信息,对所述对话历史信息进行编码,生成历史信息向量;获取数据库信息,通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码,生成数据库向量;对所述输入文本信息进行编码,并根据所述历史信息向量和所述数据库向量生成文本回复。2.根据权利要求1所述的方法,其特征在于,所述获取对话历史信息,对所述对话历史信息进行编码,生成历史信息向量,包括:对所述对话历史信息进行分词和编号生成所述历史信息对应的词语的索引,利用学习好的嵌套模型将所述索引转化为词向量;获取词语间的相对和绝对位置信息,根据所述相对和绝对位置信息生成位置向量;将词向量和位置向量相加输入到对话历史信息编码模块,经过所述对话历史信息编码模块的多头自注意力机制和前向网络,生成所述历史信息向量。3.根据权利要求1所述的方法,其特征在于,所述历史对话信息包含历史对话轮次信息和当前对话轮次信息。4.根据权利要求1所述的方法,其特征在于,所述获取数据库信息,通过外部数据库接入模块的多头键值对记忆网络对所述数据库信息进行编码,生成数据库向量,包括:所述数据库信息以三元组的形式存储,将所述数据库信息编码进所述多头键值对记忆网络的记忆结构,在用户输入对话询问时,通过键值对机制进行数据库检索,得到最终的数据库查询值,生成数据库向量。5.根据权利要求1所述的方法,其特征在于,对所述输入文本信息进行编码,并根据所述历史信息向量和所述数据库向量生成文本回复,包括:对所述输入文本信息进行处理得到词向量和位置向量,将词向量和位置向量相加作为输入向量输入到对话回复解码模块的掩码多头自注意力机制部件,对所述输入文本信息进行编码;将编码后的所述输入文本信息分别输入所述对话回复解码模块的多头文本自注意力机制部件和所述外部数据库接入模块;所述多头文本自注意力机制部件根据所述对话历史信息编码模块生成的所述历史信息向量和所述掩码多头自注意力机制部件的输出,进行注意力运算后输入所述对话回复解码模块的前向网络中得到所述对话回复解码模块的最终输出信息;将所述对话回复解码模块最终输出信息和所述外部数据库接入模块的所述数据库向量进行连接,...

【专利技术属性】
技术研发人员:鄂海红宋美娜张文静赵文肖思琪周筱松詹泽诚
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1