一种基于上下文注意流的对话意图识别系统及方法技术方案

技术编号:29205629 阅读:72 留言:0更新日期:2021-07-10 00:41
本发明专利技术提供一种基于上下文注意流的对话意图识别系统及方法,包括输入编码模块、自相关系数分析模块、前馈神经网络和多任务学习模块;输入编码模块用于将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;自相关系数分析模块用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据所述上文语句表示向量进行特征融合,得到融合了对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;多任务学习模块用于根据系统的总损失函数对特征向量进行优化,提高了对话意图识别的效率和准确率。意图识别的效率和准确率。意图识别的效率和准确率。

【技术实现步骤摘要】
一种基于上下文注意流的对话意图识别系统及方法


[0001]本专利技术涉及计算机
,具体而言,涉及一种基于上下文注意流的对话意图识别系统及方法。

技术介绍

[0002]对话机器人地核心功能模块是意图识别。机器人首先需要根据用户发来的对话语句预测其对应的意图,然后基于意图给用户发送对应的答案,从而完成在线自动应答。对话是一个多轮问答的过程,但是目前在线机器人识别意图时,只考虑单句话的内容,而很多对话中的意图并无法通过单句话的内容进行识别。因此,线上机器人有相当多的语句的意图是无法基于单句而准确识别的,从而导致机器人的问答响应失败。
[0003]为了解决多轮对话问答中的意图识别问题,目前工业界和学术界主要采用两类方法:基于记忆网络的方法——记忆网络一般包括输入编码模块、记忆模块和输出预测模块。这类方法一般维护一个记忆槽位空间(记忆模块),存储对话上文历史语句,然后应用注意力机制,动态地不断更新网络地记忆状态,并基于记忆状态生成一个特征向量,基于此预测对话的意图。
[0004]基于阅读理解技术的方法——阅读理解模型一般采用一个编码器,对输入的文章和问题做编码,通过文章内容和问题内容的互注意力、自注意力等技术,获得文章的单词粒度的表示,构造两个开始和结束位置预测头,预测每个单词作为问题答案开始位置的概率(P(start))和结束位置的概率(P(end)),最后选取“P(start)*P(end)”概率最大的一组短语构成问题答案。
[0005]虽然基于阅读理解的技术处理多轮对话上文依赖的问题时可以准确定位这些历史语句,但是阅读理解所需的主题文章在业界难以获取,此外获取到相关的历史语句后,还需要构造模型进一步融合这些语句信息和当前语句信息,进而预测对话意图。基于记忆网络的模型,无法直接选择相关历史对话语句作为对话的上文依赖信息,导致模型难以准确融合对话上文信息到当前语句中。此外,还可能每次重复地选择其中某些语句的编码特征,导致模型无法充分关注到其他相关特征,影响模型建模多轮对话的能力。
[0006]因此,需要提供一种方案以便于提高对话意图识别的效率和准确率,增强机器人的应答能力。

技术实现思路

[0007]本专利技术的目的在于提供一种基于上下文注意流的对话意图识别系统及方法,用以实现提高对话意图识别的效率和准确率的技术效果。
[0008]第一方面,本专利技术提供了一种基于上下文注意流的对话意图识别系统,包括包括:输入编码模块、自相关系数分析模块、前馈神经网络和多任务学习模块;所述输入编码模块用于将包含若干个单词的输入语句进行编码处理,得到对应的
表征向量;所述输入语句包括对话样本集中已知对话意图和对话类型的若干个历史对话语句和当前语句;所述自相关系数分析模块用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据所述上文语句表示向量进行特征融合,得到融合了对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;所述前馈神经网络用于对所述特征向量进行处理后输入所述多任务学习模块;所述多任务学习模块用于根据所述前馈神经网络的处理结果和各个历史对话语句的实际对话意图进行计算得到对应的对话意图识别损失函数;根据所述前馈神经网络的处理结果和各个历史对话语句的实际类型分析得到对应的对话上文类型识别损失函数;同时将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后通过一个条件随机场计算得到对应的对话意图证据损失函数;然后根据所述对话意图识别损失函数、所述对话上文类型识别损失函数和所述对话意图证据损失函数度计算得到系统的总损失函数,并根据所述总损失函数对所述特征向量进行优化。
[0009]进一步地,所述自相关系数分析模块包括上文

问题注意力层、自注意力层和问题

上文注意力层;所述上文

问题注意力层用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后通过双曲正切函数进行计算,得到融合了问题信息的上文语句表示向量;所述自注意力层用于通过自注意力机制对所述上文语句表示向量进行特征融合,得到融合了历史对话上下文信息的上下文句子表示向量;所述问题

上文注意力层用于根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量。
[0010]进一步地,所述上文语句表示向量的计算方式为:式中,u
i1
表示上文语句表示向量;tanh表示双曲正切函数;W
cq
和b
cq
均表示上文

问题注意力层的学习参数;表示当前语句;u
i
表示第i个历史对话语句;N表示历史对话语句的总数;i表示变量,取值范围为1~N。
[0011]进一步地,所述上下文句子表示向量的计算方式为:
式中,u
i2
表示上下文句子表示向量;N表示历史对话语句的总数;W
self
∈R
d
×
d
,R
d
×
d
表示行列都为d维度的实数矩阵,R表示实数;attn
ij
表示经过softmax函数归一化处理后的注意力权重;score
ij
表示当前语句的上文中第i和第j个历史语句之间的注意力权重;k为变量,表示取值范围中的第k个。
[0012]进一步地,所述特征向量的计算方式为:式中,vec
feature
表示特征向量,W
qc
和b
qc
均表示问题

上文注意力层的学习参数,表示当前语句,dot表示点积运算。
[0013]进一步地,所述多任务学习模块包括对话意图识别单元、对话上文类识别单元和对话上文证据选择单元;所述对话意图识别单元用于根据所述前馈神经网络的处理结果和各个历史对话语句的意图进行计算得到对应的对话意图识别损失函数,所述对话上文类识别单元用于根据所述前馈神经网络的处理结果和各个历史对话语句的类型进行计算得到对应的对话上文类识别损失函数;所述对话上文证据选择单元用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后根据当前语句与历史对话语句的关联性进行计算得到对应的对话上文证据选择损失函数。
[0014]进一步地,所述对话意图识别单元、所述对话上文类识别单元和所述对话上文证据选择单元的实现方式为:据选择单元的实现方式为:据选择单元的实现方式为:据选择单元的实现方式为:上式中,Loss1表示对话意图识别损失函数;Loss2表示对话上文类识别损失函数;Loss3表示对话上文证据选择损失函数;crf表示条件随机场;ff表示前馈神经网络;θ
acflow
表示自相关系数分析模块的网络参数;θ
ff
表示前馈神经网络的网络参数;θ
crf本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于上下文注意流的对话意图识别系统,其特征在于,包括:输入编码模块、自相关系数分析模块、前馈神经网络和多任务学习模块;所述输入编码模块用于将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;所述输入语句包括对话样本集中已知对话意图和对话类型的若干个历史对话语句和当前语句;所述自相关系数分析模块用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据所述上文语句表示向量进行特征融合,得到融合了对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;所述前馈神经网络用于对所述特征向量进行处理后输入所述多任务学习模块;所述多任务学习模块用于根据所述前馈神经网络的处理结果和各个历史对话语句的实际对话意图进行计算得到对应的对话意图识别损失函数;根据所述前馈神经网络的处理结果和各个历史对话语句的实际类型分析得到对应的对话上文类型识别损失函数;同时将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后通过一个条件随机场计算得到对应的对话意图证据损失函数;然后根据所述对话意图识别损失函数、所述对话上文类型识别损失函数和所述对话意图证据损失函数度计算得到系统的总损失函数,并根据所述总损失函数对所述特征向量进行优化。2.根据权利要求1所述的对话意图识别系统,其特征在于,所述自相关系数分析模块包括上文

问题注意力层、自注意力层和问题

上文注意力层;所述上文

问题注意力层用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后通过双曲正切函数进行计算,得到融合了问题信息的上文语句表示向量;所述自注意力层用于通过自注意力机制对所述上文语句表示向量进行特征融合,得到融合了历史对话上下文信息的上下文句子表示向量;所述问题

上文注意力层用于根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量。3.根据权利要求2所述的对话意图识别系统,其特征在于,所述上文语句表示向量的计算方式为:式中,u
i1
表示上文语句表示向量;tanh表示双曲正切函数;W
cq
和b
cq
均表示上文

问题注意力层的学习参数;q表示当前语句;u
i
表示第i个历史对话语句;N表示历史对话语句的总数;i表示变量,取值范围为1~N。4.根据权利要求3所述的对话意图识别系统,其特征在于,所述上下文句子表示向量的计算方式为:
式中,u
i2
表示上下文句子表示向量;N表示历史对话语句的总数;W
self
∈R
d
×
d
,R
d
×
d
表示行列都为d维度的实数矩阵,R表示实数;attn
ij
表示经过softmax函数归一化处理后的注意力权重;score
ij
表示当前语句的上文中第i和第j个历史语句之间的注意力权重;k为变量,表示取值范围中的第k个。5.根据权利要求4所述的对话意图识别系统,其特征在于,所述特征向量的计算方式为:式中,vec
feature
表示特征向量,W
qc
和b
qc
均表示问题
...

【专利技术属性】
技术研发人员:江岭黄鹏张振羽
申请(专利权)人:成都晓多科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1