基于注意力机制的用于阅读理解的方法、装置和电子设备制造方法及图纸

技术编号:19821735 阅读:28 留言:0更新日期:2018-12-19 14:41
公开了基于注意力机制的用于阅读理解的方法、装置和电子设备。该方法包括:对获得文本数据和问题数据分别进行词向量转化;处理问题和文本的词向量表示,以分别获得问题和文本的语义向量表示;对问题和文本的语义向量表示进行语义加强;通过注意力机制层获得融合问题信息的上下文表示;对融合问题信息的上下文表示进行语义加强,以及,基于加强的融合问题信息的上下文表示和加强的问题语义向量表示,获得问题数据对应的答案。这样,通过采用语义加强方法的特定模型架构优化用于机器阅读理解的系统,以提升短文本答案抽取任务的效果。

【技术实现步骤摘要】
基于注意力机制的用于阅读理解的方法、装置和电子设备
本专利技术总体地涉及数据处理领域,特别是涉及基于注意力机制的用于阅读理解的方法、装置和电子设备。
技术介绍
自从计算机诞生以来,计算机在很多事情上的处理能力以超过人类,那么计算机能不能拥有智能,像人类一样懂得自然语言呢?机器阅读理解(MachineReadingComprehension,MRC)是自然语言处理领域的一个重要课题,其目的在于让计算机在海量文本中找到精确的答案,从而减轻人类获得信息的成本。机器阅读理解任务包括完形填空式的任务,答案抽取式的任务和更复杂的基于网络数据的问答任务,其中,最流行的阅读理解任务为答案抽取式的任务。答案抽取式的阅读理解任务指的是,给定问题和与该问题相关的短文本(通常为1000词以内),从该短文本中抽取文本片段作为该问题的正确答案。目前针对答案抽取式的阅读理解任务,主流的做法是通过深度学习来完成此任务。然而,在具体实现基于深度学习的短文本答案抽取的过程中,仍存在着诸多难题需要攻克,这些难题制约着机器阅读理解系统的性能和实际产业应用范围。因此,对于一种能够更为全面地克服短文本答案抽取实现难题的基于注意力机制的用于阅读理解的方案之需求是持续存在的。
技术实现思路
为了解决上述技术问题,提出了本申请。本申请的实施例提供了基于注意力机制的用于阅读理解的方法、装置和电子设备,其通过采用语义加强方法的特定模型架构优化用于机器阅读理解的系统,以提升短文本答案抽取任务的效果。根据本申请的一方面,提供了一种基于注意力机制的用于阅读理解的方法,包括:对获得的文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;以第一循环神经网络模型分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;通过第一语义加强层处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;通过注意力机制层处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示;以及,基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。在上述基于注意力机制的用于阅读理解的方法中,通过第一语义加强层分别获得加强的问题语义向量表示和加强的文本语义向量表示,包括:以所述第一循环神经网络模型再次分别处理所述问题语义向量表示和所述文本语义向量,以分别获得第二问题语义向量表示和第二文本语义向量表示;以第二循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得第三问题语义向量表示和第三文本语义向量表示;以第三循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得所述问题数据的每个词语的语义处理权重和所述文本数据的每个词语的语义处理权重;基于所述问题数据的每个词语的语义处理权重、所述第二问题语义向量表示和所述第三问题语义向量表示,获得所述加强的问题语义向量表示;以及,基于所述文本数据的每个词语的语义处理权重、所述第二文本语义向量表示和所述第三文本语义向量表示,获得所述加强的文本语义向量表示。在上述基于注意力机制的用于阅读理解的方法中,通过注意力机制层获得融合问题信息的上下文表示,包括:获得所述加强的问题语义向量表示和所述加强的文本语义向量表示之间的相似度矩阵,其中,所述相似度矩阵表示所述文本数据的每个词语与所述问题数据的每个词语的相关程度;对所述相似度矩阵逐行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;基于所述文本数据关于问题数据的注意力权重和所述加强的问题语义向量表示,以获得融合问题信息的初始上下文表示;拼接所述加强的文本语义向量表示和所述融合问题信息的初始上下文表示,以获得连接向量;通过门单元对所述连接向量进行归一化处理;以及,基于所述连接向量和所述归一化处理后的所述连接向量,获得所述融合问题信息的上下文表示。在上述基于注意力机制的用于阅读理解的方法中,通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示,包括:通过所述第一循环神经网络模型处理所述融合问题信息的上下文表示,以获得第一融合问题信息的上下文语义表示;通过所述第一循环神经网络模型再次处理所述第一融合问题信息的上下文语义表示,以获得第二融合问题信息的上下文语义表示;以第二循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以分别获得第三融合问题信息的上下文语义表示;以第三循环神经网络模型处理所述第二融合问题信息的上下文语义表示,以获得所述融合问题信息的上下文表示的每个词语的语义处理权重;以及,基于所述融合问题信息的上下文表示的每个词语的语义处理权重、所述第二融合问题信息的上下文语义表示和所述第三融合问题信息的上下文语义表示,获得加强的所述融合问题信息的上下文语义表示。在上述基于注意力机制的用于阅读理解的方法中,所述第一循环神经网络模型,所述第二循环神经网络模型和所述第三循环神经网络模型分别为不同的循环神经网络模型。在上述基于注意力机制的用于阅读理解的方法中,所述第三循环神经网络的激活函数被设置为Sigmoid函数。根据本申请的另一方面,提供了一种基于注意力机制的用于阅读理解的装置,包括:词向量转化单元,用于对获得文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;语义信息获得单元,用于以第一循环神经网络分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;第一语义加强单元,用于处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;注意力机制单元,用于通过注意力机制处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;第二语义加强单元,用于处理所述融合问题信息的上下文表示,以获得所述加强的融合问题信息的上下文表示;以及,答案预测单元,用于基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。在上述基于注意力机制的用于阅读理解的装置中,所述第一语义加强单元,用于:以所述第一循环神经网络模型再次分别处理所述问题语义向量表示和所述文本语义向量,以分别获得第二问题语义向量表示和第二文本语义向量表示;以第二循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得第三问题语义向量表示和第三文本语义向量表示;以第三循环神经网络模型分别处理所述第二问题语义向量表示和所述第二本文档来自技高网...

【技术保护点】
1.一种基于注意力机制的用于机器阅读理解的方法,其特征在于,包括:对获得文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;以第一循环神经网络模型分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;通过第一语义加强层处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;通过注意力机制层处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示;基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。

【技术特征摘要】
1.一种基于注意力机制的用于机器阅读理解的方法,其特征在于,包括:对获得文本数据和与所述文本数据相关的问题数据分别进行词向量转化,以分别获得所述问题数据和所述文本数据的词向量表示;以第一循环神经网络模型分别处理所述问题数据和所述文本数据的词向量表示,以分别获得所述问题数据的问题语义向量表示和所述文本数据的文本语义向量表示;通过第一语义加强层处理所述问题语义向量表示和文本向量语义表示,以分别获得加强的问题语义向量表示和加强的文本语义向量表示;通过注意力机制层处理所述加强的问题语义向量表示和所述加强的文本语义向量表示,以获得融合问题信息的上下文表示;通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示;基于所述加强的融合问题信息的上下文表示和所述加强的问题语义向量表示,获得所述文本数据中每个词语为所述问题数据对应答案的起始位置和结束位置的概率,以将所述起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题数据对应的答案。2.如权利要求1所述的基于注意力机制的用于阅读理解的方法,通过第一语义加强层分别获得加强的问题语义向量表示和加强的文本语义向量表示,包括:以所述第一循环神经网络模型再次分别处理所述问题语义向量表示和所述文本语义向量,以分别获得第二问题语义向量表示和第二文本语义向量表示;以第二循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得第三问题语义向量表示和第三文本语义向量表示;以第三循环神经网络模型分别处理所述第二问题语义向量表示和所述第二文本语义向量表示,以分别获得所述问题数据的每个词语的语义处理权重和所述文本数据的每个词语的语义处理权重;基于所述问题数据的每个词语的语义处理权重、所述第二问题语义向量表示和所述第三问题语义向量表示,获得所述加强的问题语义向量表示;以及基于所述文本数据的每个词语的语义处理权重、所述第二文本语义向量表示和所述第三文本语义向量表示,获得所述加强的文本语义向量表示。3.如权利要求2所述的基于注意力机制的用于阅读理解的方法,其中,通过注意力机制层获得融合问题信息的上下文表示,包括:获得所述加强的问题语义向量表示和所述加强的文本语义向量表示之间的相似度矩阵,其中,所述相似度矩阵表示所述文本数据的每个词语与所述问题数据的每个词语的相关程度;对所述相似度矩阵逐行进行归一化处理,以获得所述文本数据关于问题数据的注意力权重;基于所述文本数据关于问题数据的注意力权重和所述加强的问题语义向量表示,以获得融合问题信息的初始上下文表示;拼接所述加强的文本语义向量表示和所述融合问题信息的初始上下文表示,以获得连接向量;通过门单元对所述连接向量进行归一化处理;以及基于所述连接向量和所述归一化处理后的所述连接向量,获得所述融合问题信息的上下文表示。4.如权利要求3所述的基于注意力机制的用于阅读理解的方法,其中,通过第二语义加强层处理所述融合问题信息的上下文表示,以获得加强的融合问题信息的上下文表示,包括:通过所述第一循环神经网络模型处理所述融合问题信息的上下文表示,以获得第一融合问题信息的上下文语义表示;通过所述第一循环神经网络模型再次处理所述第一融合问题信息的上下文语义表示,以获得第二融合问题信息的上下文语义表示;以第二循环神经网络模型处理所述第二融合问题信息的上...

【专利技术属性】
技术研发人员:杨鹏
申请(专利权)人:北京慧闻科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1