一种基于多级注意力机制的藏文机器阅读理解方法技术

技术编号:28872525 阅读:23 留言:0更新日期:2021-06-15 23:05
本发明专利技术涉及一种基于多级注意力机制的藏文机器阅读理解方法,该方法包括以下步骤:对藏文文字进行音节以及词语两个不同级别的切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中;通过词级别的注意力机制进行关键词搜索;通过重读机制对文章的关键语义信息提取;通过自注意力机制对文章中关键信息进行再次的筛选;使用全连接网络对上述的隐变量进行解码,并对答案位置进行预测。本发明专利技术能够解决针对藏文机器阅读理解文本信息编码中遗失音节信息的问题,以及能够精准的解决藏文机器阅读理解任务。

【技术实现步骤摘要】
一种基于多级注意力机制的藏文机器阅读理解方法
本专利技术涉及自然语言处理
,特别涉及一种基于多级注意力机制的藏文机器阅读理解方法。
技术介绍
近年来,随着信息化的快速发展,教会机器阅读和理解人类语言文本受到了越来越多的关注。机器阅读理解旨在要求机器“阅读”一篇文本内容之后,能够正确的回答出与文本相关的问题。它是衡量机器对自然语言理解程度的标准之一。机器阅读理解任务有着广泛的应用价值,例如:为搜索引擎提供更好的支持,为对话系统提供高质量的对话服务,为数字教学提供有利的问题解答服务等等。目前机器阅读理解在英语和汉语上已经取得了很大的进展,然而针对低资源语言藏文的机器阅读理解研究还处于起步阶段,其主要的原因是藏文的语法结构复杂,浅层的网络架构难以理解藏文语义信息。因此如何高效的让机器理解复杂的藏文文本是完成藏文机器阅读理解任务的主要关键。早期由于缺乏大规模的数据集,大多数机器阅读理解系统是基于规则或统计模型,因此研究人员必须手工设计一些复杂的语法或语义规则。这些系统的精度只能达到30%-40%,因此这些成果并没有引起广泛的关注。在接下来的几十年中,随着大规模的机器阅读理解数据集的发布,基于深度学习的机器阅读理解的研究取得了一些显著的成绩。Wang等人提出Match-LSTM模型,他们分别采用长短时记忆网络对问题和短文进行编码,然后在长短时记忆网络单元中引入基于注意力的问题加权表示,较传统的特征提取方法有了一定的提升。随后,微软团队为了捕捉文章中单词之间的长期依赖关系提出了R-Net模型,这是通过引入额外的自注意力层来实现的。他们的实验结果表明通过引入自注意力机制能够提高模型的准确性。Cui等人提出了“注意力加注意力”阅读器模型,这是一种基于行和列的相结合的注意计算方法。同时为了进一步提高模型的准确性,他们采用了“N-Best”和“重新排列”的策略来验证答案。与之前的工作不同,Seo等人采用了两个方向的注意力并提出了BiDAF模型分别对文章到问题编码以及问题到文章编码两种方式去预测答案。以上研究都是基于单层的注意力机制,但是他们都忽略了藏文本身的字形和语法结构,因此在藏文机器阅读理解任务上难以有较高的表现。
技术实现思路
本专利技术的目的在于,提出将藏文的音节信息引入到词向量中,再利用多层注意力机制以精准地解决机器阅读理解问题。为实现上述目的,本专利技术提供了一种基于多级注意力机制的藏文机器阅读理解方法,该方法包括以下步骤:(1)融合藏文音节信息的文章和问题编码为了能够融入更细粒度的藏文音节信息,同时减少藏文不正确的分词带来错误的语义信息,本专利技术通过对藏文文字进行音节以及词语两个不同级别的进切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中。(2)词级别的注意力机制进行关键词搜索为了有效的提高模型的预测答案的准确率,本专利技术使用一种词级别的注意力机制去关注文章中与问题相关的重点关键词。(3)重读机制对文章的关键语义信息提取为了预测正确答案的范围,本专利技术使用一种重读机制针对文章中与问题相关的关键语义信息进行搜索。(4)自注意力机制对文章中关键信息进行再次的筛选为了减少问题与文章之间的差异性带来的影响,本专利技术通过自注意力机制对编码后的文章中蕴含的答案信息进行再次搜索,从而提高模型预测答案的准确率。(5)使用全连接网络对上述的隐变量进行解码,并对答案位置进行预测。本专利技术能够解决针对藏文机器阅读理解文本信息编码中遗失音节信息的问题,以及能够精准的解决藏文机器阅读理解任务。附图说明图1为本专利技术实施例提供的一种基于多级注意力机制的藏文机器阅读理解方法流程示意图;图2为图1所示方法的技术方案结构示意图。具体实施例图1为本专利技术实施例提供的一种基于多级注意力机制的藏文机器阅读理解方法流程示意图。如图1所示,该方法包括步骤S101-S105:步骤S101,融合音节信息的文章和问题编码为了能够融入更细粒度的藏文音节信息,同时减少藏文不正确的分词带来错误的语义信息,本专利技术实施例通过对藏文文字进行音节以及词语两个不同级别的进切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中。具体地,定义一个问题序列Q={q1,q2,q3…qn}和一个文章序列P={p1,p2,p3…pm},对它们分别进行音节级别以及词级别的切分,并使用预训练模型,如GoVe(GlobalVectorsforWordRepresentation)模型,转换为相应的音节和词级别的向量(和)。对于音节级别编码,使用双向长短期记忆神经网络,并将最终该网络最终的隐层状态作为一个该词的音节编码。最后,通过两层的高速网络将两个不同级别的向量进行融合。步骤S102,通过词级别的注意力机制进行关键词搜索为了有效的提高模型的预测答案的准确率,本专利技术实施例使用一种词级别的注意力机制(如图2所示)去关注文章中与问题相关的重点关键词。具体地,定义通过音节编码层的文章的词嵌入表示为而问题词嵌入表示为文章中的每个词的注意力权重可以表示为:au∝exp(Su)其中,和是可以训练的权重矩阵,Su表示的是相关性矩阵,VT,都是网络中可训练的参数,是问题的词编码序列,是文章的词编码序列,au是对文章中每个词与问题的相关性矩阵进行归一化之后的矩阵,是分配了权重之后文章中的每次词向量。最后,使用双向的长短时记忆网络去获取句子级别的文章表示Vtp,即其中,是双向长短时记忆网络中t-1时刻的文章表示向量,则是代表分配权重前后的文章编码的拼接向量。(3)重读机制对文章的关键语义信息提取为了预测正确答案的范围,本专利技术实施例使用一种重读机制针对文章中与问题相关的关键语义信息进行搜索。具体地,重读注意力旨在计算句子级别上文章和问题之间的注意力。首先针对问题序列使用双向的长短时记忆网络去生成高级语义表示即其中表示的是前一个状态的隐藏向量。是输入嵌入层中问题的音节嵌入的输出。则是词级别注意力机制层的输出。接下来使用重读注意力机制去关注文章中关键信息,即:av∝exp(Sv)其中,VT,分别为网络中可训练的参数矩阵,这里Sv是文章和问题之间语义相关性矩阵。是问题编码的语义向量,是词级别注意力机制层的输出向量。av是对Sv矩阵进行归一化之后的矩阵,则是文章中分配权重的语义向量,最后使用双向的长短时记忆网络对重读机制层的输出进行编码。其中,代表的是双向长短是记忆网络中t-1时刻的隐向量状态,是分配语义权重前后文章编码的拼接矩阵。(4)自注意力机制为了减少问题与文章之间的差异性带来的影响,本专利技术实施例通过自注意力机制对编码后的文章中蕴含的答案信息进行再次搜索,从而提高模型预测答案的准确率。具体地,在形式上,文章和问题不可避免地存在一些差异,这可能导致在段落和问题的交互过程中丢失部分重要的本文档来自技高网
...

【技术保护点】
1.一种基于多级注意力机制的藏文机器阅读理解方法,其特征在于,包括以下步骤:/n对藏文文字进行音节以及词语两个不同级别的切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中;/n通过词级别的注意力机制进行关键词搜索;/n通过重读机制对文章的关键语义信息提取;/n通过自注意力机制对文章中关键信息进行再次的筛选;/n使用全连接网络对上述的隐变量进行解码,并对答案位置进行预测。/n

【技术特征摘要】
1.一种基于多级注意力机制的藏文机器阅读理解方法,其特征在于,包括以下步骤:
对藏文文字进行音节以及词语两个不同级别的切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中;
通过词级别的注意力机制进行关键词搜索;
通过重读机制对文章的关键语义信息提取;
通过自注意力机制对文章中关键信息进行再次的筛选;
使用全连接网络对上述的隐变量进行解码,并对答案位置进行预测。


2.根据权利要求1所述的方法,其特征在于的,所述对藏文文字进行音节以及词语两个不同级别的进切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中步骤,包括;
定义有一个问题序列Q={q1,q2,q3…qn}和一个文章序列P={p1,p2,p3…pm},对它们分别进行音节级别以及词级别的切分,并使用预训练模型转换为相应的音节和词级别的向量和对于音节级别编码,使用双向长短期记忆神经网络,并将最终该网络最终的隐层状态作为一个该词的音节编码;最后,通过两层的高速网络将两个不同级别的向量进行融合。


3.根据权利要求1所述的方法,其特征在于的,所述通过词级别的注意力机制进行关键词搜索步骤,包括:
定义通过音节编码层的文章的词嵌入表示为而问题词嵌入表示为文章中的每个词的注意力权重表示为:



au∝exp(Su)



其中,和是可以训练的权重矩阵,Su表示的是相关性矩阵,VT,都是网络中可训练的参数,是问题的词编码序列,是文章的词编码序列,au是对文章中每个词与问题的相关性矩阵进行归一化之后的矩阵,是分配了权重之后文章中的每次词向量;最后,使用双向的长短时记忆网络BiLSTM去获取句子级别的文章表示Vtp,即



其中,是双向长短时记忆网络中t-1时刻的文章表示向量,则是代表分配权重前后的文章编码的拼接向量。


4.根据权利要求1所述的方法,其特征在于的,所述通过重读机制对文章的关键语义信息提取步骤,包括:
首先针对问题序列使用双向的长短时记忆网络去生成高级语义表示即



这里的表示的是前一个状态的隐藏...

【专利技术属性】
技术研发人员:孙媛陈超凡
申请(专利权)人:中央民族大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1