多联结注意力的阅读理解模型、系统及方法技术方案

技术编号:20917014 阅读:25 留言:0更新日期:2019-04-20 09:47
本公开提供了一种多联结注意力的阅读理解模型,包括:编码层,包括双层双向循环门控单元——DbBiGRU,其输入是多个离散的词向量,编码过后,每个词向量中包含上下文的信息;交互层,由三组DbBiGRU与注意力机制——Attention组成,通过多次交互,得到包含着问题信息的文章编码;预测层,包含着一个指针网络——PtrNet,经过编码与交互,得到了包含着问题信息的文章的一个表示,在此基础上,PtrNet预测出答案在文中的起始位置和终止位置。本公开解决了神经网络模型的复杂度过高及中文适应性问题。

Reading Comprehension Model, System and Method of Multi-Attention

This disclosure provides a reading comprehension model of multi-connected attention, including: the coding layer, including a two-tier bidirectional cyclic gating unit, DbBiGRU, whose input is a number of discrete word vectors, after encoding, each word vector contains context information; the interaction layer, composed of three groups of DbBiGRU and Attention mechanism, obtains questions through multiple interactions. In the prediction layer, there is a pointer network, PtrNet. After encoding and interacting, a representation of the article containing question information is obtained. On this basis, PtrNet predicts the starting and ending position of the answer in the text. The present disclosure solves the problems of high complexity of the neural network model and Chinese adaptability.

【技术实现步骤摘要】
多联结注意力的阅读理解模型、系统及方法
本公开涉及自然语言处理领域,尤其涉及一种多联结注意力的阅读理解模型、系统及方法。
技术介绍
自然语言处理的长期目标是让计算机能够阅读、处理文本,并且理解文本的内在含义。一种有效测试机器理解能力的方法是在给定一篇文本或相关事实的基础上,要求机器根据文本的内容,对相应的问题作出回答,这类任务通常被称作机器阅读理解。相较于传统自然语言处理任务,机器阅读理解任务涉及到词法、句法、语法、语义等多种信息,需要综合运用文本的表示、分析、理解、推理等自然语言处理与理解技术,相当具有挑战性。针对阅读理解任务,有如下几类代表性方法:1.基于传统特征工程的方法,其核心在于通过筛选不同的特征,然后基于选取的特征构造并学习一个打分函数。该方法在部分阅读理解任务上能起到非常好的效果,但是由于其学习机制,导致在文本更加复杂、表达更加多样化的阅读理解任务上存在着大量问题。2.基于深层次语义信息的图匹配方法,该方法利用文档的深层次语义信息构造一个语义知识图谱,然后将问题转化为图匹配问题。该方法尤其适用于与事件有关的阅读理解任务,但是与传统方法类似,有着一定局限性。3.基于神经网本文档来自技高网...

【技术保护点】
1.一种多联结注意力的阅读理解模型,包括:编码层,包括双层双向循环门控单元——DbBiGRU,其输入是多个离散的词向量,经过编码后每个词向量中包含上下文的信息;交互层,包括三组DbBiGRU与注意力机制——Attention,通过多次交互,得到包含着问题信息的文章编码;预测层,包扩一个指针网络——PtrNet,根据经过编码与交互得到的包含着问题信息的文章的一个表示,PtrNet预测出答案在文中的起始位置和终止位置。

【技术特征摘要】
1.一种多联结注意力的阅读理解模型,包括:编码层,包括双层双向循环门控单元——DbBiGRU,其输入是多个离散的词向量,经过编码后每个词向量中包含上下文的信息;交互层,包括三组DbBiGRU与注意力机制——Attention,通过多次交互,得到包含着问题信息的文章编码;预测层,包扩一个指针网络——PtrNet,根据经过编码与交互得到的包含着问题信息的文章的一个表示,PtrNet预测出答案在文中的起始位置和终止位置。2.根据权利要求1所述的阅读理解模型,其中编码层输入为预处理后的数据,使用两个DbBiGRU分别对文章和问题进行编码,文章编码结果记为hdoc∈R|C|*2d,问题编码结果记为hqry∈R|Q|*2d,其中,R为编码后的张量,|C|为文章长度,|Q|为问题长度,d为编码维度,其中,DbBiGRU对文章或问题进行编码的公式表示为公式(1)~(5):或公式(6):其中,hdoc和hqry统一表示为ht,x为文章或问题中词序列对应的索引序列形成的向量,v(x)表示将x中每个索引转化为词向量,公式(1)中表示向前(正方向)的GRU,得到公式(2)中表示向后(反方向)的GRU,计算得到将向前和向后计算的结果和拼接,得到ht1(x)∈R1*2d,即单层BiGRU的最终结果,公式(4)为公式(1)(2)(3)的合并表示;公式(5)中ht2(x)∈R1*2d为x经过双层BiGRU之后得到的编码结果,对ht1(x)再次进行运算,公式(6)为公式(4)(5)的合并表示。3.根据权利要求1所述的阅读理解模型,其中交互层使用点积注意力方式进行交互,将hdoc∈R|C|*2d和hqry∈R|Q|*2d做点积运算,得到评分矩阵M∈R|C|*|Q|,即M(i,j)=hdoc(i)T·hqry(j)(7)其中i、j为索引,hdoc(i)为文章中的第i个词所对应的向量,hdoc(i)T表示对向量hdoc(i)进行转置,得到矩阵M后,分别在列方向与行方向做softmax操作,得到两个注意力矩阵α和β:α(t)=softmax(M(1,t),...,M(|C|,t))(8)α=[α(1),α(2),...,α(|Q|)](9)β(t)=softmax(M(t,1),...,M(t,|Q|))(10)β=[β(1),β(2),...,β(|C|)](11)其中t为索引,公式(8)中t的范围是1到|Q|,公式(10)中t的范围是1到|C|,将得到的注意力矩阵α与β做乘法,得到矩阵A1∈R|C|*|Q|,然后将A1再与问题的编码hqry∈R|Q|*2d相乘,得到最终的包含着问题信息的上下文G1∈R|C|*2d,即:A1=α*β(12)G1=A1·hqry(13)将得到的含着问题信息的上下文G1∈R|C|*2d和进行注意力计算之前的文档的输入hdoc∈R|C|*2d进行拼接得到ha1_o∈R|C|*4d,即:ha1_o=[hdoc;G1](14)。4.根据权利要求1所述的阅读理解模型,其中在交互层中,在得到ha1_o之后,重复编码和交互步骤两次,仅对文章进行编码,最终得到ha1_o∈R|C|*4d,ha2_o∈R|C|*4d,ha3_o∈R|C|*4d与A1、A2、A3;将A...

【专利技术属性】
技术研发人员:蒋玉茹张禹尧毛腾
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1