当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于段落内部推理和联合问题答案匹配的模型方法技术

技术编号:21477548 阅读:21 留言:0更新日期:2019-06-29 04:48
本发明专利技术公开了一种基于段落内部推理和联合问题答案匹配的阅读理解模型方法,包括以下步骤:S1:对于每个候选答案构建一个向量,该向量表示段落与问题和答案的交互,然后所有候选答案的向量用于选择答案;S2:实验,本发明专利技术提出的模型首先把段落在多个粒度下切分为块,编码器利用神经词袋表达将块内词嵌入向量求和,然后,通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理,本模型在正确率上相比基线神经网络模型,Stanford AR和GA Reader提高了9%‑10%,比最近的模型SurfaceLR至少提高了3%,超过TriAN的单模型1%左右,除此之外,在RACE数据集上的预训练也可以提高模型效果。

【技术实现步骤摘要】
一种基于段落内部推理和联合问题答案匹配的模型方法
本专利技术属于阅读理解
,具体涉及一种基于段落内部推理和联合问题答案匹配的模型方法。
技术介绍
机器阅读问答(MachineReadingforQuestionAnswering,MRQA)研究近年来受到广泛关注,如何让机器能够阅读并且理解自然语言,是认知智能领域研究的主要问题,阅读理解任务需要在整个文档中整合和推理关于事件,实体及其关系的信息,问答通常用于评估阅读理解能力。机器阅读理解任务的主要类型有完形填空型、选择型和问答型,深度学习近年来在自然语言处理中广泛使用,在机器阅读理解领域也是如此,相比于基于传统特征的方法,在神经网络中,各种语义单元被表达为连续的语义空间上的向量,可以非常有效地解决语义稀疏性问题。目前的阅读理解方法通常基于成对序列匹配,段落与连接问题和候选答案的序列匹配,或段落与问题匹配,然而,这些方法可能不适合问题和答案通常同样重要的选择型阅读理解,仅仅根据问题匹配段落可能没有意义,并且可能导致段落中的信息丢失,例如“Whichstatementofthefollowingistrue?”这样的问题,另一方面,将问题和答案连接成单个序列进行匹配可能会丢失问题和答案之间的交互信息,例如,有时答案需要问题来进行指代消解等,此外,大多数模型通常采用循环神经网络作为编码器,其逐字逐句地顺序解析文本序列,虽然有助于捕获语言学的词法和语法结构,但段落往往较长,这限制了在段落内部进行多句推理。针对当前机器阅读理解方法中仅将问题与段落匹配会导致段落中的信息丢失或将问题和答案连接成单个序列与段落匹配会丢失问题与答案之间的交互,和传统的循环网络顺序解析文本从而忽略段落内部推理的问题,提出一种基于段落内部推理和联合问题答案匹配的模型方法。
技术实现思路
本专利技术的目的在于提供一种基于段落内部推理和联合问题答案匹配的模型方法,本模型在正确率上相比基线神经网络模型如StanfordAR和GAReader提高了9%-10%,比最近的模型SurfaceLR至少提高了3%,超过TriAN的单模型1%左右,除此之外,在RACE数据集上的预训练也可以提高模型效果,以解决上述
技术介绍
中提出的现有技术中的问题。为实现上述目的,本专利技术采用了如下技术方案:一种基于段落内部推理和联合问题答案匹配的模型方法,包括以下步骤:S1:对于每个候选答案构建一个向量,该向量表示段落与问题和答案的交互,然后所有候选答案的向量用于选择答案,具体步骤如下:A:输入层,段落、问题和候选答案对应表达为P={p1,p2,L,pm},Q={q1,q2,L,qn}和A={a1,a2,L,al},其中m,n和l是对应序列的长度,使用GloVe向量将每个词转换为对应的词嵌入,利用三个简单有效的词汇特征EM(P,Q),EM(Q,A)和EM(P,A)表明一个中的词是否在另一个中;B:编码层,步骤如下:a:将词嵌入向量和完全匹配特征输入HighwayNetwork,分别得到段落、问题和候选答案序列的表达其中其中其中b:对段落进行k={r1,r2,L,rk}次缩放操作,对每个ri,首先将每隔ri个词的词嵌入相加进行压缩,段落长度变为m/ri,然后将得到的序列输入激活函数为ReLU的单层前向神经网络;c:将得到的k个缩放操作得到的序列拼接输入到两层激活函数为ReLU的全连接前向神经网络;C:交互层,利用注意力机制更新问题和候选答案的表达,使其关注与段落相关的部分,注意力向量计算;D:层次聚合,为了捕捉段落的句子结构,在共同匹配表达上构建了一个层次LSTM,首先将段落分成句子P1,P2,L,PN,其中N是段落中的句子数,对于每个{Pi,Q,A},i∈[1,N],通过输入、编码及交互层可以得到共同匹配表达Ci,然后在每个句子的共同匹配表达上两次BiLSTM层和最大池化层,以捕获共同匹配的句子级和篇章级表达;E:输出层,对每个候选答案,它最终交互表达为S2:实验,具体步骤如下:A:采用SemEval-2018Task11任务的数据集MCScript,并且在RACE数据集进行预训练,MCScript数据集由MechanicalTurk的工作人员采用第一人称描述一个场景故事,旨在借用外部常识知识回答问题;B:在PyTorch深度学习框架下实现模型,使用300维的Glove向量初始化词嵌入,且在训练期间不进行微调,k的取值为1,2,4,10,25,丢失率在0.1,0.2和0.3之间调整,优化器采用Adam,且初始学习率为0.002,批量大小为10,在MCScript数据集上进行30轮训练,在RACE数据集上10轮迭代;C:对比算法及实验结果,本模型与基线模型、MCScript数据集上最近模型以及本模型进行对比,步骤如下:a:SlidingWindow,采用一种基于规则的方法来选择与文本具有最高相似度分数的候选答案回答问题,在段落上采用不同大小的滑动窗口,计算窗口和答案的词嵌入平均向量的余弦相似度,具有最高分数的答案被预测为正确答案;b:SurfaceLR,首先进行词干提取和去除停用词,但不包括‘yes’或‘no’,构建段落、问题和答案的长度特征和共现特征,这个简单模型取得了与神经网络可以竞争的结果;c:StanfordAttentiveReader,采用一种端到端的神经网络方法,在CNN/DailMaily数据集上取得了很好的效果,首次提出问题相关段落表达,即问题相对段落注意力分数,双线性函数的加权平均表达,然后同样采用双线性函数计算问题与答案的相似度,最后应用softmax得到每个答案的预测概率;d:Gated-AttentionReader,通过注意力机制捕获问题与段落之间的交互,并采用多层推理迭代地关注文本与问题最相关的部分;e:TriAN,采用段落与答案、段落与问题、问题与答案三种注意力来建模交互,并且加入词性标注和命名实体识别,基于ConceptNet的关系特征,基于Wikipedia的词频特征及共现特征,本文与其单模型进行对比。优选的,所述步骤S2中编码层内的激活函数为ReLU的单层前向神经网络:其中,Wa,ba是需要学习的参数,且对每个ri参数不共享,然后,再通过矩阵操作扩展到原来的序列长度。优选的,所述步骤S2中编码层内两层激活函数为ReLU的全连接前向神经网络:其中,gt可以解释为一个从多粒度学习的门控向量来平衡每个词的映射和原始表达,F1(·)和F2(·)是激活函数为ReLU的单层前向神经网络:其中,Wb,bb是需要学习的参数,Hp={y1,y2,L,ym}为段落的最终表达σ是sigmoid函数,这里借鉴了HighwayNetwork的思想,不同的是门控函数捕获了多粒度和长期依赖信息。优选的,所述步骤S2中交互层注意力向量计算式:其中,是需要学习的参数,是元素全为1的列向量,和是赋予问题和候选答案序列隐藏状态的注意力权重,是问题隐藏状态的加权和,它表示问题如何与段落的每个隐藏状态对齐,同理,最后,将段落表达与问题和候选答案表达共同匹配:其中,是需要学习的参数,C由两个矩阵按列拼接得到,$和是对两个矩阵按元素相减和相乘,其作用是获得更好的局部推理信息,为该段落表达与注意力加权的问题表达之间的匹配,同样,为本文档来自技高网
...

【技术保护点】
1.一种基于段落内部推理和联合问题答案匹配的模型方法,其特征在于:包括以下步骤:S1:对于每个候选答案构建一个向量,该向量表示段落与问题和答案的交互,然后所有候选答案的向量用于选择答案,具体步骤如下:A:输入层,段落、问题和候选答案对应表达为P={p1,p2,L,pm},Q={q1,q2,L,qn}和A={a1,a2,L,al},其中m,n和l是对应序列的长度,使用GloVe向量将每个词转换为对应的词嵌入,利用三个简单有效的词汇特征EM(P,Q),EM(Q,A)和EM(P,A)表明一个中的词是否在另一个中;B:编码层,步骤如下:a:将词嵌入向量和完全匹配特征输入Highway Network,分别得到段落、问题和候选答案序列的表达

【技术特征摘要】
1.一种基于段落内部推理和联合问题答案匹配的模型方法,其特征在于:包括以下步骤:S1:对于每个候选答案构建一个向量,该向量表示段落与问题和答案的交互,然后所有候选答案的向量用于选择答案,具体步骤如下:A:输入层,段落、问题和候选答案对应表达为P={p1,p2,L,pm},Q={q1,q2,L,qn}和A={a1,a2,L,al},其中m,n和l是对应序列的长度,使用GloVe向量将每个词转换为对应的词嵌入,利用三个简单有效的词汇特征EM(P,Q),EM(Q,A)和EM(P,A)表明一个中的词是否在另一个中;B:编码层,步骤如下:a:将词嵌入向量和完全匹配特征输入HighwayNetwork,分别得到段落、问题和候选答案序列的表达其中其中其中b:对段落进行k={r1,r2,L,rk}次缩放操作,对每个ri,首先将每隔ri个词的词嵌入相加进行压缩,段落长度变为m/ri,然后将得到的序列输入激活函数为ReLU的单层前向神经网络;c:将得到的k个缩放操作得到的序列拼接输入到两层激活函数为ReLU的全连接前向神经网络;C:交互层,利用注意力机制更新问题和候选答案的表达,使其关注与段落相关的部分,注意力向量计算;D:层次聚合,为了捕捉段落的句子结构,在共同匹配表达上构建了一个层次LSTM,首先将段落分成句子P1,P2,L,PN,其中N是段落中的句子数,对于每个{Pi,Q,A},i∈[1,N],通过输入、编码及交互层可以得到共同匹配表达Ci,然后在每个句子的共同匹配表达上应用两次BiLSTM层和最大池化层,以捕获共同匹配的句子级和篇章级表达;E:输出层,对每个候选答案,它最终交互表达为S2:实验,具体步骤如下:A:采用SemEval-2018Task11任务的数据集MCScript,并且在RACE数据集进行预训练,MCScript数据集由MechanicalTurk的工作人员采用第一人称描述一个场景故事,旨在借用外部常识知识回答问题;B:在PyTorch深度学习框架下实现模型,使用300维的Glove向量初始化词嵌入,且在训练期间不进行微调,k的取值为1,2,4,10,25,丢失率在0.1,0.2和0.3之间调整,优化器采用Adam,且初始学习率为0.002,批量大小为10,在MCScript数据集上进行30轮训练,在RACE数据集上10轮迭代;C:对比算法及实验结果,本模型与基线模型、MCScript数据集上最近模型以及本模型进行对比,步骤如下:a:SlidingWindow,采用一种基于规则的方法来选择与文本具有最高相似度分数的候选答案回答问题,在段落上采用不同大小的滑动窗口,计算窗口和答案的词嵌入平均向量的余弦相似度,具有最高分数的答案被预测为正确答案;b:SurfaceLR,首先进行词干提取和去除停用词,但不包括‘yes’或‘no’,构建段落、问题和答案的长度特征和共现特征,这个简单模型取得了与神经网络可以竞争的结果;c:StanfordAttentiveReader,采用一种端到端的神经网络方法,在CNN/DailMaily数据集上取得了很好的...

【专利技术属性】
技术研发人员:琚生根孙界平夏欣王霞
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1