一种基于段落内部推理和联合问题答案匹配的模型方法技术

技术编号：21477548 阅读：21 留言：0更新日期：2019-06-29 04:48

本发明专利技术公开了一种基于段落内部推理和联合问题答案匹配的阅读理解模型方法，包括以下步骤：S1：对于每个候选答案构建一个向量，该向量表示段落与问题和答案的交互，然后所有候选答案的向量用于选择答案；S2：实验，本发明专利技术提出的模型首先把段落在多个粒度下切分为块，编码器利用神经词袋表达将块内词嵌入向量求和，然后，通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理，本模型在正确率上相比基线神经网络模型，Stanford AR和GA Reader提高了9％‑10％，比最近的模型SurfaceLR至少提高了3％，超过TriAN的单模型1％左右，除此之外，在RACE数据集上的预训练也可以提高模型效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于段落内部推理和联合问题答案匹配的模型方法
本专利技术属于阅读理解
，具体涉及一种基于段落内部推理和联合问题答案匹配的模型方法。
技术介绍
机器阅读问答(MachineReadingforQuestionAnswering，MRQA)研究近年来受到广泛关注，如何让机器能够阅读并且理解自然语言，是认知智能领域研究的主要问题，阅读理解任务需要在整个文档中整合和推理关于事件，实体及其关系的信息，问答通常用于评估阅读理解能力。机器阅读理解任务的主要类型有完形填空型、选择型和问答型，深度学习近年来在自然语言处理中广泛使用，在机器阅读理解领域也是如此，相比于基于传统特征的方法，在神经网络中，各种语义单元被表达为连续的语义空间上的向量，可以非常有效地解决语义稀疏性问题。目前的阅读理解方法通常基于成对序列匹配，段落与连接问题和候选答案的序列匹配，或段落与问题匹配，然而，这些方法可能不适合问题和答案通常同样重要的选择型阅读理解，仅仅根据问题匹配段落可能没有意义，并且可能导致段落中的信息丢失，例如“Whichstatementofthefollowingistrue？”这样的问题，另一方面，将问题和答案连接成单个序列进行匹配可能会丢失问题和答案之间的交互信息，例如，有时答案需要问题来进行指代消解等，此外，大多数模型通常采用循环神经网络作为编码器，其逐字逐句地顺序解析文本序列，虽然有助于捕获语言学的词法和语法结构，但段落往往较长，这限制了在段落内部进行多句推理。针对当前机器阅读理解方法中仅将问题与段落匹配会导致段落中的信息丢失或将问题和答案连接成单个序列与段落匹配会...

【技术保护点】
1.一种基于段落内部推理和联合问题答案匹配的模型方法，其特征在于：包括以下步骤：S1：对于每个候选答案构建一个向量，该向量表示段落与问题和答案的交互，然后所有候选答案的向量用于选择答案，具体步骤如下：A：输入层，段落、问题和候选答案对应表达为P＝{p1，p2，L，pm}，Q＝{q1，q2，L，qn}和A＝{a1，a2，L，al}，其中m，n和l是对应序列的长度，使用GloVe向量将每个词转换为对应的词嵌入，利用三个简单有效的词汇特征EM(P，Q)，EM(Q，A)和EM(P，A)表明一个中的词是否在另一个中；B：编码层，步骤如下：a：将词嵌入向量和完全匹配特征输入Highway Network，分别得到段落、问题和候选答案序列的表达

【技术特征摘要】
1.一种基于段落内部推理和联合问题答案匹配的模型方法，其特征在于：包括以下步骤：S1：对于每个候选答案构建一个向量，该向量表示段落与问题和答案的交互，然后所有候选答案的向量用于选择答案，具体步骤如下：A：输入层，段落、问题和候选答案对应表达为P＝{p1，p2，L，pm}，Q＝{q1，q2，L，qn}和A＝{a1，a2，L，al}，其中m，n和l是对应序列的长度，使用GloVe向量将每个词转换为对应的词嵌入，利用三个简单有效的词汇特征EM(P，Q)，EM(Q，A)和EM(P，A)表明一个中的词是否在另一个中；B：编码层，步骤如下：a：将词嵌入向量和完全匹配特征输入HighwayNetwork，分别得到段落、问题和候选答案序列的表达其中其中其中b：对段落进行k＝{r1，r2，L，rk}次缩放操作，对每个ri，首先将每隔ri个词的词嵌入相加进行压缩，段落长度变为m/ri，然后将得到的序列输入激活函数为ReLU的单层前向神经网络；c：将得到的k个缩放操作得到的序列拼接输入到两层激活函数为ReLU的全连接前向神经网络；C：交互层，利用注意力机制更新问题和候选答案的表达，使其关注与段落相关的部分，注意力向量计算；D：层次聚合，为了捕捉段落的句子结构，在共同匹配表达上构建了一个层次LSTM，首先将段落分成句子P1，P2，L，PN，其中N是段落中的句子数，对于每个{Pi，Q，A}，i∈[1，N]，通过输入、编码及交互层可以得到共同匹配表达Ci，然后在每个句子的共同匹配表达上应用两次BiLSTM层和最大池化层，以捕获共同匹配的句子级和篇章级表达；E：输出层，对每个候选答案，它最终交互表达为S2：实验，具体步骤如下：A：采用SemEval-2018Task11任务的数据集MCScript，并且在RACE数据集进行预训练，MCScript数据集由MechanicalTurk的工作人员采用第一人称描述一个场景故事，旨在借用外部常识知识回答问题；B：在PyTorch深度学习框架下实现模型，使用300维的Glove向量初始化词嵌入，且在训练期间不进行微调，k的取值为1，2，4，10，25，丢失率在0.1，0.2和0.3之间调整，优化器采用Adam，且初始学习率为0.002，批量大小为10，在MCScript数据集上进行30轮训练，在RACE数据集上10轮迭代；C：对比算法及实验结果，本模型与基线模型、MCScript数据集上最近模型以及本模型进行对比，步骤如下：a：SlidingWindow，采用一种基于规则的方法来选择与文本具有最高相似度分数的候选答案回答问题，在段落上采用不同大小的滑动窗口，计算窗口和答案的词嵌入平均向量的余弦相似度，具有最高分数的答案被预测为正确答案；b：SurfaceLR，首先进行词干提取和去除停用词，但不包括‘yes’或‘no’，构建段落、问题和答案的长度特征和共现特征，这个简单模型取得了与神经网络可以竞争的结果；c：StanfordAttentiveReader，采用一种端到端的神经网络方法，在CNN/DailMaily数据集上取得了很好的...

【专利技术属性】
技术研发人员：琚生根，孙界平，夏欣，王霞，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人