The invention provides a method for building a model of extractive machine reading comprehension based on deep learning. The method uses convolution instead of LSTM, GRU and other RNN variants widely used in machine reading comprehension. Unlike RNN, which relies on the last moment of computation at the current time, convolution can be calculated in parallel, which makes the model better than the module using RNN variants in both training and reasoning speed. In order to capture key information with attention mechanism, multi-head attention mechanism is used, which makes it possible to capture all relevant information for a long text like an article, and further improve the accuracy of the model.
【技术实现步骤摘要】
一种基于深度学习的抽取式机器阅读理解模型的建立方法
本专利技术涉及自然语言处理
,更具体地,涉及一种基于深度学习的抽取式机器阅读理解模型的建立方法。
技术介绍
自然语言处理是将人类自然语言转化为机器语言从而达到人机交互的一门技术。机器阅读理解是自然语言处理的核心任务之一,也是研究的热点之一,它对于搜索引擎、智能客服等都有直接的应用价值。阅读理解作为应试的常见题型,它需要应试者通过阅读原文和问题,然后综合原文和问题进行理解和推理,进而得到答案。这能够有效考察应试者理解文本的水平。而机器阅读理解与此类似,形式都是根据文章去提出一些问题,然后机器对问题进行作答。从答案类型的角度进行划分,可以分为选择题、问答题、完形填空等等。目前针对不同类型的题目都有相应的数据集陆陆续续地推出,推动着机器阅读理解的发展。比如针对问答题,就有SQuAD、MSMARCO数据集,但两个数据集设计有所不同。微软研究院发布的MSMARCO数据集要求对文本语义先进行归纳整合,再去生成具有自然语言形式的答案,所以针对此数据集的模型属于生成式模型。而斯坦福大学发布的SQuAD数据集将问题的标准答案 ...
【技术保护点】
1.一种基于深度学习的抽取式机器阅读理解模型的建立方法,其特征在于,包括以下步骤:S1:对文章和问题的句子进行分词;S2:为每个文章词设置一个精准匹配特征,表示该文章词是否出现在问题中,如果出现则该特征置为1,否则置为0;S3:把单词映射成词表当中对应的词向量,得到每个单词词级别的表示;S4:把单词的每个字母映射成字符表当中对应的字符向量,输入到卷积神经网络训练得到固定大小的向量,得到每个单词字符级别的表示;S5:将文章和问题的每个单词对应的词级别和字符级别的表示拼接在一起,分别输入到两层highway networks中,输出即为文章词和问题词的特征向量表示;S6:将文章 ...
【技术特征摘要】
1.一种基于深度学习的抽取式机器阅读理解模型的建立方法,其特征在于,包括以下步骤:S1:对文章和问题的句子进行分词;S2:为每个文章词设置一个精准匹配特征,表示该文章词是否出现在问题中,如果出现则该特征置为1,否则置为0;S3:把单词映射成词表当中对应的词向量,得到每个单词词级别的表示;S4:把单词的每个字母映射成字符表当中对应的字符向量,输入到卷积神经网络训练得到固定大小的向量,得到每个单词字符级别的表示;S5:将文章和问题的每个单词对应的词级别和字符级别的表示拼接在一起,分别输入到两层highwaynetworks中,输出即为文章词和问题词的特征向量表示;S6:将文章和问题的词向量表示分别通过多层卷积进行处理,从而融合每个词周围的上下文信息去调整每个词的表示;S7:将S6得到的文章和问题的词向量表示通过文章-问题注意力机制,得到每个文章词对应相关的问题词表示;S8:将S6得到的文章和问题的词向量表示通过问题-文章多头注意力机制,得到每个问题词对应相关的文章词表示;S9:将S6得到的问题的词向量表示利用注意力机制,得到每个问题词对于整个问句表达的重要性占比,通过这个重要性占比与S8得到的每个问题词对应相关的文章词表示进行加权求和,从而得到一个与问题长度无关的向量,该向量整合了和问题相关的文章词信息;S10:将S6得到的文章词表示、S2得到的每个文章词对应的精准匹配特征、S7得到每个文章词对应相关的问题词向量、S6和S7得到的每个词向量表示对应元素相乘的结果、S6的每个文章词向量表示和S9得到的向量对应元素相乘的结果进行合并,再次输入到多层卷积进行处理,从而融合每个文章词周围的上下文信息和精准匹配特征及结合S7、S9的注意力计算结果去整合每个词的表示;S11:将S10得到的文章词向量表示通过文章-文章多头注意力机制,得到每个文章词在全文范围内的对应相关的上下文表示;S12:将S10得到的文章词表示与S11得到的每个文章词对应相关的上下文表示进行合并,输入到多层卷积进行处理,从而融合每个词周围上下文和全局范围内的上下文去调整每个文章词的表示;S13:将S12得到的文章词表示进行线性变换后,经过softmax函数进行归一化转化为一个概率分布,该分布代表了文章中每个单词是标准答案短语第一个单词的概率,优化该概率分布,作为模型的优化目标之一,使得标准答案短语第一个单词在原文的位置对应的概率相应增大,即通过代表标准答案短语的第一个单词在原文位置的One-hot向量和该概率分布计算交叉熵损失,得到Ls;S14:预测答案短语最后一个单词的位置需要将预测答案短语第一个单词的位置的信息考虑在内,所以对S12得到的文章词表示再一次经过多层卷积进行处理得到新的文章词表示,最后通过线性变换和softmax函数归一化得到一个概率分布,该分布代表了文章每个单词是标准答案短语最后一个单词的概率,优化该概率分布,作为模型的优化目标之一,使得标准答案短语最后一个单词在原文的位置对应的概率相应增大,即通过代表标准答案短语的最后一个单词在原文位置的One-hot向量与该概率分布计算交叉熵损失,得到Le;S15:将S13和S14的两个优化目标相结合,即把S13的Ls和S14的Le相加,就得到损失函数,使用基于梯度下降原理的优化器来进行优化训练;S16:取S13和S14两个概率分布最大值的位置,分别对应了模型预测的答案短语的第一个单词和最后一个单词...
【专利技术属性】
技术研发人员:陈尧钧,印鉴,高静,
申请(专利权)人:中山大学,广东恒电信息科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。