一种阅读理解模型训练数据的过滤方法及装置制造方法及图纸

技术编号:21141061 阅读:16 留言:0更新日期:2019-05-18 05:09
本申请公开一种阅读理解模型训练数据的过滤方法及装置,首先获取输入文本,将输入文本表示为包含词汇共现信息和位置编码信息的第二词向量;其次根据输入文本的注意力对第二词向量进行加权;对第二词向量的加权结果进行归一化处理生成第一输出矩阵;再对第一输出矩阵进行全连接的线性变换处理并进行归一化处理,生成第二输出矩阵;然后根据第二输出矩阵生成低维特征向量;最后对低维特征向量进行归一化处理,得到所述答案与所述查询语句的匹配度;根据预设的过滤条件过滤所述匹配度相应的输入文本。本申请方法按照答案与查询语句的匹配度对阅读理解模型训练数据进行过滤,优化训练数据,剔除错误数据,有利于提升模型性能。

A Filtering Method and Device for Training Data of Reading Comprehension Model

【技术实现步骤摘要】
一种阅读理解模型训练数据的过滤方法及装置
本申请涉及自然语言处理
,尤其涉及一种阅读理解模型训练数据的过滤方法及装置。
技术介绍
自然语言处理领域中,机器阅读理解是当前热点研究方向。机器阅读理解任务,指的是给定一段篇章语句(context)和一个对应的查询语句(query),然后机器通过阅读篇章语句后,给出对应查询语句的答案。这里做了一个假设,就是篇章语句的答案必须是能够在篇章语句中找到的一段话,也可以理解为连续的几个单词。现有的基于端对端的深度学习机器阅读理解模型的框架基本相同,其主要任务是抽取信息而非实现推理,也就是说,实际上机器离真正“理解”对话还有一段距离。对机器阅读理解模型的训练方法及训练数据影响模型的性能。如果训练数据的篇章语句中未出现对应查询语句的答案,或者答案与查询语句不对应,则会对模型的深度学习产生不利影响,使得模型的性能下降。
技术实现思路
本申请提供了一种阅读理解模型训练数据的过滤方法及装置,以对阅读理解模型的训练数据进行过滤,以提高阅读理解模型的性能。第一方面,本申请提供了一种阅读理解模型训练数据的过滤方法,该方法包括:获取输入文本,将所述输入文本表示为第一词向量,根据所述第一词向量生成包含词汇共现信息和位置编码信息的第二词向量;所述输入文本的内容包括篇章语句、查询语句以及答案;所述词汇共现信息表征词汇在篇章语句和查询语句中的共现性;根据所述第二词向量生成输入文本的注意力,并根据所述注意力对第二词向量进行加权;对所述第二词向量的加权结果进行归一化处理,生成第一输出矩阵;对所述第一输出矩阵进行全连接的线性变换处理,并对线性变换结果进行归一化处理,生成第二输出矩阵;根据所述第二输出矩阵生成低维特征向量;对所述低维特征向量进行归一化处理,得到所述答案与所述查询语句的匹配度;根据预设的过滤条件过滤所述匹配度相应的输入文本。第二方面,本申请提供了一种阅读理解模型训练数据的过滤装置,所述装置包括:输入及表示模块,用于获取输入文本,将所述输入文本表示为第一词向量,根据所述第一词向量生成包含词汇共现信息和位置编码信息的第二词向量;所述输入文本的内容包括篇章语句、查询语句以及答案;所述词汇共现信息表征词汇在篇章语句和查询语句中的共现性;监督模块,用于根据所述第二词向量生成输入文本的注意力,并根据注意力对所述第二词向量进行加权;对第二词向量的加权结果进行归一化处理,生成第一输出矩阵;全连接模块,用于对所述第一输出矩阵进行全连接的线性变换处理,并对线性变换结果进行归一化处理,生成第二输出矩阵;特征强化模块,用于根据所述第二输出矩阵生成低维特征向量;输出模块,用于对所述低维特征向量进行归一化处理,得到所述答案与所述查询语句的匹配度;根据预设的过滤条件过滤所述匹配度相应的输入文本。由以上技术方案可知,本申请提供一种阅读理解模型训练数据的过滤方法及装置,其中,所述方法首先获取输入文本,将输入文本表示为第一词向量,根据第一词向量生成包含词汇共现信息和位置编码信息的第二词向量;其次根据第二词向量生成输入文本的注意力,并根据所述注意力对第二词向量进行加权;对第二词向量的加权结果进行归一化处理,生成第一输出矩阵;再对第一输出矩阵进行全连接的线性变换处理,并对线性变换结果进行归一化处理,生成第二输出矩阵;然后根据第二输出矩阵生成低维特征向量;最后对低维特征向量进行归一化处理,得到所述答案与所述查询语句的匹配度;根据预设的过滤条件过滤所述匹配度相应的输入文本。本申请方法及装置按照答案与查询语句的匹配度对海量的阅读理解模型训练数据进行过滤,以使高匹配度的文本数据用于训练层次较深的阅读理解模型,使低匹配度的文本数据用于训练层次较浅的阅读理解模型,同时也降低了训练数据中出现错误数据的概率。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请阅读理解模型训练数据的过滤方法的一个实施例示意图;图2为本申请图2所示实施例中步骤110的一种实现方法流程图;图3为本申请阅读理解模型训练数据的过滤装置的一个实施例示意图;图4为本申请阅读理解模型训练数据的过滤装置的详细框架示意图。具体实施方式为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。为了能使高匹配度的文本数据用于训练层次较深的阅读理解模型,使低匹配度的文本数据用于训练层次较浅的阅读理解模型,同时降低训练数据中出现错误数据的概率,本申请一种阅读理解模型训练数据的过滤方法及装置。图1为本申请阅读理解模型训练数据的过滤方法的一个实施例。如图1所示,该方法可以包括如下步骤:步骤110,获取输入文本,将输入文本表示为第一词向量,根据第一词向量生成包含词汇共现信息和位置编码信息的第二词向量;所述输入文本的内容包括篇章语句、查询语句以及答案;所述词汇共现信息表征词汇在篇章语句和查询语句中的共现性;输入文本来自海量的阅读理解模型训练数据,如web(网页)数据、百度DuReader等。一个输入文本的内容包括篇章语句(Context,简称C)、查询语句(Query,简称Q)以及答案(Answer,简称A),C、Q以及A分别包括若干词汇和符号。一个输入文本的简单举例如下:C:我买了一个橘子Q:我买了什么A:橘子需要说明的是,输入文本中答案与查询语句可能不是对应的,也可能不是最准确的答案。图2为步骤110的一种实现方式。如图2所示,步骤110可以包括:步骤111,对输入文本进行切词,得到包含词性信息的词汇,根据所有词汇生成输入文本的词向量矩阵。首先,可以使用ICTCLAS分词器分别对C、Q以及A进行分词,得到包含每个词汇的词性信息的分词结果,并将分词后的C、Q以及A连接,同时在Q和A之间添加分隔符。例如:C:我_r/买_v/了_u/一个_mq/橘子_nQ:我_r/买_v/了_u/什么_rA:橘子_n将C、Q以及A连接形成词汇集:{我_r,买_v,了_u,一个_mq,橘子_n,我_r,买_v,了_u,什么_r,<分隔符>,橘子_n}然后,根据每个词汇的词性信息获取词性向量。例如,词性向量可以是一个64维的向量,相同的词性对应的词性向量相同。需要说明的是,本方法同时使用静态词向量和动态词向量对输入文本进行表示。静态词向量可以利用第一词向量模型训练获得,如Word2Vec模型。与静态词向量不同的是,动态包含语义变化信息,其在不同的上下文中可能有不同的表示,如“我正在吃苹果”与“我买了一个苹果电脑”中的“苹果”一词的词向量表示不同(两个词向量不相等)。本申请实施例利用第二词向量模型训练获得输入文本的动态词向量,如ELMo、BERT、OpenAIGPT等。最后,将上述得到的静态词向量、动态词向量以及词性向量拼接,得到输入文本的词向量矩阵。步骤112,对每个所述词汇进行分字,本文档来自技高网
...

【技术保护点】
1.一种阅读理解模型训练数据的过滤方法,其特征在于,所述方法包括:获取输入文本,将所述输入文本表示为第一词向量,根据所述第一词向量生成包含词汇共现信息和位置编码信息的第二词向量;所述输入文本的内容包括篇章语句、查询语句以及答案;所述词汇共现信息表征词汇在篇章语句和查询语句中的共现性;根据所述第二词向量生成输入文本的注意力,并根据所述注意力对第二词向量进行加权,对所述第二词向量的加权结果进行归一化处理,生成第一输出矩阵;对所述第一输出矩阵进行全连接的线性变换处理,并对线性变换结果进行归一化处理,生成第二输出矩阵;根据所述第二输出矩阵生成低维特征向量;对所述低维特征向量进行归一化处理,得到所述答案与所述查询语句的匹配度,根据预设的过滤条件过滤所述匹配度相应的输入文本。

【技术特征摘要】
1.一种阅读理解模型训练数据的过滤方法,其特征在于,所述方法包括:获取输入文本,将所述输入文本表示为第一词向量,根据所述第一词向量生成包含词汇共现信息和位置编码信息的第二词向量;所述输入文本的内容包括篇章语句、查询语句以及答案;所述词汇共现信息表征词汇在篇章语句和查询语句中的共现性;根据所述第二词向量生成输入文本的注意力,并根据所述注意力对第二词向量进行加权,对所述第二词向量的加权结果进行归一化处理,生成第一输出矩阵;对所述第一输出矩阵进行全连接的线性变换处理,并对线性变换结果进行归一化处理,生成第二输出矩阵;根据所述第二输出矩阵生成低维特征向量;对所述低维特征向量进行归一化处理,得到所述答案与所述查询语句的匹配度,根据预设的过滤条件过滤所述匹配度相应的输入文本。2.根据权利要求1所述的方法,其特征在于,所述根据第二输出矩阵生成低维特征向量,包括:将所述第二输出矩阵输入至递归神经网络;将所述递归神经网络的输出结果输入至全连接神经网络,以生成低维特征向量。3.根据权利要求1所述的方法,其特征在于,所述根据预设的过滤条件过滤所述匹配度相应的输入文本,包括:根据所述过滤条件中匹配度与阅读理解模型类型的对应关系,确定所述匹配度相应的输入文本对应的阅读理解模型。4.根据权利要求1所述的方法,其特征在于,所述将输入文本表示为第一词向量,包括:对所述输入文本进行切词,得到包含词性信息的词汇,根据所有词汇生成输入文本的词向量矩阵;对每个所述词汇进行分字,根据分字得到的所有字生成输入文本的字向量矩阵,并对所述字向量矩阵进行卷积处理;将所述词向量矩阵与卷积处理后的字向量矩阵拼接,形成第一词向量。5.根据权利要求1所述的方法,其特征在于,所述根据第一词向量生成包含词汇共现信息和位置编码信息的第二词向量,包括:获取所述输入文本中每个词汇的共现信息和位置编码信息,并将所述共现信息和位置编码信息叠加于所述第一词向量中得到第二词向量。6.根据权利要求5所述的方法,其特征在于,所述获取输...

【专利技术属性】
技术研发人员:李健铨刘小康晋耀红
申请(专利权)人:安徽省泰岳祥升软件有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1