一种阅读理解模型训练数据的过滤方法及装置制造方法及图纸

技术编号：21141061 阅读：16 留言：0更新日期：2019-05-18 05:09

本申请公开一种阅读理解模型训练数据的过滤方法及装置，首先获取输入文本，将输入文本表示为包含词汇共现信息和位置编码信息的第二词向量；其次根据输入文本的注意力对第二词向量进行加权；对第二词向量的加权结果进行归一化处理生成第一输出矩阵；再对第一输出矩阵进行全连接的线性变换处理并进行归一化处理，生成第二输出矩阵；然后根据第二输出矩阵生成低维特征向量；最后对低维特征向量进行归一化处理，得到所述答案与所述查询语句的匹配度；根据预设的过滤条件过滤所述匹配度相应的输入文本。本申请方法按照答案与查询语句的匹配度对阅读理解模型训练数据进行过滤，优化训练数据，剔除错误数据，有利于提升模型性能。

A Filtering Method and Device for Training Data of Reading Comprehension Model

全部详细技术资料下载

【技术实现步骤摘要】
一种阅读理解模型训练数据的过滤方法及装置
本申请涉及自然语言处理
，尤其涉及一种阅读理解模型训练数据的过滤方法及装置。
技术介绍
自然语言处理领域中，机器阅读理解是当前热点研究方向。机器阅读理解任务，指的是给定一段篇章语句(context)和一个对应的查询语句(query)，然后机器通过阅读篇章语句后，给出对应查询语句的答案。这里做了一个假设，就是篇章语句的答案必须是能够在篇章语句中找到的一段话，也可以理解为连续的几个单词。现有的基于端对端的深度学习机器阅读理解模型的框架基本相同，其主要任务是抽取信息而非实现推理，也就是说，实际上机器离真正“理解”对话还有一段距离。对机器阅读理解模型的训练方法及训练数据影响模型的性能。如果训练数据的篇章语句中未出现对应查询语句的答案，或者答案与查询语句不对应，则会对模型的深度学习产生不利影响，使得模型的性能下降。
技术实现思路
本申请提供了一种阅读理解模型训练数据的过滤方法及装置，以对阅读理解模型的训练数据进行过滤，以提高阅读理解模型的性能。第一方面，本申请提供了一种阅读理解模型训练数据的过滤方法，该方法包括：获取输入文本，将所述输入文本表示为第一词向量，根据所述第一词向量生成包含词汇共现信息和位置编码信息的第二词向量；所述输入文本的内容包括篇章语句、查询语句以及答案；所述词汇共现信息表征词汇在篇章语句和查询语句中的共现性；根据所述第二词向量生成输入文本的注意力，并根据所述注意力对第二词向量进行加权；对所述第二词向量的加权结果进行归一化处理，生成第一输出矩阵；对所述第一输出矩阵进行全连接的线性变换处理，并对线性变换结果进...

【技术保护点】
1.一种阅读理解模型训练数据的过滤方法，其特征在于，所述方法包括：获取输入文本，将所述输入文本表示为第一词向量，根据所述第一词向量生成包含词汇共现信息和位置编码信息的第二词向量；所述输入文本的内容包括篇章语句、查询语句以及答案；所述词汇共现信息表征词汇在篇章语句和查询语句中的共现性；根据所述第二词向量生成输入文本的注意力，并根据所述注意力对第二词向量进行加权，对所述第二词向量的加权结果进行归一化处理，生成第一输出矩阵；对所述第一输出矩阵进行全连接的线性变换处理，并对线性变换结果进行归一化处理，生成第二输出矩阵；根据所述第二输出矩阵生成低维特征向量；对所述低维特征向量进行归一化处理，得到所述答案与所述查询语句的匹配度，根据预设的过滤条件过滤所述匹配度相应的输入文本。

【技术特征摘要】
1.一种阅读理解模型训练数据的过滤方法，其特征在于，所述方法包括：获取输入文本，将所述输入文本表示为第一词向量，根据所述第一词向量生成包含词汇共现信息和位置编码信息的第二词向量；所述输入文本的内容包括篇章语句、查询语句以及答案；所述词汇共现信息表征词汇在篇章语句和查询语句中的共现性；根据所述第二词向量生成输入文本的注意力，并根据所述注意力对第二词向量进行加权，对所述第二词向量的加权结果进行归一化处理，生成第一输出矩阵；对所述第一输出矩阵进行全连接的线性变换处理，并对线性变换结果进行归一化处理，生成第二输出矩阵；根据所述第二输出矩阵生成低维特征向量；对所述低维特征向量进行归一化处理，得到所述答案与所述查询语句的匹配度，根据预设的过滤条件过滤所述匹配度相应的输入文本。2.根据权利要求1所述的方法，其特征在于，所述根据第二输出矩阵生成低维特征向量，包括：将所述第二输出矩阵输入至递归神经网络；将所述递归神经网络的输出结果输入至全连接神经网络，以生成低维特征向量。3.根据权利要求1所述的方法，其特征在于，所述根据预设的过滤条件过滤所述匹配度相应的输入文本，包括：根据所述过滤条件中匹配度与阅读理解模型类型的对应关系，确定所述匹配度相应的输入文本对应的阅读理解模型。4.根据权利要求1所述的方法，其特征在于，所述将输入文本表示为第一词向量，包括：对所述输入文本进行切词，得到包含词性信息的词汇，根据所有词汇生成输入文本的词向量矩阵；对每个所述词汇进行分字，根据分字得到的所有字生成输入文本的字向量矩阵，并对所述字向量矩阵进行卷积处理；将所述词向量矩阵与卷积处理后的字向量矩阵拼接，形成第一词向量。5.根据权利要求1所述的方法，其特征在于，所述根据第一词向量生成包含词汇共现信息和位置编码信息的第二词向量，包括：获取所述输入文本中每个词汇的共现信息和位置编码信息，并将所述共现信息和位置编码信息叠加于所述第一词向量中得到第二词向量。6.根据权利要求5所述的方法，其特征在于，所述获取输...

【专利技术属性】
技术研发人员：李健铨，刘小康，晋耀红，
申请(专利权)人：安徽省泰岳祥升软件有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人