基于深度学习的机器阅读理解数据集构建以及评估方法技术

技术编号：21952579 阅读：53 留言：0更新日期：2019-08-24 17:46

本发明专利技术公开了一种基于深度学习的机器阅读理解数据集构建以及评估方法，包括以下步骤：阶段1、原始数据集构建；阶段2、角色分配及标注审核；阶段3、数据集测试评估。本发明专利技术解决了在特定领域中基于深度学习的机器阅读理解缺乏数据集的问题，并且能够有效提高算法性能，更加贴近实用。经过本发明专利技术提供的数据集进行训练后可以让机器阅读理解文本，旨在颠覆以往特定领域依赖人工搜索和总结提炼答案的模式，大幅提升关键信息的获取效率。本发明专利技术能够通过高效以及可信的方式对数据集进行标注，保证数据集的正确性，适用于特定领域的机器阅读理解。

Data Set Construction and Evaluation Method of Machine Reading Comprehension Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的机器阅读理解数据集构建以及评估方法
本专利技术涉及数据集标注以及评估方法，尤其涉及一种基于深度学习的机器阅读理解数据集构建以及评估方法。
技术介绍
一个机器阅读理解领域内的数据集构建包含数据集标注以及数据集评估。对数据集的标注主要就是对单篇以及多篇候选文档中，通过人工提问的方式，在这些文档中标注出提问的答案。对数据集的评估主要是依靠人为抽样进行评估。目前，在机器阅读领域最具权威性的数据集为美国斯坦福大学构建的SQUAD1.0以及2.0阅读理解数据集。这类数据集主要是针对单篇文档进行提问，涉及的答案内容均能够在原文中找到。这类数据集的构建主要是通过人工标注单篇文档的方式进行构建且均为英文。然后，我国在基于深度学习的机器阅读数据集构建领域也是通过传统的互联网众包进行人工标注的方式对单篇文档进行标注，涉及的内容多为“完形填空”式机器阅读理解。这种数据集构建方法不能适应大数据时代对于机器阅读理解技术的要求，迫切需要从单文档“完形填空”式阅读理解向多文档复杂逻辑问答式进行转变，综合运用海量互联网新闻中全球海量信息，进行基于深度学习的机器阅读理解数据集构建以及评估。
技术实现思路
专利技术目的：为了克服现有技术中基于单文档的机器阅读理解构建存在不全面不符合实际需求的缺陷，本专利技术的目的是提供一种基于深度学习的机器阅读理解数据集构建以及评估方法。技术方案：一种基于深度学习的机器阅读理解数据集构建以及评估方法，包括如下步骤：阶段1、原始数据集构建；阶段2、角色分配及标注审核；阶段3、数据集测试评估。进一步的，所述阶段1具体包括如下内容：步骤(2.1)、获取种子...

【技术保护点】
1.一种基于深度学习的机器阅读理解数据集构建以及评估方法，其特征在于，包括如下步骤：阶段1、原始数据集构建；阶段2、角色分配及标注审核；阶段3、数据集测试评估。

【技术特征摘要】
1.一种基于深度学习的机器阅读理解数据集构建以及评估方法，其特征在于，包括如下步骤：阶段1、原始数据集构建；阶段2、角色分配及标注审核；阶段3、数据集测试评估。2.根据权利要求1所述的基于深度学习的机器阅读理解数据集构建以及评估方法，其特征在于，所述阶段1具体包括如下内容：步骤(2.1)、获取种子网站上所有的原始网页；步骤(2.2)、对原始网页过滤掉不符合要求的内容，仅保留符合要求的文本数据，构建基础文本语料库；所述不符合要求的内容包括有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本，所述符合要求的文本数据包括政治、经济、军事类目标领域的文本数据；步骤(2.3)、对基础文本语料库中的所有文本数据，处理成统一格式的XML文件，导入到数据库中；步骤(2.4)、根据数据库中的文本数据，建立关键词索引，并构建搜索引擎；步骤(2.5)、导入用户需求问题集，根据用户的问题，通过搜索引擎返回的文档，整理成为机器阅读理解原始数据集。3.根据权利要求1所述的基于深度学习的机器阅读理解数据集构建以及...

【专利技术属性】
技术研发人员：王羽，葛唯益，姜晓夏，
申请(专利权)人：中国电子科技集团公司第二十八研究所，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人