基于大数据的阅读模型优化方法、装置、设备及介质制造方法及图纸

技术编号：24996815 阅读：35 留言：0更新日期：2020-07-24 17:59

本发明专利技术公开一种基于大数据的阅读模型优化方法，包括：根据已标注数据集对第一阅读理解模型、问题生成模型以及第二阅读理解模型进行预训练；通过预训练后的第二阅读理解模型对无标注数据集进行预测，得到关于文章和答案的二元数据对；通过预训练后的问题生成模型对所述二元数据对进行预测，得到关于文章、问题和答案的三元数据对；通过预训练后的第一阅读理解模型对三元数据对进行过滤；根据已标注数据集中的文章主题对过滤后的三元数据对进行筛选，生成伪标注数据集；根据伪标注数据集和已标注数据集对预训练后的所述第一阅读理解模型进行优化训练。本发明专利技术解决了现有阅读理解技术由于标注数据的获取成本高导致的训练样本小、模型精度低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于大数据的阅读模型优化方法、装置、设备及介质
本专利技术涉及信息
，尤其涉及一种基于大数据的阅读模型优化方法、装置、设备及介质。
技术介绍
阅读理解技术是自然语言处理领域中的一种难度高且应用广泛的信息处理技术。阅读理解技术旨在根据提出的问题从给定的文章或文档中找到相应的答案，甚至还可以判断提出的问题是否可以回答。优秀的阅读理解模型需要具有像人类一样的语言理解能力和知识推理能力，以对文章进行深入的挖掘和分析，并根据特定的问题聚焦于文章的不同部分或者观点来找到正确答案，因此具有较高的难度。目前优秀的阅读理解模型均是基于复杂的深度学习模型结构，需要十分庞大的训练数据来让模型进行学习。从阅读理解技术的定义可知，阅读理解技术的训练数据需要预先标注，以定位文章信息、问题信息和答案信息。然而对训练数据进行标注是十分困难的，这是因为需要标注者先阅读整篇文章并随后根据给出的问题来生成相应的答案，无论是效率还是精度都难以有很好的保证。由于标注数据的获取成本很高，在实际使用中，阅读理解模型往往基于规模较小的训练数据进行训练，无法在参数空间...

【技术保护点】
1.一种基于大数据的阅读模型优化方法，其特征在于，包括：/n获取已标注数据集，根据所述已标注数据集对预设的第一阅读理解模型、问题生成模型以及第二阅读理解模型进行预训练；/n获取无标注数据集，通过预训练后的第二阅读理解模型对所述无标注数据集进行预测，得到所述无标注数据集关于文章和答案的二元数据对；/n通过预训练后的问题生成模型对所述二元数据对进行预测，得到所述无标注数据集关于文章、问题和答案的三元数据对；/n通过预训练后的第一阅读理解模型对所述三元数据对进行过滤；/n根据已标注数据集中的文章主题，对过滤后的所述三元数据对进行筛选，生成伪标注数据集；/n根据所述伪标注数据集和已标注数据集对预训练后...

【技术特征摘要】
1.一种基于大数据的阅读模型优化方法，其特征在于，包括：
获取已标注数据集，根据所述已标注数据集对预设的第一阅读理解模型、问题生成模型以及第二阅读理解模型进行预训练；
获取无标注数据集，通过预训练后的第二阅读理解模型对所述无标注数据集进行预测，得到所述无标注数据集关于文章和答案的二元数据对；
通过预训练后的问题生成模型对所述二元数据对进行预测，得到所述无标注数据集关于文章、问题和答案的三元数据对；
通过预训练后的第一阅读理解模型对所述三元数据对进行过滤；
根据已标注数据集中的文章主题，对过滤后的所述三元数据对进行筛选，生成伪标注数据集；
根据所述伪标注数据集和已标注数据集对预训练后的所述第一阅读理解模型进行优化训练。

2.如权利要求1所述的基于大数据的阅读模型优化方法，其特征在于，所述获取已标注数据集，根据所述已标注数据集对预设的第一阅读理解模型、问题生成模型以及第二阅读理解模型进行预训练包括：
获取已标注数据集，所述已标注数据集中包括若干条已标注数据对，每一已标注数据对包括文章信息、问题信息及对应的答案信息；
采用所述已标注数据集中的文章信息和问题信息对所述第一阅读理解模型进行预训练；
采用所述已标注数据集中的文章信息和答案信息对所述问题生成模型进行预训练；
采用所述已标注数据集中的文章信息，对所述第二阅读理解模型进行预训练。

3.如权利要求1或2所述的基于大数据的阅读模型优化方法，其特征在于，所述通过预训练后的第二阅读理解模型对所述无标注数据集进行预测，得到所述无标注数据集关于文章和答案的二元数据对包括：
将所述无标注数据集输入预训练后的第二阅读理解模型，并获取所述预训练后的第二阅读理解模型的输出作为第一预测答案；
对所述无标注数据集进行命名实体识别，获取第二预测答案；
采用双向长短期记忆网络和条件随机场技术从所述无标注数据集中获取第三预测答案；
合并所述第一预测答案、第二预测答案和第三预测答案，得到所述无标注数据集关于文章和答案的二元数据对。

4.如权利要求1或2所述的基于大数据的阅读模型优化方法，其特征在于，所述通过预训练后的第一阅读理解模型对所述三元数据对进行过滤包括：
遍历所述三元数据对，通过预训练后的所述第一阅读理解模型对所述三元数据对中的文章信息和问题信息进行预测，得到所述三元数据对对应的预测答案；
将所述三元数据对对应的预测答案与三元数据对中的答案信息进行比对；
若所述三元数据对对应的预测答案与三元数据对中的答案信息不相同，则删除所述三元数据对；
若所述三元数据对对应的预测答案与三元数据对中的答案信息相同，则保留所述三元数据对。

5.如权利要求1或2所述的基于大数据的阅读模型优化方法，其特征在于，所述根据已标注数据集中的文章主题，对过滤后的所述三元数据对进行筛选，生成伪标注数据集包括：<...

【专利技术属性】
技术研发人员：楼星雨，许开河，王少军，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人