数据检查和修正方法、装置及存储介质制造方法及图纸

技术编号：37216434 阅读：10 留言：0更新日期：2023-04-20 23:04

本申请公开了一种数据检查和修正方法、装置及存储介质，其中该方法，包括：将已标注标签的初始数据集划分为k份子数据集，其中k为大于1的整数；将k份子数据集中随机选取的k

全部详细技术资料下载

【技术实现步骤摘要】
数据检查和修正方法、装置及存储介质

[0001]本申请涉及信息处理
，特别是涉及一种数据检查和修正方法、装置及存储介质。

技术介绍

[0002]有监督学习是机器学习领域重要的方向，一个高质量的已标注数据集对有监督学习的效果至关重要，针对已标注的数据集，如何高效提升数据集质量是一道难题。数据集的质量标准就是标注标签的准确性。一般的方法是先由人工(标注员)对已标注数据集进行抽样检查，然后依据检查结果再考虑是否需要对整个数据集的标注标签进行修正；这样的方法效率太低，需要投入大量的人力成本。
[0003]另外，还有基于智能检查的方法，先利用一个高质量的数据集进行模型训练，然后利用已训练的模型对需要检查的数据集进行标签预测，最后筛选预测标签与标注标签不一致的样本给人工(标注员)进行修正。只需要检查修正经过筛选的样本，这样确实提升了数据检查和修正的效率，但需要事先准备好一个高质量的数据集，这样的方法存在一定的局限性。
[0004]针对上述的现有技术中存在的数据检查和修正方法的局限性大、人力成本高以及准确率低的解决方案。

技术实现思路

[0005]本专利技术的实施例提供了一种数据检查和修正方法、装置及存储介质，以至少解决现有技术中存在的数据检查和修正方法的局限性大、人力成本高以及准确率低的技术问题。
[0006]根据本专利技术实施例的一个方面，提供了一种数据检查和修正方法，包括：将已标注标签的初始数据集划分为k份子数据集，其中k为大于1的整数；将k份子数据集中随机选取的k
‑<...

【技术保护点】

【技术特征摘要】
1.一种数据检查和修正方法，其特征在于，包括：将已标注标签的初始数据集划分为k份子数据集，其中k为大于1的整数；将k份子数据集中随机选取的k
‑
1份子数据集作为训练集，将每次随机选取剩余的子数据集作为对应的验证集，得到k种数据组合，其中每种数据组合包括一个训练集和对应的验证集；利用每种数据组合中的训练集训练对应的算法模型，得到经训练的k个算法模型；将每种数据组合中的验证集输入对应的经训练的算法模型，输出每种数据组合中的验证集的预测标签；根据初始数据集的标注标签以及输出的预测标签，对初始数据集进行检查和修正，得到目标数据集。2.根据权利要求1所述的方法，其特征在于，将已标注标签的初始数据集划分为k份子数据集，包括：将已标注标签的初始数据集中的所有数据随机打乱；将随机打乱后的所有数据平均分成独立的k份，得到k份子数据集。3.根据权利要求1所述的方法，其特征在于，根据初始数据集的标注标签以及输出的预测标签，对初始数据集进行检查和修正，得到目标数据集，包括：将每种数据组合中的验证集的预测标签与初始数据集中对应的数据的标注标签进行比对；根据比对的结果，从初始数据集中剔除出预测标签与标注标签不一致的数据，得到候选数据集；对候选数据集进行数据修正，得到目标数据集。4.根据权利要求1所述的方法，其特征在于，算法模型为机器学习模型或者深度学习模型，其中机器学习模型包括支持向量机模型、逻辑回归模型、随机森林模型，深度学习模型包括长短期记忆神经网络模型和预训练的语言表征模型。5.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至4中任意一项所述的方法。6.一种数据检查和修正装置，其特征在于，包括：数据集划分模块，用于将已标注标签的初始数据集划分为k份子数据集，其中k为大于1的整数；数据随机组合模块，用于将k份子数据集中随机选取的k
‑
1份子数据集作为训练集，将每次随机选取剩余的子数据集作为对应...

【专利技术属性】
技术研发人员：廖宇康，蒋宁，杨毅，
申请(专利权)人：北京有限元科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人