数据检查和修正方法、装置及存储介质制造方法及图纸

技术编号:37216434 阅读:10 留言:0更新日期:2023-04-20 23:04
本申请公开了一种数据检查和修正方法、装置及存储介质,其中该方法,包括:将已标注标签的初始数据集划分为k份子数据集,其中k为大于1的整数;将k份子数据集中随机选取的k

【技术实现步骤摘要】
数据检查和修正方法、装置及存储介质


[0001]本申请涉及信息处理
,特别是涉及一种数据检查和修正方法、装置及存储介质。

技术介绍

[0002]有监督学习是机器学习领域重要的方向,一个高质量的已标注数据集对有监督学习的效果至关重要,针对已标注的数据集,如何高效提升数据集质量是一道难题。数据集的质量标准就是标注标签的准确性。一般的方法是先由人工(标注员)对已标注数据集进行抽样检查,然后依据检查结果再考虑是否需要对整个数据集的标注标签进行修正;这样的方法效率太低,需要投入大量的人力成本。
[0003]另外,还有基于智能检查的方法,先利用一个高质量的数据集进行模型训练,然后利用已训练的模型对需要检查的数据集进行标签预测,最后筛选预测标签与标注标签不一致的样本给人工(标注员)进行修正。只需要检查修正经过筛选的样本,这样确实提升了数据检查和修正的效率,但需要事先准备好一个高质量的数据集,这样的方法存在一定的局限性。
[0004]针对上述的现有技术中存在的数据检查和修正方法的局限性大、人力成本高以及准确率低的解决方案。

技术实现思路

[0005]本专利技术的实施例提供了一种数据检查和修正方法、装置及存储介质,以至少解决现有技术中存在的数据检查和修正方法的局限性大、人力成本高以及准确率低的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种数据检查和修正方法,包括:将已标注标签的初始数据集划分为k份子数据集,其中k为大于1的整数;将k份子数据集中随机选取的k
‑<br/>1份子数据集作为训练集,将每次随机选取剩余的子数据集作为对应的验证集,得到k种数据组合,其中每种数据组合包括一个训练集和对应的验证集;利用每种数据组合中的训练集训练对应的算法模型,得到经训练的k个算法模型;将每种数据组合中的验证集输入对应的经训练的算法模型,输出每种数据组合中的验证集的预测标签;根据初始数据集的标注标签以及输出的预测标签,对初始数据集进行检查和修正,得到目标数据集。
[0007]可选地,将已标注标签的初始数据集划分为k份子数据集,包括:将已标注标签的初始数据集中的所有数据随机打乱;将随机打乱后的所有数据平均分成独立的k份,得到k份子数据集。
[0008]可选地,根据初始数据集的标注标签以及输出的预测标签,对初始数据集进行检查和修正,得到目标数据集,包括:将每种数据组合中的验证集的预测标签与初始数据集中对应的数据的标注标签进行比对;根据比对的结果,从初始数据集中剔除出预测标签与标注标签不一致的数据,得到候选数据集;对候选数据集进行数据修正,得到目标数据集。
[0009]可选地,算法模型为机器学习模型或者深度学习模型,其中机器学习模型包括支持向量机模型、逻辑回归模型、随机森林模型,深度学习模型包括长短期记忆神经网络模型和预训练的语言表征模型。
[0010]根据本专利技术实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
[0011]根据本专利技术实施例的另一个方面,还提供了一种数据检查和修正装置,包括:数据集划分模块,用于将已标注标签的初始数据集划分为k份子数据集,其中k为大于1的整数;数据随机组合模块,用于将k份子数据集中随机选取的k

1份子数据集作为训练集,将每次随机选取剩余的子数据集作为对应的验证集,得到k种数据组合,其中每种数据组合包括一个训练集和对应的验证集;模型训练模块,用于利用每种数据组合中的训练集训练对应的算法模型,得到经训练的k个算法模型;模型预测模块,用于将每种数据组合中的验证集输入对应的经训练的算法模型,输出每种数据组合中的验证集的预测标签;检查和修正模块,用于根据初始数据集的标注标签以及输出的预测标签,对初始数据集进行检查和修正,得到目标数据集。
[0012]可选地,数据集划分模块,具体用于:将已标注标签的初始数据集中的所有数据随机打乱;将随机打乱后的所有数据平均分成独立的k份,得到k份子数据集。
[0013]可选地,检查和修正模块,具体用于:将每种数据组合中的验证集的预测标签与初始数据集中对应的数据的标注标签进行比对;根据比对的结果,从初始数据集中剔除出预测标签与标注标签不一致的数据,得到候选数据集;对候选数据集进行数据修正,得到目标数据集。
[0014]可选地,算法模型为机器学习模型或者深度学习模型,其中机器学习模型包括支持向量机模型、逻辑回归模型、随机森林模型,深度学习模型包括长短期记忆神经网络模型和预训练的语言表征模型。
[0015]根据本专利技术实施例的另一个方面,还提供了一种数据检查和修正装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:将已标注标签的初始数据集划分为k份子数据集,其中k为大于1的整数;将k份子数据集中随机选取的k

1份子数据集作为训练集,将每次随机选取剩余的子数据集作为对应的验证集,得到k种数据组合,其中每种数据组合包括一个训练集和对应的验证集;利用每种数据组合中的训练集训练对应的算法模型,得到经训练的k个算法模型;将每种数据组合中的验证集输入对应的经训练的算法模型,输出每种数据组合中的验证集的预测标签;根据初始数据集的标注标签以及输出的预测标签,对初始数据集进行检查和修正,得到目标数据集。
[0016]在本专利技术实施例中,首先将已标注标签的初始数据集划分为k份子数据集。然后,将k份子数据集中随机选取的k

1份子数据集作为训练集,将每次随机选取剩余的子数据集作为对应的验证集,得到k种数据组合。其次,利用每种数据组合中的训练集训练对应的算法模型,得到经训练的k个算法模型。再其次,将每种数据组合中的验证集输入对应的经训练的算法模型,输出每种数据组合中的验证集的预测标签。最后,根据初始数据集的标注标签以及输出的预测标签,对初始数据集进行检查和修正,得到目标数据集。本专利技术基于交叉验证的方法,经过划分的每一份数据集都采用相对应的模型进行预测,数据集中的样本没有全部参与该模型的训练,从而使得数据检查的结果更加准确。本专利技术能够将错误标注的
数据从数据集中有效的筛选出来,可以大幅减轻人工(标注员)进行数据检查和修正的工作量。本专利技术无需事先准备高质量数据集,局限性较小,应用场景更为广泛。从而解决了现有技术中存在的数据检查和修正方法的局限性大、人力成本高以及准确率低的技术问题。
附图说明
[0017]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0018]图1是用于实现根据本专利技术实施例1所述的方法的计算设备的硬件结构框图;
[0019]图2是根据本专利技术实施例1的第一个方面所述的数据检查和修正方法的流程示意图;
[0020]图3是根据本专利技术实施例1所述的数据检查和修正方法的框架示意图;
[0021]图4是根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检查和修正方法,其特征在于,包括:将已标注标签的初始数据集划分为k份子数据集,其中k为大于1的整数;将k份子数据集中随机选取的k

1份子数据集作为训练集,将每次随机选取剩余的子数据集作为对应的验证集,得到k种数据组合,其中每种数据组合包括一个训练集和对应的验证集;利用每种数据组合中的训练集训练对应的算法模型,得到经训练的k个算法模型;将每种数据组合中的验证集输入对应的经训练的算法模型,输出每种数据组合中的验证集的预测标签;根据初始数据集的标注标签以及输出的预测标签,对初始数据集进行检查和修正,得到目标数据集。2.根据权利要求1所述的方法,其特征在于,将已标注标签的初始数据集划分为k份子数据集,包括:将已标注标签的初始数据集中的所有数据随机打乱;将随机打乱后的所有数据平均分成独立的k份,得到k份子数据集。3.根据权利要求1所述的方法,其特征在于,根据初始数据集的标注标签以及输出的预测标签,对初始数据集进行检查和修正,得到目标数据集,包括:将每种数据组合中的验证集的预测标签与初始数据集中对应的数据的标注标签进行比对;根据比对的结果,从初始数据集中剔除出预测标签与标注标签不一致的数据,得到候选数据集;对候选数据集进行数据修正,得到目标数据集。4.根据权利要求1所述的方法,其特征在于,算法模型为机器学习模型或者深度学习模型,其中机器学习模型包括支持向量机模型、逻辑回归模型、随机森林模型,深度学习模型包括长短期记忆神经网络模型和预训练的语言表征模型。5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至4中任意一项所述的方法。6.一种数据检查和修正装置,其特征在于,包括:数据集划分模块,用于将已标注标签的初始数据集划分为k份子数据集,其中k为大于1的整数;数据随机组合模块,用于将k份子数据集中随机选取的k

1份子数据集作为训练集,将每次随机选取剩余的子数据集作为对应...

【专利技术属性】
技术研发人员:廖宇康蒋宁杨毅
申请(专利权)人:北京有限元科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1