一种训练数据的纠错方法、装置、设备及存储介质制造方法及图纸

技术编号:28376329 阅读:24 留言:0更新日期:2021-05-08 00:03
本发明专利技术公开了一种训练数据的纠错方法、装置、设备及存储介质,包括:获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;获取第二训练数据集,通过训练后的特征提取网络对第二训练数据集进行识别,得到错误训练数据;其中,第一训练数据集中的数据数量小于第二训练数据集中的数据数量。本发明专利技术实施例的技术方案可以实现训练数据纠错过程的自动化,提高训练数据的纠错效率,提高纠错结果的可靠性。

【技术实现步骤摘要】
一种训练数据的纠错方法、装置、设备及存储介质
本专利技术实施例涉及深度学习领域,尤其涉及一种训练数据的纠错方法、装置、设备及存储介质。
技术介绍
随着深度学习技术的发展,人们可以通过使用深度学习的方法,有效地处理图像分类等问题。在进行图像数据分类时,需要先训练数据分类模型,基于数据分类模型进行数据分类。为了提高数据分类模型分类结果的准确性,往往需要提供大量的样本训练数据,现有的数据分类模型通常依靠人工手动的方式将训练数据进行分类。由于训练数据的总量可能很大,现有方法容易出现对训练数据分类错误的情况,并且依靠人工方式纠错(即查找分类错误的训练数据)可能会花费较长的时间,导致纠错过程十分困难。现有技术中为了降低训练数据分类结果的错误率,通常采取数据增强的方式,即提高训练数据的总量,从而降低错误数据的比例,但是这种方法可能会存在训练数据过拟合等潜在的风险,导致数据分类模型有效性较差;区别于依靠人工方式纠错,现有技术中还可以利用网络模型的可视化工具提取各训练数据的特征信息,将各训练数据的特征信息与正确样本数据的特征信息进行对比,根据对比本文档来自技高网...

【技术保护点】
1.一种训练数据的纠错方法,其特征在于,包括:/n获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;/n获取第二训练数据集,通过所述训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据;/n其中,所述第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量。/n

【技术特征摘要】
1.一种训练数据的纠错方法,其特征在于,包括:
获取第一训练数据集,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,得到训练后的特征提取网络;
获取第二训练数据集,通过所述训练后的特征提取网络对所述第二训练数据集进行识别,得到错误训练数据;
其中,所述第一训练数据集中的数据数量小于所述第二训练数据集中的数据数量。


2.根据权利要求1所述的方法,其特征在于,在得到错误训练数据之后,还包括:
获取第三训练数据集,所述第三训练数据集为根据各所述错误训练数据,对第二训练数据集进行重新分类得到的数据集;
对所述错误训练数据进行数据增强,得到错误训练数据集,并将所述错误训练数据集输入至训练后的特征提取网络中进行训练,得到新的特征提取网络;
通过所述新的特征提取网络对所述第三训练数据集进行识别,得到新的错误训练数据;
返回执行获取第三训练数据集的操作,直至所述新的特征提取网络不输出新的错误训练数据。


3.根据权利要求2所述的方法,其特征在于,在所述新的特征提取网络不输出错误训练数据之后,还包括:
获取所述第三训练数据集和测试数据集;
使用所述第三训练数据集和测试数据集对所述原始分类模型中的特征提取网络和判别网络进行迭代训练,得到目标分类模型;所述目标分类模型,用于对获取的图像数据进行分类。


4.根据权利要求1所述的方法,其特征在于,在通过所述训练后的特征提取网络对所述第二训练数据集进行识别之后,还包括:
如果所述训练后的特征提取网络识别不到错误训练数据,则将所述第二训练数据集输入至与所述原始分类模型对应的可视化工具中;
根据所述可视化工具提取第二训练数据集中各训练数据的特征信息,将各训练数据的特征信息与正确训练数据的特征信息进行对比,根据对比结果筛选出错误训练数据。


5.根据权利要求1所述的方法,其特征在于,将第一训练数据集输入至原始分类模型中的特征提取网络进行训练,包括:
获取与所述原始分类模型对应的原始训练数据集,并确定所述第一训练数据集与所述原始训练数据集的相似度;
根...

【专利技术属性】
技术研发人员:张玥王忠诚盛国军沈圣远徐鹏
申请(专利权)人:海尔数字科技上海有限公司海尔数字科技青岛有限公司青岛海尔工业智能研究院有限公司海尔卡奥斯物联生态科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1