用于训练集的噪声数据修改方法、装置和电子设备制造方法及图纸

技术编号:28210407 阅读:18 留言:0更新日期:2021-04-24 14:45
本发明专利技术适用于数据处理技术领域,提供了一种用于训练集的噪声数据修改方法、装置和电子设备,其中,方法包括:对人脸图片训练集中的所有图片进行聚类,得到多个类别;按照标注信息对目标类别中的图片进行分组,得到多个图片分组;将目标图片分组的所有图片的原始标注信息替换为目标标注集中的第i种标注信息,对预设模型进行训练,并获取训练得到的模型的第i识别率;循环N次获取第i识别率的过程,每次循环时i取不同数值,直至i取遍1至N中的所有数值,得到N个识别率;在N个识别率中存在大于目标识别率的识别率的情况下,将目标图片分组的所有图片的标注信息修改为最大识别率对应的标注信息。采用本发明专利技术可以降低纠正噪声数据的人工成本。成本。成本。

【技术实现步骤摘要】
用于训练集的噪声数据修改方法、装置和电子设备


[0001]本专利技术属于数据处理
,尤其涉及一种用于训练集的噪声数据修改方法、装置和电子设备。

技术介绍

[0002]近几年,深度学习在图像分类、目标检测、场景识别等领域得到了广泛应用。在实际应用中,需要使用大量的训练集对神经网络进行训练。为了保证训练效果,通常由人工对训练集中的数据进行标注。当人工标注不准确时,会造成训练集中存在一些标注错误的数据,即噪声数据。目前,通常由人工对训练集中的噪声数据进行纠正。
[0003]然而,当噪声数据较多时,人工纠正耗时较长,人工成本较高。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种用于训练集的噪声数据修改方法、装置和电子设备,以解决现有技术中纠正噪声数据时人工成本较高的问题。
[0005]本专利技术实施例的第一方面提供了一种用于训练集的噪声数据修改方法,包括:
[0006]对人脸图片训练集中的所有图片进行聚类,得到多个类别;
[0007]按照标注信息对目标类别中的图片进行分组,得到多个图片分组;其中,目标类别为多个类别中的任意一个类别,每个图片分组中的图片具有相同的标注信息,不同图片分组对应的标注信息不同;
[0008]目标图片分组的所有图片的原始标注信息替换为目标标注集中的第i种标注信息,并基于替换后的目标图片分组和多个图片分组中除目标图片分组之外的图片分组,对预设模型进行训练,并获取训练得到的模型的第i识别率;其中,目标图片分组为多个图片分组中的任意一个图片分组,目标标注集为目标类别对应的除所述原始标注信息之外的所有标注信息的集合,目标标注集包括N种标注信息,1≤i≤N,i和N均为正整数;
[0009]循环N次以上获取第i识别率的过程,每次循环时i取不同数值,直至i取遍1至N中的所有数值,得到N个识别率;
[0010]在所述N个识别率中存在大于目标识别率的识别率的情况下,将所述目标图片分组的所有图片的标注信息修改为所述N个识别率中的最大识别率对应的标注信息;其中,目标识别率为基于多个图片分组对预设模型进行训练后得到的模型的识别率。
[0011]可选的,对人脸图片训练集中的所有图片进行聚类,得到多个类别,包括:
[0012]根据最大最小K均值聚类算法对人脸图片训练集中的所有图片进行聚类,得到多个类别。
[0013]可选的,按照标注信息对目标类别中的图片进行分组,包括:
[0014]获取目标类别中所有图片的标注信息;
[0015]剔除所有图片的标注信息中重复的标注信息,得到剩余标注信息;
[0016]根据剩余标注信息中的每一种标注信息,对目标类别中的图片进行分组。
[0017]可选的,得到N个识别率之后,方法还包括:
[0018]获取N个识别率中的最大识别率;
[0019]如果最大识别率大于目标识别率,则N个识别率中存在大于目标识别率的识别率,否则N个识别率中不存在大于目标识别率的识别率。
[0020]可选的,获取训练得到的模型的第i识别率,包括:
[0021]利用预设测试集对训练得到的模型进行测试,得到第i识别率;其中,每次对训练得到的模型进行测试时采用的预设测试集相同。
[0022]本专利技术实施例的第二方面提供了一种噪声数据的修改装置,包括:
[0023]聚类模块,用于对人脸图片训练集中的所有图片进行聚类,得到多个类别;
[0024]分组模块,用于按照标注信息对目标类别中的图片进行分组,得到多个图片分组;其中,目标类别为多个类别中的任意一个类别,每个图片分组中的图片具有相同的标注信息,不同图片分组对应的标注信息不同;
[0025]获取模块,用于目标图片分组的所有图片的原始标注信息替换为目标标注集中的第i种标注信息,并基于替换后的目标图片分组和多个图片分组中除目标图片分组之外的图片分组,对预设模型进行训练,并获取训练得到的模型的第i识别率;其中,目标图片分组为多个图片分组中的任意一个图片分组,目标标注集为目标类别对应的除所述原始标注信息之外的所有标注信息的集合,目标标注集包括N种标注信息,6≤i≤N,i和N均为正整数;
[0026]循环模块,用于循环N次以上获取第i识别率的过程,每次循环时i取不同数值,直至i取遍6至N中的所有数值,得到N个识别率;
[0027]修改模块,用于在所述N个识别率中存在大于目标识别率的识别率的情况下,将所述目标图片分组的所有图片的标注信息修改为所述N个识别率中的最大识别率对应的标注信息;其中,目标识别率为基于多个图片分组对预设模型进行训练后得到的模型的识别率。
[0028]可选的,聚类模块还用于:
[0029]根据最大最小K均值聚类算法对人脸图片训练集中的所有图片进行聚类,得到多个类别。
[0030]可选的,分组模块还用于:
[0031]获取目标类别中所有图片的标注信息;
[0032]剔除所有图片的标注信息中重复的标注信息,得到剩余标注信息;
[0033]根据剩余标注信息中的每一种标注信息,对目标类别中的图片进行分组。
[0034]可选的,噪声数据的修改装置还包括判断模块,用于:
[0035]获取N个识别率中的最大识别率;如果最大识别率大于目标识别率,则N个识别率中存在大于目标识别率的识别率,否则N个识别率中不存在大于目标识别率的识别率。
[0036]可选的,获取模块还用于:
[0037]利用预设测试集对训练得到的模型进行测试,得到第i识别率;其中,每次对训练得到的模型进行测试时采用的预设测试集相同。
[0038]本专利技术实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述方法的步骤。
[0039]本专利技术实施例与现有技术相比存在的有益效果是:
[0040]本专利技术实施例可以先将人脸图片训练集中的图片划分为多个类别,然后再按照图片的标注信息,将每个类别划分为多个图片分组。之后,可以以目标图片分组为单位,对目标图片分组中所有图片的标注信息依次替换为目标标注集中的标注信息,并获取每次替换对应的训练得到的模型的识别率。接着,可以比较目标图片分组对应的目标识别率和所有替换得到的识别率的大小情况,如果替换得到的所有识别率中存在大于目标识别率的识别率,则可以将目标图片分组中的所有图片的标注信息修改为所有替换得到的识别率中的最大识别率对应的标注信息。由于每次替换得到的识别率,可以反映此次替换后目标图片分组中所有图片是否为噪声数据的概率,因此,可以利用识别率判断出人脸图片训练集中的噪声数据,同时,可以认为最大识别率对应的标注信息为正确的标注信息,进而可以将目标图片分组中所有图片的标注信息,修改为最大识别率对应的标注信息,从而纠正了噪声数据。
[0041]如此,不仅可以保证噪声数据纠正的准确率,还可以降低人工成本。
附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练集的噪声数据修改方法,其特征在于,包括:对人脸图片训练集中的所有图片进行聚类,得到多个类别;按照标注信息对目标类别中的图片进行分组,得到多个图片分组;其中,所述目标类别为所述多个类别中的任意一个类别,每个所述图片分组中的图片具有相同的标注信息,不同所述图片分组对应的标注信息不同;目标图片分组的所有图片的原始标注信息替换为目标标注集中的第i种标注信息,并基于替换后的所述目标图片分组和所述多个图片分组中除所述目标图片分组之外的图片分组,对预设模型进行训练,并获取训练得到的模型的第i识别率;其中,所述目标图片分组为所述多个图片分组中的任意一个图片分组,所述目标标注集为所述目标类别对应的除所述原始标注信息之外的所有标注信息的集合,所述目标标注集包括N种标注信息,1≤i≤N,i和N均为正整数;循环N次以上获取第i识别率的过程,每次循环时i取不同数值,直至i取遍1至N中的所有数值,得到N个识别率;在所述N个识别率中存在大于目标识别率的识别率的情况下,将所述目标图片分组的所有图片的标注信息修改为所述N个识别率中的最大识别率对应的标注信息;其中,所述目标识别率为基于所述多个图片分组对所述预设模型进行训练后得到的模型的识别率。2.如权利要求1所述的用于训练集的噪声数据修改方法,其特征在于,所述对人脸图片训练集中的所有图片进行聚类,得到多个类别,包括:根据最大最小K均值聚类算法对所述人脸图片训练集中的所有图片进行聚类,得到多个类别。3.如权利要求1所述的用于训练集的噪声数据修改方法,其特征在于,所述按照标注信息对目标类别中的图片进行分组,包括:获取所述目标类别中所有图片的标注信息;剔除所述所有图片的标注信息中重复的标注信息,得到剩余标注信息;根据所述剩余标注信息中的每一种标注信息,对所述目标类别中的图片进行分组。4.如权利要求1所述的用于训练集的噪声数据修改方法,其特征在于,所述得到N个识别率之后,所述方法还包括:获取所述N个识别率中的最大识别率;如果所述最大识别率大于所述目标识别率,则所述N个识别率中存在大于目标识别率的识别率,否则所述N个识别率中不存在大于目标识别率的识别率。5.如权利要求1至4任一项所述的用于训练集的噪声数据修改方法,其特征在于,所述获取训练得到的模型的第i识别率,包括:利用预设测试集对训练得到的模型进行测试,得到所述第i识别率;其中,每次对训练得到的模型进行测试时采用的...

【专利技术属性】
技术研发人员:吴少颖张莉莉张帅帅
申请(专利权)人:中科恒运股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1