用于训练集的噪声数据修改方法、装置和电子设备制造方法及图纸

技术编号：28210407 阅读：18 留言：0更新日期：2021-04-24 14:45

本发明专利技术适用于数据处理技术领域，提供了一种用于训练集的噪声数据修改方法、装置和电子设备，其中，方法包括：对人脸图片训练集中的所有图片进行聚类，得到多个类别；按照标注信息对目标类别中的图片进行分组，得到多个图片分组；将目标图片分组的所有图片的原始标注信息替换为目标标注集中的第i种标注信息，对预设模型进行训练，并获取训练得到的模型的第i识别率；循环N次获取第i识别率的过程，每次循环时i取不同数值，直至i取遍1至N中的所有数值，得到N个识别率；在N个识别率中存在大于目标识别率的识别率的情况下，将目标图片分组的所有图片的标注信息修改为最大识别率对应的标注信息。采用本发明专利技术可以降低纠正噪声数据的人工成本。成本。成本。

全部详细技术资料下载

【技术实现步骤摘要】
用于训练集的噪声数据修改方法、装置和电子设备

[0001]本专利技术属于数据处理
，尤其涉及一种用于训练集的噪声数据修改方法、装置和电子设备。

技术介绍

[0002]近几年，深度学习在图像分类、目标检测、场景识别等领域得到了广泛应用。在实际应用中，需要使用大量的训练集对神经网络进行训练。为了保证训练效果，通常由人工对训练集中的数据进行标注。当人工标注不准确时，会造成训练集中存在一些标注错误的数据，即噪声数据。目前，通常由人工对训练集中的噪声数据进行纠正。
[0003]然而，当噪声数据较多时，人工纠正耗时较长，人工成本较高。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供了一种用于训练集的噪声数据修改方法、装置和电子设备，以解决现有技术中纠正噪声数据时人工成本较高的问题。
[0005]本专利技术实施例的第一方面提供了一种用于训练集的噪声数据修改方法，包括：
[0006]对人脸图片训练集中的所有图片进行聚类，得到多个类别；
[0007]按照标注信息对目标类别中的图片进行分组，得到多个图片分组；其中，目标类别为多个类别中的任意一个类别，每个图片分组中的图片具有相同的标注信息，不同图片分组对应的标注信息不同；
[0008]目标图片分组的所有图片的原始标注信息替换为目标标注集中的第i种标注信息，并基于替换后的目标图片分组和多个图片分组中除目标图片分组之外的图片分组，对预设模型进行训练，并获取训练得到的模型的第i识别率；其中，目标图片分组为多个图片分组中的任...

【技术保护点】

【技术特征摘要】
1.一种用于训练集的噪声数据修改方法，其特征在于，包括：对人脸图片训练集中的所有图片进行聚类，得到多个类别；按照标注信息对目标类别中的图片进行分组，得到多个图片分组；其中，所述目标类别为所述多个类别中的任意一个类别，每个所述图片分组中的图片具有相同的标注信息，不同所述图片分组对应的标注信息不同；目标图片分组的所有图片的原始标注信息替换为目标标注集中的第i种标注信息，并基于替换后的所述目标图片分组和所述多个图片分组中除所述目标图片分组之外的图片分组，对预设模型进行训练，并获取训练得到的模型的第i识别率；其中，所述目标图片分组为所述多个图片分组中的任意一个图片分组，所述目标标注集为所述目标类别对应的除所述原始标注信息之外的所有标注信息的集合，所述目标标注集包括N种标注信息，1≤i≤N，i和N均为正整数；循环N次以上获取第i识别率的过程，每次循环时i取不同数值，直至i取遍1至N中的所有数值，得到N个识别率；在所述N个识别率中存在大于目标识别率的识别率的情况下，将所述目标图片分组的所有图片的标注信息修改为所述N个识别率中的最大识别率对应的标注信息；其中，所述目标识别率为基于所述多个图片分组对所述预设模型进行训练后得到的模型的识别率。2.如权利要求1所述的用于训练集的噪声数据修改方法，其特征在于，所述对人脸图片训练集中的所有图片进行聚类，得到多个类别，包括：根据最大最小K均值聚类算法对所述人脸图片训练集中的所有图片进行聚类，得到多个类别。3.如权利要求1所述的用于训练集的噪声数据修改方法，其特征在于，所述按照标注信息对目标类别中的图片进行分组，包括：获取所述目标类别中所有图片的标注信息；剔除所述所有图片的标注信息中重复的标注信息，得到剩余标注信息；根据所述剩余标注信息中的每一种标注信息，对所述目标类别中的图片进行分组。4.如权利要求1所述的用于训练集的噪声数据修改方法，其特征在于，所述得到N个识别率之后，所述方法还包括：获取所述N个识别率中的最大识别率；如果所述最大识别率大于所述目标识别率，则所述N个识别率中存在大于目标识别率的识别率，否则所述N个识别率中不存在大于目标识别率的识别率。5.如权利要求1至4任一项所述的用于训练集的噪声数据修改方法，其特征在于，所述获取训练得到的模型的第i识别率，包括：利用预设测试集对训练得到的模型进行测试，得到所述第i识别率；其中，每次对训练得到的模型进行测试时采用的...

【专利技术属性】
技术研发人员：吴少颖，张莉莉，张帅帅，
申请(专利权)人：中科恒运股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人