一种数据处理方法及装置、可读存储介质制造方法及图纸

技术编号:28296769 阅读:41 留言:0更新日期:2021-04-30 16:21
本申请提供一种数据处理方法及装置、可读存储介质。数据处理方法包括:获取多张样本图片和预先训练好的多个验证模型;每张样本图片对应一个标注标签;将多张样本图片分别输入到多个验证模型中,获得每个验证模型输出的验证结果;验证结果中包括:每张样本图片的标签为预设的多个标签中的每个标签的概率;多个标签不相同;标注标签属于多个标签中的标签;根据多个验证模型输出的验证结果确定每张样本图片对应的标注标签与多个标签之间的平均交叉熵;根据多张样本图片的平均交叉熵确定多个标签的拟合分布;根据每张样本图片的平均交叉熵在拟合分布中的概率确定每张样本图片对应的标注标签是否为正确标签。该方法提高标签清洗的准确度和效率。

【技术实现步骤摘要】
一种数据处理方法及装置、可读存储介质
本申请涉及人工智能
,具体而言,涉及一种数据处理方法及装置、可读存储介质。
技术介绍
对于神经网络模型的训练样本,其对应的标注标签通常均由人工进行标注。人工标注的标签存在不准确的问题,因此,需要对人工标注的标签进行清洗。现有技术中,在进行标签清洗时,主要通过人工筛选出错误标签。人工筛选错误标签对数据标注从业者的要求较高,特别是在某些特殊的数据行业,非行业人员可能需要更久的培训时间,并且还有人工效率较低等问题。因此,现有的标签清洗方式的准确度和效率都较低。
技术实现思路
本申请实施例的目的在于提供一种数据处理方法及装置、可读存储介质,用以提高标签清洗的准确度和效率。第一方面,本申请实施例提供一种数据处理方法,包括:获取多张样本图片和预先训练好的多个验证模型;每张样本图片对应一个标注标签;将所述多张样本图片分别输入到所述多个验证模型中,获得每个验证模型输出的验证结果;所述验证结果中包括:每张样本图片的标签为预设的多个标签中的每个标签的概率;所述预设的多个标签不相本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取多张样本图片和预先训练好的多个验证模型;每张样本图片对应一个标注标签;/n将所述多张样本图片分别输入到所述多个验证模型中,获得每个验证模型输出的验证结果;所述验证结果中包括:每张样本图片的标签为预设的多个标签中的每个标签的概率;所述标注标签属于所述多个标签中的标签,所述预设的多个标签不相同;/n根据所述多个验证模型输出的验证结果确定每张样本图片对应的标注标签与所述多个标签之间的平均交叉熵;/n根据多张样本图片的平均交叉熵确定所述多个标签的拟合分布;/n根据每张样本图片的平均交叉熵在所述拟合分布中的概率确定每张样本图片对应的标注标签是否为正确标签。...

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取多张样本图片和预先训练好的多个验证模型;每张样本图片对应一个标注标签;
将所述多张样本图片分别输入到所述多个验证模型中,获得每个验证模型输出的验证结果;所述验证结果中包括:每张样本图片的标签为预设的多个标签中的每个标签的概率;所述标注标签属于所述多个标签中的标签,所述预设的多个标签不相同;
根据所述多个验证模型输出的验证结果确定每张样本图片对应的标注标签与所述多个标签之间的平均交叉熵;
根据多张样本图片的平均交叉熵确定所述多个标签的拟合分布;
根据每张样本图片的平均交叉熵在所述拟合分布中的概率确定每张样本图片对应的标注标签是否为正确标签。


2.根据权利要求1所述的方法,其特征在于,在所述获取多张样本图片和预先训练好的多个验证模型之前,所述方法还包括:
获取交叉数据集;所述交叉数据集中包括训练数据集和验证数据集,所述训练数据集中包括多张第一样本图片,所述验证数据集中包括多张第二样本图片,所述多张第一样本图片和所述多张第二样本图片均选自所述多张样本图片;
通过所述交叉数据集分别对多个初始的验证模型进行训练,获得训练好的多个验证模型;其中,所述训练数据集用于对初始的验证模型中的分类器进行训练,所述验证数据集用于对训练得到的验证模型进行测试。


3.根据权利要求2所述的方法,其特征在于,在所述通过所述交叉数据集分别对多个初始的验证模型进行训练,获得训练好的多个验证模型之后,所述方法还包括:
确定训练好的多个验证模型的准确率和召回率;
根据所述准确率和所述召回率确定所述训练好的多个验证模型的质量评分;
根据所述质量评分对所述训练好的多个验证模型进行优化。


4.根据权利要求1所述的方法,其特征在于,所述根据所述多个验证模型输出的验证结果确定每张样本图片对应的标注标签与所述多个标签之间的平均交叉熵,包括:
通过公式:计算每张样本图片对应的标注标签与所述多个标签之间的平均交叉熵;
其中,为第j张样本图片的平均交叉熵,为第i个验证模型输出的第j张样本图片的标签为预设的第个标签的概率,在第j张样本图片对应的标注标签为所述第个标签时为1,在第j张样本图片对应的标注标签不是所述第个标签时为0。


5.根据权利要求1所述的方法,其特征在于,所述根据每张样本图片的平均交叉熵在所述拟合分布中的概率确定每张样本图片对应的标注标签是否为...

【专利技术属性】
技术研发人员:张翼顾华鑫李辰廖强
申请(专利权)人:成都佳华物链云科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1