本申请提供一种样本图像标签处理方法、装置及电子设备,所述方法包括:获取多个待处理样本图像及各所述待处理样本图像对应的第一分类标签;从多个所述待处理样本图像中筛选获得多个标准样本图像;通过特征提取模型分别对各所述待处理样本图像进行特征提取,获取各所述待处理样本图像对应的图像特征信息;针对所述待处理样本图像中除所述标准样本图像以外的目标样本图像,根据所述目标样本图像与各所述标准样本图像之间的所述图像特征信息的相似度及各所述标准样本图像的第一分类标签,确定所述目标样本图像调整后的第二分类标签。如此,可以在不引入更多数据、无监督的情况下,自动地实现海量待处理样本图像的分类标签清洗。动地实现海量待处理样本图像的分类标签清洗。动地实现海量待处理样本图像的分类标签清洗。
【技术实现步骤摘要】
样本图像标签处理方法、装置及电子设备
[0001]本申请涉及大数据处理
,具体而言,涉及一种样本图像标签处理方法、装置及电子设备。
技术介绍
[0002]在大数据处理场景中,待处理数据的质量通常对处理结果有决定性的影响。但是,获取足够数量的待处理数据可能并不是一件难事,获得准确、可靠、干净的待处理数据相对较难。
[0003]例如,在涉及图像处理的大数据处理场景中,可能需要使用大量的样本图像进行训练或者对大量的样本图像进行处理。样本图像数据通常包括图像本体和与图像本体对应的分类标签,在具有海量的样本图像的样本集合中,各样本图像的分类标签可能是多个模型自动标注的,这可能导致整个样本集合中存在相同分类中样本特征不统一、样本分类标签存在分歧等问题。分类标签杂乱的样本集合难以用于后续的大数据处理流程,因此需要对样本图像的分类标签进行数据清洗,调整样本图像的分类标签。
[0004]在现有的一些数据清洗方式中,采用人工修正的方式,虽然准确度高,但成本高效率低;基于模型检测的方式能够识别出一些离群样本,但无法很好地应对同类别之内数据一致性较差的情形;基于聚类分析的方式中,聚类方向不一定会按照理想的方向聚集,并且其聚类结果非常受参数和数据分布的影响,例如,密度大的簇可能会合并密度小的簇。
技术实现思路
[0005]为了克服现有技术中的上述不足,本申请的目的在于提供一种样本图像标签处理方法,所述方法包括:
[0006]获取多个待处理样本图像及各所述待处理样本图像对应的第一分类标签;
[0007]从多个所述待处理样本图像中筛选获得多个标准样本图像;
[0008]通过特征提取模型分别对各所述待处理样本图像进行特征提取,获取各所述待处理样本图像对应的图像特征信息;
[0009]针对所述待处理样本图像中除所述标准样本图像以外的目标样本图像,根据所述目标样本图像与各所述标准样本图像之间的所述图像特征信息的相似度及各所述标准样本图像的第一分类标签,确定所述目标样本图像调整后的第二分类标签。
[0010]在一种可能的实现方式中,所述从多个所述待处理样本图像中筛选获得多个标准样本图像的步骤,包括:
[0011]通过多个所述待处理样本图像对一分类模型进行训练,获得训练后的分类模型;
[0012]通过所述分类模型对各所述待处理样本图像进行分类识别,获得各所述待处理样本图像对应的预测分类结果;
[0013]根据各所述待处理样本图像的所述预测分类结果与所述第一分类标签,确定各所述待处理样本图像的标签置信度;
[0014]将所述标签置信度大于预设置信度阈值的所述待处理样本图像确定为所述标准样本图像。
[0015]在一种可能的实现方式中,所述通过特征提取模型分别对各所述待处理样本图像进行特征提取,获取各所述待处理样本图像对应的图像特征信息的步骤,包括:
[0016]针对每个所述待处理样本图像,将所述待处理样本图像作为锚样本,将该待处理样本图像进行变换后的图像作为正样本,将其他所述待处理样本图像作为负样本,以使所述锚样本与所述正样本之间的特征距离最小化,所述锚样本与所述负样本之间的特征距离最大化为目的训练一特征提取模型;
[0017]通过所述特征提取模型分别对各所述待处理样本图像进行特征提取,获取各所述待处理样本图像对应的图像特征信息。
[0018]在一种可能的实现方式中,所述将该待处理样本图像进行变换后的图像作为正样本的步骤,包括:
[0019]将该待处理样本图像进行剪裁和/或旋转变换后的图像作为正样本。
[0020]在一种可能的实现方式中,所述根据所述目标样本图像与各所述标准样本图像之间的所述图像特征信息的相似度及各所述标准样本图像的第一分类标签,确定所述目标样本图像调整后的第二分类标签的步骤,包括:
[0021]根据所述目标样本图像与各所述标准样本图像之间的所述图像特征信息的相似度对所述标准样本图像进行排序;
[0022]根据排序结果,确定与各所述标准样本图像之间的所述图像特征信息的相似度最接近的第一预设数量的所述标准样本图像作为候选样本图像;
[0023]根据各所述候选样本图像的排序位置及各所述候选样本图像的第一分类标签确定所述目标样本图像的调整后的第二分类标签。
[0024]在一种可能的实现方式中,所述根据各所述候选样本图像的排序位置及各所述候选样本图像的第一分类标签确定所述目标样本图像的调整后的第二分类标签的步骤,包括:
[0025]根据各所述候选样本图像的排序位置确定相应的贡献度值,其中,与各所述标准样本图像之间的所述图像特征信息的相似度越大的所述候选样本图像对应的贡献度值越大;
[0026]计算具有相同的所述第一分类标签的所述候选样本图像的所述贡献度值之和作为该第一分类标签对应的权重值;
[0027]将权重值最高的所述第一分类标签作为所述目标样本图像的调整后的第二分类标签。
[0028]在一种可能的实现方式中,所述根据各所述候选样本图像的排序位置及各所述候选样本图像的第一分类标签确定所述目标样本图像的调整后的第二分类标签的步骤之前,所述方法还包括:
[0029]确定所述第一分类标签与所述目标样本图像不同的所述候选样本图像的数量;
[0030]若所述第一分类标签与所述目标样本图像不同的所述候选样本图像的数量小于或等于第二预设数量,则将所述目标样本图像的所述第一分类标签作为所述目标样本图像的所述第二分类标签;所述第二预设数量小于所述第一预设数量;
[0031]若所述第一分类标签与所述目标样本图像不同的所述候选样本图像的数量大于所述第二预设数量,则跳转至执行根据各所述候选样本图像的排序位置及各所述候选样本图像的第一分类标签确定所述目标样本图像的调整后的第二分类标签的步骤。
[0032]本申请的另一目的在于提供一种样本图像标签处理装置,所述装置包括:
[0033]数据获取模块,用于获取多个待处理样本图像及各所述待处理样本图像对应的第一分类标签;
[0034]样本筛选模块,用于从多个所述待处理样本图像中筛选获得多个标准样本图像;
[0035]特征提取模块,用于通过特征提取模型分别对各所述待处理样本图像进行特征提取,获取各所述待处理样本图像对应的图像特征信息;
[0036]标签调整模块,用于针对所述待处理样本图像中除所述标准样本图像以外的目标样本图像,根据所述目标样本图像与各所述标准样本图像之间的所述图像特征信息的相似度及各所述标准样本图像的第一分类标签,确定所述目标样本图像调整后的第二分类标签。
[0037]本申请的另一目的在于提供一种电子设备,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本申请提供的样本图像标签处理方法。
[0038]本申请的另一目的在于提供一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种样本图像标签处理方法,其特征在于,所述方法包括:获取多个待处理样本图像及各所述待处理样本图像对应的第一分类标签;从多个所述待处理样本图像中筛选获得多个标准样本图像;通过特征提取模型分别对各所述待处理样本图像进行特征提取,获取各所述待处理样本图像对应的图像特征信息;针对所述待处理样本图像中除所述标准样本图像以外的目标样本图像,根据所述目标样本图像与各所述标准样本图像之间的所述图像特征信息的相似度及各所述标准样本图像的第一分类标签,确定所述目标样本图像调整后的第二分类标签。2.根据权利要求1所述的方法,其特征在于,所述从多个所述待处理样本图像中筛选获得多个标准样本图像的步骤,包括:通过多个所述待处理样本图像对一分类模型进行训练,获得训练后的分类模型;通过所述分类模型对各所述待处理样本图像进行分类识别,获得各所述待处理样本图像对应的预测分类结果;根据各所述待处理样本图像的所述预测分类结果与所述第一分类标签,确定各所述待处理样本图像的标签置信度;将所述标签置信度大于预设置信度阈值的所述待处理样本图像确定为所述标准样本图像。3.根据权利要求1所述的方法,其特征在于,所述通过特征提取模型分别对各所述待处理样本图像进行特征提取,获取各所述待处理样本图像对应的图像特征信息的步骤,包括:针对每个所述待处理样本图像,将所述待处理样本图像作为锚样本,将该待处理样本图像进行变换后的图像作为正样本,将其他所述待处理样本图像作为负样本,以使所述锚样本与所述正样本之间的特征距离最小化,所述锚样本与所述负样本之间的特征距离最大化为目的,训练一特征提取模型;通过所述特征提取模型分别对各所述待处理样本图像进行特征提取,获取各所述待处理样本图像对应的图像特征信息。4.根据权利要求3所述的方法,其特征在于,所述将该待处理样本图像进行变换后的图像作为正样本的步骤,包括:将该待处理样本图像进行剪裁和/或旋转变换后的图像作为正样本。5.根据权利要求1所述的方法,其特征在于,所述根据所述目标样本图像与各所述标准样本图像之间的所述图像特征信息的相似度及各所述标准样本图像的第一分类标签,确定所述目标样本图像调整后的第二分类标签的步骤,包括:根据所述目标样本图像与各所述标准样本图像之间的所述图像特征信息的相似度对所述标准样本图像进行排序;根据排序结果,确定与各所述标准样本图像之间的所述图像特征信息的相似度最接近的第一预设数量的所述标准样本图像作为候选样本图像;根据各所述候选样本图像的排序位置及各所述候选样本图像的第一分类标签确定所述目标样本图像的调整后的第二...
【专利技术属性】
技术研发人员:刘袁凯,
申请(专利权)人:广州虎牙信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。