数据筛选方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39061781 阅读:14 留言:0更新日期:2023-10-12 19:54
本申请实施例公开了一种数据筛选方法、装置、电子设备及存储介质。所述方法包括:获取待筛选图像数据集以及所述待筛选图像数据集中各图像对应的信息量和相对熵;若所述待筛选图像数据集中有图像对应的信息量满足预设信息量,则将对应的信息量满足预设信息量的图像确定为参考图像;若所述参考图像中有图像对应的相对熵满足预设相对熵,则将对应的相对熵满足预设相对熵的图像确定为目标图像。使得在选取用于对神经网络模型进行训练的图像样本的过程中,可以基于前述的信息量以及相对熵来对图像进行筛选,以便选取信息量满足预设信息量且相对熵也满足预设相对熵的图像样本作为对模型进行训练的样本,进而实现了准确的选取训练效果好的图像样本。效果好的图像样本。效果好的图像样本。

【技术实现步骤摘要】
数据筛选方法、装置、电子设备及存储介质


[0001]本申请属于人工智能
,具体涉及一种数据筛选方法、装置、电子设备及存储介质。

技术介绍

[0002]在人工智能
中,可以使用标注后的图像样本训练神经网络模型,以便可以通过训练后的神经网络模型进行图像识别。其中,所选择的图像样本会影响神经网络模型的训练效果。因此,如何准确选取训练效果好的图像样本,成为待解决的问题。

技术实现思路

[0003]鉴于上述问题,本申请提出了一种数据筛选方法、装置、电子设备以及存储介质,以实现改善上述问题。
[0004]第一方面,本申请实施例提供了一种数据筛选方法,所述方法包括:获取待筛选图像数据集以及所述待筛选图像数据集中各图像对应的信息量和相对熵,其中,所述信息量用于表征预处理后的所述图像之间的相似性;所述相对熵用于表征不同模型输出所述待筛选图像数据集中各图像对应的特征向量之间的相似性;若所述待筛选图像数据集中有图像对应的信息量满足预设信息量,则将对应的信息量满足预设信息量的图像确定为参考图像;若所述参考图像中有图像对应的相对熵满足预设相对熵,则将对应的相对熵满足预设相对熵的图像确定为目标图像。
[0005]第二方面,本申请实施例提供了一种数据筛选装置,所述装置包括:数据集获取单元,用于获取待筛选图像数据集以及所述待筛选图像数据集中各图像对应的信息量和相对熵,其中,所述信息量用于表征预处理后的所述图像之间的相似性;所述相对熵用于表征不同模型输出所述待筛选图像数据集中各图像对应的特征向量之间的相似性;参考图像获取单元,用于若所述待筛选图像数据集中有图像对应的信息量满足预设信息量,则将对应的信息量满足预设信息量的图像确定为参考图像;目标图像获取单元,用于若所述参考图像中有图像对应的相对熵满足预设相对熵,则将对应的相对熵满足预设相对熵的图像确定为目标图像。
[0006]第三方面,本申请实施例提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
[0007]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
[0008]本申请实施例提供了一种数据筛选方法、装置、电子设备及存储介质,首先获取待筛选图像数据集以及待筛选图像数据集中各图像对应的信息量和相对熵,其中,所述信息量用于表征预处理后的所述图像之间的相似性;所述相对熵用于表征不同模型输出所述待筛选图像数据集中各图像对应的特征向量之间的相似性,若待筛选图像数据集中有图像对
应的信息量满足预设信息量,则将对应的信息量满足预设信息量的图像确定为参考图像,若参考图像中有图像对应的相对熵满足预设相对熵,则将对应的相对熵满足预设相对熵的图像确定为目标图像。
[0009]从而通过上述方式使得在选取用于对神经网络模型进行训练的图像样本的过程中,可以基于前述的信息量以及相对熵来对图像进行筛选,以便选取信息量满足预设信息量且相对熵也满足预设相对熵的图像样本作为对模型进行训练的样本,进而实现了准确的选取训练效果好的图像样本。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1示出了本申请一实施例提出的一种数据筛选方法的流程图;
[0012]图2示出了本申请另一实施例提出的一种数据筛选方法的流程图;
[0013]图3示出了本申请另一实施例中步骤S210的流程图;
[0014]图4示出了本申请另一实施例中步骤S213的流程图;
[0015]图5示出了本申请另一实施例中步骤S210的流程图;
[0016]图6示出了本申请再一实施例提出的一种数据筛选方法的流程图;
[0017]图7示出了本申请又一实施例提出的一种数据筛选方法的流程图;
[0018]图8示出了本申请实施例提出的一种数据筛选装置的结构框图;
[0019]图9示出了本申请实施例提出的一种数据筛选装置的结构框图;
[0020]图10示出了本申请用于执行根据本申请实施例的数据筛选方法的电子设备的结构框图;
[0021]图11示出了本申请用于保存或者携带实现根据本申请实施例的数据筛选方法的程序代码的存储单元。
具体实施方式
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]在人工智能
中,可以使用标注后的图像样本训练神经网络模型,以便可以通过训练后的神经网络模型进行图像识别。其中,所选择的图像样本会影响神经网络模型的训练效果。因此,如何准确选取训练效果好的图像样本,成为待解决的问题。
[0024]通常,由于原始图像样本的数量很多,面对不同的模型训练任务,通常会随机挑选一部分原始图像样本给标注员进行标注。但由于是随机挑选的原始图像样本给标注员进行标注,会导致原始图像样本的质量可能会存在很大差异,有些原始图像样本的质量较差,能为模型训练提供的信息有限,会影响模型的训练效果。
[0025]因此,专利技术人提出了本申请中的数据筛选方法、装置、电子设备及存储介质。首先获取待筛选图像数据集以及待筛选图像数据集中各图像对应的信息量和相对熵,其中,所述信息量用于表征预处理后的所述图像之间的相似性;所述相对熵用于表征不同模型输出所述待筛选图像数据集中各图像对应的特征向量之间的相似性,若待筛选图像数据集中有图像对应的信息量满足预设信息量,则将对应的信息量满足预设信息量的图像确定为参考图像,若参考图像中有图像对应的相对熵满足预设相对熵,则将对应的相对熵满足预设相对熵的图像确定为目标图像。从而通过上述方式使得在选取用于对神经网络模型进行训练的图像样本的过程中,可以基于前述的信息量以及相对熵来对图像进行筛选,以便选取信息量满足预设信息量且相对熵也满足预设相对熵的图像样本作为对模型进行训练的样本,进而实现了准确的选取训练效果好的图像样本。
[0026]下面将结合附图具体描述本申请的各实施例。
[0027]请参阅图1,本申请实施例提供的一种数据筛选方法,应用于电子设备,所述方法包括:
[0028]步骤S110:获取待筛选图像数据集以及所述待筛选图像数据集中各图像对应的信息量和相对熵,其中,所述信息量用于表征预处理后的所述图像之间的相似性;所述相对熵用于表征不同模型输出所述待筛选图像数据集中各图像对应的特征向量之间的相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据筛选方法,其特征在于,所述方法包括:获取待筛选图像数据集以及所述待筛选图像数据集中各图像对应的信息量和相对熵,其中,所述信息量用于表征预处理后的所述图像之间的相似性;所述相对熵用于表征不同模型输出所述待筛选图像数据集中各图像对应的特征向量之间的相似性;若所述待筛选图像数据集中有图像对应的信息量满足预设信息量,则将对应的信息量满足预设信息量的图像确定为参考图像;若所述参考图像中有图像对应的相对熵满足预设相对熵,则将对应的相对熵满足预设相对熵的图像确定为目标图像。2.根据权利要求1所述的方法,其特征在于,获取所述待筛选图像数据集中各图像对应的信息量,包括:分别对所述图像进行第一预设次数的弱增强处理,得到所述图像对应的第一预设数量的第一图像;分别对所述图像进行第二预设次数的强增强处理,得到所述图像对应的第二预设数量的第二图像;基于所述第一预设数量的第一图像和所述第二预设数量的第二图像,确定所述图像对应的信息量。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一预设数量的第一图像和所述第二预设数量的第二图像,确定所述图像对应的信息量,包括:将所述第一预设数量的第一图像分别输入到训练后的第一特征提取模型中,得到所述第一图像对应的第一特征向量集;基于所述第一特征向量集,确定所述图像对应的第一信息量;将所述第二预设数量的第二图像分别输入到所述第一特征提取模型中,得到所述第二图像对应的第二特征向量集;基于所述第二特征向量集,确定所述图像对应的第二信息量;基于所述图像对应的所述第一信息量和所述第二信息量,确定所述图像对应的信息量。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一特征向量集,确定所述图像对应的第一信息量,包括:获取所述第一特征向量集对应的第一欧式距离集,其中,所述第一欧式距离集中包括多个第一欧式距离,所述第一欧式距离通过所述第一特征向量集中任意两个第一特征向量计算得到;基于所述多个第一欧氏距离,确定所述图像对应的第一信息量。5.根据权利要求3所述的方法,其特征在于,所述基于所述第二特征向量集,确定所述图像对应的第二信息量,包括:获取所述第二特征向量集对应的第二欧式距离集,其中,所述第二欧式距离集中包括多个第二欧式距离,所述第二欧式距离通过所述第二特征向量集中任意两个第二特征向量计算得到;基于所述多个第二欧氏距离,确定所述图像对应的第二信息量。6.根据权利要求1所述的方法,其特征在于,获取所述待筛选图像数据集中各图像对应
的相对熵,包括:将所述待筛选图像数据集中各图像分别输入到训练后的第一特征提取模型中,得到所述待筛选图像...

【专利技术属性】
技术研发人员:吕永春朱徽王洪斌周迅溢曾定衡蒋宁吴海英
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1