图像数据集有效性评估方法、装置、设备及存储介质制造方法及图纸

技术编号:34240354 阅读:68 留言:0更新日期:2022-07-24 09:07
本发明专利技术提供了一种图像数据集有效性评估方法、装置、设备及存储介质,属于人工智能技术领域。其中方法包括:获取图像数据集;采用图像数据集中的样本数据训练自编码模型,得到训练后的编码模型;按照样本数据的标签对图像数据集进行分类,得到至少一类样本数据;采用训练后的编码模型处理目标类样本数据中每个样本数据,得到目标类样本数据中每个样本数据的特征向量;基于目标类样本数据中所有样本数据的特征向量,获取目标类样本数据中的无效样本数据;统计至少一类样本数据中的无效样本数据,得到图像数据集的有效性度量值。本发明专利技术提供了无效样本数据的筛选方式和图像数据集有效性的评估方式,实现了准确评估图像数据集有效性。性。性。

Image data set effectiveness evaluation method, device, equipment and storage medium

【技术实现步骤摘要】
图像数据集有效性评估方法、装置、设备及存储介质


[0001]本专利技术属于人工智能
,尤其涉及一种图像数据集有效性评估方法、装置、设备及存储介质。

技术介绍

[0002]数据集(Dataset)是一种由数据所组成的集合,又可以称为资料集、数据集合或者资料集合等。随着人工智能(Artificial Intelligence,AI)的发展,数据集的使用越来越频繁。
[0003]对于人工智能应用领域而言,数据集的质量是各种智能算法训练的基础。针对数据集的质量测评是人工智能领域中数据质量测评的核心工作。由于人工智能领域通常使用数据集来训练模型,因此数据集的质量直接影响着模型训练的结果。在训练过程中,模型需要提取数据集的属性特征,并基于属性特征进行学习,从而对数据集的属性特征提取贡献较大的样本数据能够给模型的学习提供更多参考,有效提升模型训练的准确性。
[0004]本专利技术中,定义对数据集的属性特征提取没有贡献的样本数据为无效样本数据,反之即为有效样本数据,并定义数据集有效性与数据集中有效样本数据的占比相关。相关技术还未提出如何筛选图像数据集中的无效样本数据以实现图像数据集有效性的评估。

技术实现思路

[0005]本专利技术针对现有技术中的不足,提供一种图像数据集有效性评估方法、装置、设备及存储介质。
[0006]第一方面,本专利技术提供一种图像数据集有效性评估方法,包括:获取图像数据集,所述图像数据集包括多个样本数据以及样本数据的标签;采用所述图像数据集中的样本数据训练自编码模型,得到训练后的编码模型;其中,所述自编码模型包括编码模型和解码模型;按照样本数据的标签对所述图像数据集进行分类,得到至少一类样本数据;针对所述至少一类样本数据中的目标类样本数据,采用所述训练后的编码模型处理所述目标类样本数据中每个样本数据,得到所述目标类样本数据中每个样本数据的特征向量;基于所述目标类样本数据中所有样本数据的特征向量,获取所述目标类样本数据中的无效样本数据;其中,所述无效样本数据是指对所属类别样本数据的属性特征提取没有贡献的样本数据;统计所述至少一类样本数据中的无效样本数据,得到所述图像数据集的有效性度量值,所述有效性度量值用于指示所述图像数据集有效性。
[0007]可选地,所述基于所述目标类样本数据中所有样本数据的特征向量,获取所述目标类样本数据中的无效样本数据,包括:基于所述目标类样本数据中所有样本数据的特征向量,确定所述目标类样本数据
的特征中心点;计算所述目标类样本数据中每个样本数据的特征向量与所述特征中心点之间的距离;基于所述目标类样本数据中所有样本数据的特征向量与所述特征中心点之间的距离,从所述目标类样本数据中筛选所述无效样本数据。
[0008]可选地,所述基于所述目标类样本数据中所有样本数据的特征向量与所述特征中心点之间的距离,从所述目标类样本数据中筛选所述无效样本数据,包括:对所述目标类样本数据中所有样本数据的特征向量与所述特征中心点之间的距离进行排序,得到所有距离排序;以特征中心点为参考,将所有距离排序中w
u
位点处的距离确定为距离阈值h
u
;计算所述所有距离排序中小于所述距离阈值h
u
的最大距离与所述距离阈值h
u
之间的差值,得到相邻距离差值;以所述相邻距离差值的目标倍数为步长,增大所述距离阈值h
u
,得到距离阈值h
u+1
;计算所述距离阈值h
u+1
内的距离在所有距离中的占比w
u+1
;在所述占比w
u+1
与w
u
之间的差值小于或等于目标差值的情况下,将距离阈值h
u+1
确定为目标距离阈值;将所有距离排序中大于所述目标距离阈值的距离对应的样本数据确定为无效样本数据;在所述占比w
u+1
与w
u
之间的差值大于目标差值的情况下,令u=u+1,并从以特征中心点为参考,将所有距离排序中w
u
位点处的距离确定为距离阈值h
u
的步骤开始再次执行。
[0009]可选地,所述基于所述目标类样本数据中所有样本数据的特征向量与所述特征中心点之间的距离,从所述目标类样本数据中筛选所述无效样本数据,包括:获取所述目标类样本数据中样本数据的总数;在所述目标类样本数据中样本数据的总数大于或等于样本数量阈值的情况下,将所有距离中大于第一距离阈值的距离对应的样本数据确定为所述无效样本数据;在所述目标类样本数据中样本数据的总数小于样本数量阈值的情况下,将所有距离中大于第二距离阈值的距离对应的样本数据确定为所述无效样本数据;其中,所述第一距离阈值小于所述第二距离阈值。
[0010]可选地,所述统计所述至少一类样本数据中的无效样本数据,得到所述图像数据集的有效性度量值,包括:对所述至少一类样本数据中的无效样本数据的数量进行求和处理,得到无效样本数据的总数;基于所述无效样本数据的总数和所述图像数据集中样本数据的总数,计算所述有效性度量值。
[0011]可选地,所述统计所述至少一类样本数据中的无效样本数据,得到所述图像数据集的有效性度量值,包括:获取第一无效总数和第二无效总数,所述第一无效总数是指样本数据的总数大于或等于样本数量阈值的样本数据类别中无效样本数据的总数,所述第二无效总数是指样本数据的总数小于样本数量阈值的样本数据类别中无效样本数据的总数;
获取第一置信度和第二置信度,所述第一置信度对应于所述第一无效总数,所述第二置信度对应于所述第二无效总数;其中,所述第一置信度大于所述第二置信度,且所述第一置信度与所述第二置信度之和等于1;基于所述第一无效总数、所述第二无效总数、所述第一置信度、所述第二置信度以及所述图像数据集中样本数据的总数,计算所述有效性度量值。
[0012]可选地,所述统计所述至少一类样本数据中的无效样本数据,得到所述图像数据集的有效性度量值,包括:获取所述至少一类样本数据中与所述图像数据集的应用任务相匹配的样本数据类别,得到任务匹配样本数据类别;获取目标无效总数和其余无效总数,所述目标无效总数是指所述任务匹配样本数据类别中无效样本数据的总数,所述其余无效总数是指所述图像数据集中除所述任务匹配样本数据类别之外的样本数据的总数;基于所述目标无效总数、所述其余无效总数和所述图像数据集中样本数据的总数,计算所述有效性度量值。
[0013]第二方面,本专利技术提供一种图像数据集有效性评估装置,包括:第一获取模块,用于获取图像数据集,所述图像数据集包括多个样本数据以及样本数据的标签;训练模块,用于采用所述图像数据集中的样本数据训练自编码模型,得到训练后的编码模型;其中,所述自编码模型包括编码模型和解码模型;分类模块,用于按照样本数据的标签对所述图像数据集进行分类,得到至少一类样本数据;处理模块,用于针对所述至少一类样本数据中的目标类样本数据,采用所述训练后的编码模型处理所述目标类样本数据中每个样本数据,得到所述目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像数据集有效性评估方法,其特征在于,包括:获取图像数据集,所述图像数据集包括多个样本数据以及样本数据的标签;采用所述图像数据集中的样本数据训练自编码模型,得到训练后的编码模型;其中,所述自编码模型包括编码模型和解码模型;按照样本数据的标签对所述图像数据集进行分类,得到至少一类样本数据;针对所述至少一类样本数据中的目标类样本数据,采用所述训练后的编码模型处理所述目标类样本数据中每个样本数据,得到所述目标类样本数据中每个样本数据的特征向量;基于所述目标类样本数据中所有样本数据的特征向量,获取所述目标类样本数据中的无效样本数据;其中,所述无效样本数据是指对所属类别样本数据的属性特征提取没有贡献的样本数据;统计所述至少一类样本数据中的无效样本数据,得到所述图像数据集的有效性度量值,所述有效性度量值用于指示所述图像数据集有效性。2.根据权利要求1所述的图像数据集有效性评估方法,其特征在于,所述基于所述目标类样本数据中所有样本数据的特征向量,获取所述目标类样本数据中的无效样本数据,包括:基于所述目标类样本数据中所有样本数据的特征向量,确定所述目标类样本数据的特征中心点;计算所述目标类样本数据中每个样本数据的特征向量与所述特征中心点之间的距离;基于所述目标类样本数据中所有样本数据的特征向量与所述特征中心点之间的距离,从所述目标类样本数据中筛选所述无效样本数据。3.根据权利要求2所述的图像数据集有效性评估方法,其特征在于,所述基于所述目标类样本数据中所有样本数据的特征向量与所述特征中心点之间的距离,从所述目标类样本数据中筛选所述无效样本数据,包括:对所述目标类样本数据中所有样本数据的特征向量与所述特征中心点之间的距离进行排序,得到所有距离排序;以特征中心点为参考,将所有距离排序中w
u
位点处的距离确定为距离阈值h
u
;计算所述所有距离排序中小于所述距离阈值h
u
的最大距离与所述距离阈值h
u
之间的差值,得到相邻距离差值;以所述相邻距离差值的目标倍数为步长,增大所述距离阈值h
u
,得到距离阈值h
u+1
;计算所述距离阈值h
u+1
内的距离在所有距离中的占比w
u+1
;在所述占比w
u+1
与w
u
之间的差值小于或等于目标差值的情况下,将距离阈值h
u+1
确定为目标距离阈值;将所有距离排序中大于所述目标距离阈值的距离对应的样本数据确定为无效样本数据;在所述占比w
u+1
与w
u
之间的差值大于目标差值的情况下,令u=u+1,并从以特征中心点为参考,将所有距离排序中w
u
位点处的距离确定为距离阈值h
u
的步骤开始再次执行。4.根据权利要求2所述的图像数据集有效性评估方法,其特征在于,所述基于所述目标类样本数据中所有样本数据的特征向量与所述特征中心点之间的距离,从所述目标类样本数据中筛选所述无效样本数据,包括:
获取所述目标类样本数据中样本数据的总数;在所述目标类样本数据中样本数据的总数大于或等于样本数量阈值的情况下,将所有距离中大于第一距离阈值的距离对应的样本数据确定为所述...

【专利技术属性】
技术研发人员:孟令中薛云志高卉戴非凡龚优迪
申请(专利权)人:中科南京软件技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1