图像数据清理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:30968753 阅读:23 留言:0更新日期:2021-11-25 20:44
本申请公开了一种图像数据清理方法、装置、电子设备及可读存储介质。其中,方法包括基于无全连接层的预训练深度卷积网络和数据压平层构建特征提取模型。创建用于存储图像数据清理过程中满足入库条件的待处理图像的图像特征向量,且各图像特征向量具有索引值的索引库。调用特征提取模型提取待处理图像的深度特征向量,通过无监督的降维方法将其转换为压缩特征向量。通过将压缩特征向量与非空的索引库中各图像特征向量进行相似性比对,得到待处理图像的相似度检索信息;基于相似度检索信息、相似度阈值和图像距离阈值共同确定待处理图像是输入至索引库还是进行清理,从而实现高效、高质量的图像数据去重处理。高质量的图像数据去重处理。高质量的图像数据去重处理。

【技术实现步骤摘要】
图像数据清理方法、装置、电子设备及可读存储介质


[0001]本申请涉及计算机
,特别是涉及一种图像数据清理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着图像采集设备如数码相机和互联网的飞速发展,图像数据大幅增长,方便计算机视觉任务和机器学习任务收集大量的图像样本数据。不可避免的,在图像收集过程中通常会出现大量近乎相同的图像,完全相同或近似相同的图像造成图像的重复,这些重复图像不仅对丰富数据集贡献很小,还会浪费大量的存储空间,而且在训练网络模型时还极易导致过拟合,降低了网络模型的泛化性。因此,识别多场景中海量图像数据库的重复数据并删除这些重复图像就很有必要了,数据处理过程的图像去重技术作为解决上述问题的有效手段应用而生。
[0003]传统的图像去重方法基于图像处理,其采用不同的手工特征描述符如HOG,SIFT,ORB等,来提取特征向量或特征图。其中一些复杂的程序还在特征图上生成视觉词袋。查询图像和数据库中其他图像之间的特征向量或视觉词袋的相似性度量通常使用K最近邻算法和欧氏距离度量来实现。这类方法经常具有高计算复杂度的繁琐流程设计。手工设计的特征描述符在某些复杂场景中无法生成足够辨识力的特征表示。视觉词袋虽利用了局部特征,却丢失了图像几何结构的信息。因此,传统方法通常对变化多端和复杂的视觉场景鲁棒性不强。为了解决传统图像去重方法的弊端,相关技术基于深度学习进行图像去重。基于深度学习的方法主要采用预训练网络的深度卷积层作为特征提取器,可以配备全局池化层或全连接层来生成由局部和全局特征图组成的辨识力强深度图像表征。
[0004]然而,深度表征通常会导致高维特征向量,这无疑会增加相似性度量过程的计算需求。所以合理的特征压缩且尽可能保留有价值的信息一直是该方法的重要挑战。而对于带有类标签的数据集,通过监督深度度量学习来训练深度排名网络,以计算成对相似度。这种方法需要较长的监督训练阶段和人工标注可用的类别标签,不适合广泛的大量无标记数据集场景。此外,如图1所示,不论是基于图像处理的常规方法,还是基于深度学习的方法均是采取先建库再去重的框架设计和单阈值分析的去重策略,这种方法存在去重耗时长,建库去重不同步,调参不灵活,易导致去重效果欠佳或过度等缺点。
[0005]鉴于此,如何高效、高质量的实现对图像数据的去重处理,是所属领域技术人员需要解决的技术问题。

技术实现思路

[0006]本申请提供了一种图像数据清理方法、装置、电子设备及可读存储介质,实现高效、高质量的图像数据去重处理。
[0007]为解决上述技术问题,本专利技术实施例提供以下技术方案:
[0008]本专利技术实施例一方面提供了一种图像数据清理方法,包括:
[0009]预先基于无全连接层的预训练深度卷积网络和数据压平层构建特征提取模型,并创建索引库;所述索引库用于存储图像数据清理过程中满足入库条件的待处理图像的图像特征向量,且各图像特征向量具有索引值;
[0010]调用所述特征提取模型提取待处理图像的深度特征向量,并通过无监督的降维方法将所述深度特征向量转换为压缩特征向量;
[0011]通过将所述压缩特征向量与非空的索引库中各图像特征向量进行相似性比对,得到所述待处理图像的相似度检索信息;
[0012]基于所述相似度检索信息和清理条件确定所述待处理图像是输入至所述索引库还是进行清理;所述清理条件为根据所述相似度检索信息与相似度阈值、图像距离阈值之间的数值关系所确定。
[0013]可选的,所述相似度检索信息包括最高相似度和所述最高相似度对应的图像索引值;所述基于所述相似度检索信息和清理条件确定所述待处理图像是输入至所述索引库还是进行清理的过程,包括:
[0014]若所述最高相似度小于最小相似度阈值,则将所述压缩特征向量添加至所述索引库,并为所述压缩特征向量设置相应的索引值;若所述最高相似度大于最大相似度阈值,则清理所述待处理图像;
[0015]若所述最高相似度大于等于所述最小相似度阈值、且小于等于所述最大相似度阈值,则计算所述待处理图像和所述图像索引值对应的候选相似图像之间的图像距离值;
[0016]若所述图像距离值大于所述图像距离阈值,则将所述压缩特征向量添加至所述索引库,并为所述压缩特征向量设置相应的索引值;若所述图像距离值不大于所述图像距离阈值,清理所述待处理图像。
[0017]可选的,所述待处理图像为图像采集设备被固定时所捕获,所述计算所述待处理图像和所述图像索引值对应的候选相似图像之间的图像距离值的过程,包括:
[0018]计算所述待处理图像和所述候选相似图像之间的差异图;
[0019]将所述差异图转换为灰度图,并对所述灰度图进行平滑处理,得到平滑图;
[0020]对所述平滑图进行图像二值化处理,得到二值图;
[0021]根据所述二值图的总像素点和非零像素点数计算得到所述图像距离值。
[0022]可选的,所述待处理图像为图像采集设备在移动过程中所捕获,所述计算所述待处理图像和所述图像索引值对应的候选相似图像之间的图像距离值的过程,包括:
[0023]分别计算所述待处理图像和所述候选相似图像的全局特征图;
[0024]计算所述待处理图像和所述候选相似图像之间的差异特征图;
[0025]对所述差异特征图进行平滑处理,得到平滑特征图;
[0026]对所述平滑特征图进行图像二值化处理,得到二值特征图;
[0027]根据所述二值特征图中非零项的数量占比得到所述图像距离值。
[0028]可选的,所述通过将所述压缩特征向量与非空的索引库中各图像特征向量进行相似性比对,得到所述待处理图像的相似度检索信息的过程,包括:
[0029]判断所述索引库是否为空;
[0030]若所述索引库为空,则将所述压缩特征向量添加至所述索引库,并为所述压缩特征向量设置相应的索引值;
[0031]若所述索引库不为空,对所述索引库中的每个图像特征向量,计算所述压缩特征向量与当前图像特征向量之间的相似度;
[0032]从各相似度中选择数值最大的相似度,作为所述待处理图像与所述索引库的最高相似度;
[0033]根据所述最高相似度与所述最高相似度对应的图像特征向量的索引值生成所述相似度检索信息。
[0034]可选的,所述待处理图像为图像数据库的输出图像;所述基于所述相似度检索信息和清理条件确定所述待处理图像是输入至所述索引库还是进行清理之后,还包括:
[0035]若所述图像数据库停止输出图像,根据所述索引库包含的所有图像特征向量对应的索引值生成非重复图像列表;
[0036]基于所述非重复图像列表对所述图像数据库进行图像清理,得到不包含重复图像的目标图像库。
[0037]可选的,所述得到不包含重复图像的目标图像库之后,还包括:
[0038]将所述目标图像库作为训练样本数据集;
[0039]利用所述目标图像库执行机器学习模型的训练任务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像数据清理方法,其特征在于,包括:预先基于无全连接层的预训练深度卷积网络和数据压平层构建特征提取模型,并创建索引库;所述索引库用于存储图像数据清理过程中满足入库条件的待处理图像的图像特征向量,且各图像特征向量具有索引值;调用所述特征提取模型提取待处理图像的深度特征向量,并通过无监督的降维方法将所述深度特征向量转换为压缩特征向量;通过将所述压缩特征向量与非空的索引库中各图像特征向量进行相似性比对,得到所述待处理图像的相似度检索信息;基于所述相似度检索信息和清理条件确定所述待处理图像是输入至所述索引库还是进行清理;所述清理条件为根据所述相似度检索信息与相似度阈值、图像距离阈值之间的数值关系所确定。2.根据权利要求1所述的图像数据清理方法,其特征在于,所述相似度检索信息包括最高相似度和所述最高相似度对应的图像索引值;所述基于所述相似度检索信息和清理条件确定所述待处理图像是输入至所述索引库还是进行清理的过程,包括:若所述最高相似度小于最小相似度阈值,则将所述压缩特征向量添加至所述索引库,并为所述压缩特征向量设置相应的索引值;若所述最高相似度大于最大相似度阈值,则清理所述待处理图像;若所述最高相似度大于等于所述最小相似度阈值、且小于等于所述最大相似度阈值,则计算所述待处理图像和所述图像索引值对应的候选相似图像之间的图像距离值;若所述图像距离值大于所述图像距离阈值,则将所述压缩特征向量添加至所述索引库,并为所述压缩特征向量设置相应的索引值;若所述图像距离值小于等于所述图像距离阈值,清理所述待处理图像。3.根据权利要求2所述的图像数据清理方法,其特征在于,所述待处理图像为图像采集设备被固定时所捕获,所述计算所述待处理图像和所述图像索引值对应的候选相似图像之间的图像距离值的过程,包括:计算所述待处理图像和所述候选相似图像之间的差异图;将所述差异图转换为灰度图,并对所述灰度图进行平滑处理,得到平滑图;对所述平滑图进行图像二值化处理,得到二值图;根据所述二值图的总像素点和非零像素点数计算得到所述图像距离值。4.根据权利要求2所述的图像数据清理方法,其特征在于,所述待处理图像为图像采集设备在移动过程中所捕获,所述计算所述待处理图像和所述图像索引值对应的候选相似图像之间的图像距离值的过程,包括:分别计算所述待处理图像和所述候选相似图像的全局特征图;计算所述待处理图像和所述候选相似图像之间的差异特征图;对所述差异特征图进行平滑处理,得到平滑特征图;对所述平滑特征图进行图像二值化处理,得到二值特征图;根据所述二值特征图中非零项的数量占比得到所述图像距...

【专利技术属性】
技术研发人员:高依铨邓富城罗韵陈振杰
申请(专利权)人:深圳极视角科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1