基于深度度量学习的图片数据迭代聚类分析方法技术

技术编号:24093799 阅读:105 留言:0更新日期:2020-05-09 09:18
本发明专利技术公开了一种基于深度度量学习的图片数据迭代聚类分析方法,包括如下步骤:获取多组带有图片分类标签的样本图片数据集;将各所述样本图片数据集作为一深度度量学习网络的输入,训练形成一图片嵌入特征提取器;将待分析的图片数据集输入到所述图片嵌入特征提取器中,输出所述图片数据集中的每一张图片对应的图片嵌入特征向量feat;根据每张所述图片对应的所述图片嵌入特征向量feat,并利用渐进式聚类算法,对所述图片数据集进行迭代聚类分析,最终输出对所述图片数据集的聚类分析结果,本发明专利技术利用聚类分析方法,实现了对待分析的图片数据集中的图片数据的自动标注,降低了标注成本、提高了数据标注的质量。

Iterative clustering analysis of image data based on depth metric learning

【技术实现步骤摘要】
基于深度度量学习的图片数据迭代聚类分析方法
本专利技术涉及图片数据集分析
,具体涉及一种基于深度度量学习的图片数据迭代聚类分析方法。
技术介绍
随着深度学习技术的快速发展,计算机视觉识别
尤其是图像分类
对于图像识别分类的准确率得到了大幅提升。然而现如今若希望通过改变深度学习网络结构来进一步大幅提升图片识别分类的准确率变得越来越困难。扩充图像识别分类的有效数据集成为目前快速有效提升图像识别分类准确率的一种重要方法。但目前扩充数据集主要面临两个方面的问题:一是如何快速的标注样本数据;二是如何评价标注数据的准确度和一致性。为了保证数据标注的质量,目前大多应用传统的人工标注方法,但人工标注方法标注成本高,标注周期长,而且标注质量还难以保证,所以需要研究一种无监督的方法对数据进行分析、标注。
技术实现思路
本专利技术的目的在于提供一种基于深度度量学习的图片数据迭代聚类分析方法,以解决上述技术问题。为达此目的,本专利技术采用以下技术方案:提供一种基于深度度量学习的图片数据迭代聚类分析方法,包括如下步骤:步骤S1,获取多组带有图片分类标签的样本图片数据集;步骤S2,将各所述样本图片数据集作为一深度度量学习网络的输入,训练形成一图片嵌入特征提取器;步骤S3,将待分析的图片数据集输入到所述图片嵌入特征提取器中,输出所述图片数据集中的每一张图片对应的图片嵌入特征向量feat;步骤S4,根据每张所述图片对应的所述图片嵌入特征向量feat,并利用渐进式聚类算法,对所述图片数据集进行迭代聚类分析,最终输出对所述图片数据集的聚类分析结果。作为本专利技术的一种优选方案,所述步骤S4中的所述渐进式聚类算法为K-means聚类分析算法或层次聚类法。作为本专利技术的一种优选方案,所述步骤S4中,对所述图片数据集进行迭代聚类分析的过程具体包括如下步骤:步骤S41,设定每次迭代聚类的聚类簇数目的上限m、聚类簇对应的类平均轮廓系数阈值t、每一个所述聚类簇的簇内图片数据量的上限num_max以及下限num_min和迭代计算次数itermax;步骤S42,根据所述图片数据集中的每张所述图片对应的所述图片嵌入特征向量feat,并利用所述渐进式聚类算法,获取所述图片数据集的聚类簇;步骤S43,计算每一个所述聚类簇中的各样本点对应的样本轮廓系数S,并根据各样本点对应的所述样本轮廓系数S计算每一个所述聚类簇对应的簇内平均轮廓系数mS;步骤S44,基于各所述聚类簇对应的所述簇内平均轮廓系数mS、预设的所述类平均轮廓系数阈值t和所述簇内图片数据量对所述步骤S42获取的各所述聚类簇进行筛选;步骤S45,将所述步骤S44筛选得到的各所述聚类簇中的簇内图片对应的所述图片分类标签重置为-1;步骤S46,计算经所述步骤S45标签重置后的各所述聚类簇中的所述簇内图片的数量n;步骤S47,根据当前的迭代聚类次数和所述步骤S46计算得到的各所述聚类簇中的所述簇内图片的数量n,调整迭代聚类分析策略,直至完成对所述图片数据集中的所有所述聚类簇中的各所述簇内图片的标签重置过程,并得到一对所述图片数据集的标签重置结果;步骤S48,根据所述标签重置结果,对所述步骤S43计算的每个所述聚类簇对应的所述簇内平均轮廓系数mS进行更新;步骤S49,判断更新后的所述簇内平均轮廓系数mS是否大于一预设阈值,若是,则将所述簇内平均轮廓系数mS对应的所述聚类簇确定为有效聚类簇;若否,则将所述簇内平均轮廓系数mS对应的所述聚类簇确定为无效聚类簇;步骤S50,将所述步骤S49得到的判断结果作为所述聚类分析结果输出。作为本专利技术的一种优选方案,所述步骤S49中的所述预设阈值为0.01。作为本专利技术的一种优选方案,所述步骤S44中,筛选所述聚类簇的方法具体为:当所述聚类簇对应的所述簇内平均轮廓系数mS小于预设的所述类平均轮廓系数阈值t,并且所述聚类簇内的所述簇内图片数据量大于预设的所述簇内图片数据量的上限num_max或小于预设的所述簇内图片数据量的下限num_min时,将所述聚类簇作为被筛选对象筛选出来。作为本专利技术的一种优选方案,所述步骤S47中,调整所述迭代聚类分析策略的具体方法过程包括如下步骤:步骤S471,判断当前的所述迭代聚类次数是否大于或等于1且小于预设的所述迭代计算次数itermax,若是,则进入步骤S472;若否,则终止迭代聚类分析过程;步骤S472,判断当前的所述迭代聚类次数是否等于1,且当前迭代聚类分析计算的所述聚类簇中的所述簇内图片的数量n是否等于所述图片数据集中的所述图片的总数量,若是,则终止迭代聚类分析过程,并提示用户调整预设参数;若否,则进入步骤S473;步骤S473,判断当前迭代聚类分析计算的所述聚类簇中的所述簇内图片的数量n是否小于或等于上一次迭代聚类分析计算的同一个所述聚类簇中的所述簇内图片的数量,若是,则进入步骤S474;若否,则终止迭代聚类分析过程;步骤S474,判断当前迭代聚类分析计算的所述聚类簇中的所述簇内图片的数量n是否等于上一次迭代聚类分析计算的同一个所述聚类簇中的所述簇内图片的数量,若是,则提示所述用户减小每次迭代聚类的所述聚类簇数目的上限m,并返回所述步骤S42重新进行迭代聚类分析;若否,则进入步骤S475;步骤S475,判断当前迭代聚类分析计算的所述聚类簇中的所述簇内图片的数量n是否小于上一次迭代聚类分析计算的同一个所述聚类簇中的所述簇内图片的数量,若是,则返回所述步骤S43重新进行迭代聚类分析;若否,则终止迭代聚类分析过程。本专利技术利用聚类分析方法,实现了对待分析的图片数据集中的图片数据的自动标注,降低了标注成本、提高了数据标注的质量。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例所述的基于深度度量学习的图片数据迭代聚类分析方法的步骤图;图2是本专利技术一实施例所述的图片迭代聚类分析方法中的所述步骤S4的分步骤图;图3是本专利技术一实施例所述的图片迭代聚类分析方法中调整所述迭代聚类分析策略的方法步骤图。具体实施方式下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本专利技术的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。本专利技术实施例的附图中相同或相似的标号对应相同或相似的部件;在本专利技术的描述本文档来自技高网...

【技术保护点】
1.一种基于深度度量学习的图片数据迭代聚类分析方法,其特征在于,包括如下步骤:/n步骤S1,获取多组带有图片分类标签的样本图片数据集;/n步骤S2,将各所述样本图片数据集作为一深度度量学习网络的输入,训练形成一图片嵌入特征提取器;/n步骤S3,将待分析的图片数据集输入到所述图片嵌入特征提取器中,输出所述图片数据集中的每一张图片对应的图片嵌入特征向量feat;/n步骤S4,根据每张所述图片对应的所述图片嵌入特征向量feat,并利用渐进式聚类算法,对所述图片数据集进行迭代聚类分析,最终输出对所述图片数据集的聚类分析结果。/n

【技术特征摘要】
1.一种基于深度度量学习的图片数据迭代聚类分析方法,其特征在于,包括如下步骤:
步骤S1,获取多组带有图片分类标签的样本图片数据集;
步骤S2,将各所述样本图片数据集作为一深度度量学习网络的输入,训练形成一图片嵌入特征提取器;
步骤S3,将待分析的图片数据集输入到所述图片嵌入特征提取器中,输出所述图片数据集中的每一张图片对应的图片嵌入特征向量feat;
步骤S4,根据每张所述图片对应的所述图片嵌入特征向量feat,并利用渐进式聚类算法,对所述图片数据集进行迭代聚类分析,最终输出对所述图片数据集的聚类分析结果。


2.如权利要求1所述的图片数据迭代聚类分析方法,其特征在于,所述步骤S4中的所述渐进式聚类算法为K-means聚类分析算法或层次聚类法。


3.如权利要求1所述的图片数据迭代聚类分析方法,其特征在于,所述步骤S4中,对所述图片数据集进行迭代聚类分析的过程具体包括如下步骤:
步骤S41,设定每次迭代聚类的聚类簇数目的上限m、聚类簇对应的类平均轮廓系数阈值t、每一个所述聚类簇的簇内图片数据量的上限num_max以及下限num_min和迭代计算次数itermax;
步骤S42,根据所述图片数据集中的每张所述图片对应的所述图片嵌入特征向量feat,并利用所述渐进式聚类算法,获取所述图片数据集的聚类簇;
步骤S43,计算每一个所述聚类簇中的各样本点对应的样本轮廓系数S,并根据各样本点对应的所述样本轮廓系数S计算每一个所述聚类簇对应的簇内平均轮廓系数mS;
步骤S44,基于各所述聚类簇对应的所述簇内平均轮廓系数mS、预设的所述类平均轮廓系数阈值t和所述簇内图片数据量对所述步骤S42获取的各所述聚类簇进行筛选;
步骤S45,将所述步骤S44筛选得到的各所述聚类簇中的簇内图片对应的所述图片分类标签重置为-1;
步骤S46,计算经所述步骤S45标签重置后的各所述聚类簇中的所述簇内图片的数量n;
步骤S47,根据当前的迭代聚类次数和所述步骤S46计算得到的各所述聚类簇中的所述簇内图片的数量n,调整迭代聚类分析策略,直至完成对所述图片数据集中的所有所述聚类簇中的各所述簇内图片的标签重置过程,并得到一对所述图片数据集的标签重置结果;
步骤S48,根据所述标签重置结果,对所述步骤S43计算的每个所述聚类簇对应的所述簇内平均轮廓系数mS进行更新;
步骤S49,判断更新后的所述簇内平均轮廓系数mS是否...

【专利技术属性】
技术研发人员:秦永强张发恩纪双西李素莹
申请(专利权)人:创新奇智青岛科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1