基于深度度量学习的图片数据迭代聚类分析方法技术

技术编号：24093799 阅读：105 留言：0更新日期：2020-05-09 09:18

本发明专利技术公开了一种基于深度度量学习的图片数据迭代聚类分析方法，包括如下步骤：获取多组带有图片分类标签的样本图片数据集；将各所述样本图片数据集作为一深度度量学习网络的输入，训练形成一图片嵌入特征提取器；将待分析的图片数据集输入到所述图片嵌入特征提取器中，输出所述图片数据集中的每一张图片对应的图片嵌入特征向量feat；根据每张所述图片对应的所述图片嵌入特征向量feat，并利用渐进式聚类算法，对所述图片数据集进行迭代聚类分析，最终输出对所述图片数据集的聚类分析结果，本发明专利技术利用聚类分析方法，实现了对待分析的图片数据集中的图片数据的自动标注，降低了标注成本、提高了数据标注的质量。

Iterative clustering analysis of image data based on depth metric learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度度量学习的图片数据迭代聚类分析方法
本专利技术涉及图片数据集分析
，具体涉及一种基于深度度量学习的图片数据迭代聚类分析方法。
技术介绍
随着深度学习技术的快速发展，计算机视觉识别
尤其是图像分类
对于图像识别分类的准确率得到了大幅提升。然而现如今若希望通过改变深度学习网络结构来进一步大幅提升图片识别分类的准确率变得越来越困难。扩充图像识别分类的有效数据集成为目前快速有效提升图像识别分类准确率的一种重要方法。但目前扩充数据集主要面临两个方面的问题：一是如何快速的标注样本数据；二是如何评价标注数据的准确度和一致性。为了保证数据标注的质量，目前大多应用传统的人工标注方法，但人工标注方法标注成本高，标注周期长，而且标注质量还难以保证，所以需要研究一种无监督的方法对数据进行分析、标注。
技术实现思路
本专利技术的目的在于提供一种基于深度度量学习的图片数据迭代聚类分析方法，以解决上述技术问题。为达此目的，本专利技术采用以下技术方案：提供一种基于深度度量学习的图片数据迭代聚类分析方法，包括如下步骤：步骤S1，获取多组带有图片分类标签的样本图片数据集；步骤S2，将各所述样本图片数据集作为一深度度量学习网络的输入，训练形成一图片嵌入特征提取器；步骤S3，将待分析的图片数据集输入到所述图片嵌入特征提取器中，输出所述图片数据集中的每一张图片对应的图片嵌入特征向量feat；步骤S4，根据每张所述图片对应的所述图片嵌入特征向量feat，并利用渐进式聚...

【技术保护点】
1.一种基于深度度量学习的图片数据迭代聚类分析方法，其特征在于，包括如下步骤：/n步骤S1，获取多组带有图片分类标签的样本图片数据集；/n步骤S2，将各所述样本图片数据集作为一深度度量学习网络的输入，训练形成一图片嵌入特征提取器；/n步骤S3，将待分析的图片数据集输入到所述图片嵌入特征提取器中，输出所述图片数据集中的每一张图片对应的图片嵌入特征向量feat；/n步骤S4，根据每张所述图片对应的所述图片嵌入特征向量feat，并利用渐进式聚类算法，对所述图片数据集进行迭代聚类分析，最终输出对所述图片数据集的聚类分析结果。/n

【技术特征摘要】
1.一种基于深度度量学习的图片数据迭代聚类分析方法，其特征在于，包括如下步骤：
步骤S1，获取多组带有图片分类标签的样本图片数据集；
步骤S2，将各所述样本图片数据集作为一深度度量学习网络的输入，训练形成一图片嵌入特征提取器；
步骤S3，将待分析的图片数据集输入到所述图片嵌入特征提取器中，输出所述图片数据集中的每一张图片对应的图片嵌入特征向量feat；
步骤S4，根据每张所述图片对应的所述图片嵌入特征向量feat，并利用渐进式聚类算法，对所述图片数据集进行迭代聚类分析，最终输出对所述图片数据集的聚类分析结果。

2.如权利要求1所述的图片数据迭代聚类分析方法，其特征在于，所述步骤S4中的所述渐进式聚类算法为K-means聚类分析算法或层次聚类法。

3.如权利要求1所述的图片数据迭代聚类分析方法，其特征在于，所述步骤S4中，对所述图片数据集进行迭代聚类分析的过程具体包括如下步骤：
步骤S41，设定每次迭代聚类的聚类簇数目的上限m、聚类簇对应的类平均轮廓系数阈值t、每一个所述聚类簇的簇内图片数据量的上限num_max以及下限num_min和迭代计算次数itermax；
步骤S42，根据所述图片数据集中的每张所述图片对应的所述图片嵌入特征向量feat，并利用所述渐进式聚类算法，获取所述图片数据集的聚类簇；
步骤S43，计算每一个所述聚类簇中的各样本点对应的样本轮廓系数S，并根据各样本点对应的所述样本轮廓系数S计算每一个所述聚类簇对应的簇内平均轮廓系数mS；
步骤S44，基于各所述聚类簇对应的所述簇内平均轮廓系数mS、预设的所述类平均轮廓系数阈值t和所述簇内图片数据量对所述步骤S42获取的各所述聚类簇进行筛选；
步骤S45，将所述步骤S44筛选得到的各所述聚类簇中的簇内图片对应的所述图片分类标签重置为-1；
步骤S46，计算经所述步骤S45标签重置后的各所述聚类簇中的所述簇内图片的数量n；
步骤S47，根据当前的迭代聚类次数和所述步骤S46计算得到的各所述聚类簇中的所述簇内图片的数量n，调整迭代聚类分析策略，直至完成对所述图片数据集中的所有所述聚类簇中的各所述簇内图片的标签重置过程，并得到一对所述图片数据集的标签重置结果；
步骤S48，根据所述标签重置结果，对所述步骤S43计算的每个所述聚类簇对应的所述簇内平均轮廓系数mS进行更新；
步骤S49，判断更新后的所述簇内平均轮廓系数mS是否...

【专利技术属性】
技术研发人员：秦永强，张发恩，纪双西，李素莹，
申请(专利权)人：创新奇智青岛科技有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人