一种基于关联图的离线人脸聚类方法技术

技术编号:27307663 阅读:16 留言:0更新日期:2021-02-10 09:24
本发明专利技术公开了一种基于关联图的离线人脸聚类方法,包括:获取待聚类人脸图片;利用已训练好的卷积神经网络模型对待聚类人脸图片提取人脸特征;采用KNN算法对人脸特征构建K邻近相邻节点集合;自适应计算K邻近相邻节点集合的聚类阈值;基于相邻节点构建各节点关联图并进行迭代类别聚合;基于投票机制进行多标签清洗和节点重聚类。本发明专利技术通过提出的动态K邻近相邻节点集合构建以及分类标签的动态更新技术可以在大幅提升计算效率的同时将计算资源的使用降到最低。本发明专利技术可在高度并行化基础上,实现60分钟内完成针对百万量级的人脸图像的聚类,并且无遗漏地赋予每个人脸图像唯一类别的标签。别的标签。别的标签。

【技术实现步骤摘要】
一种基于关联图的离线人脸聚类方法


[0001]本专利技术涉及计算机视觉、图像处理领域,特别是一种基于关联图的离线人脸聚类方法。

技术介绍

[0002]随着城市信息化的不断推进,海量的图像被存储到数据库中。但是对于已存储图像信息的处理是目前具有极大挑战的难题。其中数据自动标签化是解决这一难题的关键技术,数据的自动标签化技术可以使计算机代替人力自动对数据进行归纳整理并赋予其应有的数据信息标签。自动标签化方法中聚类算法为其核心算法,目前聚类算法常见的应用领域有人脸识别、车辆检索、行人重识别等。目前公共安全领域通常会使用聚类算法为不同的目标构建档案库,如基于人脸、行人图像的一人一档,基于车辆信息的一车一档等等。
[0003]目前常用的聚类算法如K-means(K均值)聚类,谱聚类,层次聚类等方法,对未标记的人脸图像进行分组。但是,对于大规模数据聚类,上述方法存在着严重的缺陷,如K均值聚类算法需要指定聚类中心个数,而在现实世界获取的数据是无法精确预测中心个数的。而且对于超大规模数据的处理上,上述算法需要庞大的计算资源和海量的存储空间。

技术实现思路

[0004]本专利技术的目的是要解决目前技术中无法准确、高效、自动化对大规模数据聚类、标签化方法的问题,提供一种基于关联图的离线人脸聚类方法。
[0005]为达到上述目的,本专利技术是按照以下技术方案实施的:
[0006]一种基于关联图的离线人脸聚类方法,包括如下步骤:
[0007]S1、获取待聚类人脸图片;
[0008]S2、利用已训练好的卷积神经网络模型对待聚类人脸图片提取人脸特征;
[0009]S3、采用KNN算法对人脸特征构建K邻近相邻节点集合;
[0010]S4、自适应计算K邻近相邻节点集合的聚类阈值;
[0011]S5、基于相邻节点构建各节点关联图并进行迭代类别聚合;
[0012]S6、基于投票机制进行多标签清洗和节点重聚类。
[0013]进一步地,所述S2具体包括:
[0014]S21、截取待聚类人脸图片中的人脸图像;
[0015]S22、对人脸进行人脸关键点检测,并进行人脸矫正;
[0016]S23、将矫正后的人脸图像输入到已训练好的卷积神经网络模型,输出多维的人脸特征向量。
[0017]进一步地,所述S3具体包括:
[0018]S31、将每一幅人脸图像由卷积神经网络模型输出的人脸特征视作一个节点,计算当前样本节点与其他节点的人脸特征相似度;
[0019]S32、将计算的人脸特征相似度进行排序,并按预设相似度阈值选取当前节点的相
邻节点,然后构建K邻近相邻节点集合。
[0020]进一步地,所述S4具体包括:
[0021]S41、根据K邻近节点集合的数据分布,计算该数据集下每个类别的平均预计节点个数size
avg-count
作为后续类别聚合中节点上限数量,然后增加一定的余量cmax
size
=α
·
size
avg-count

[0022]S42、首先确定阈值分布中心的位置,作为自适应阈值的基准参考,先对阈值进行量化,然后计算量化阈值统计直方图,并以频次最高的阈值为中心,以r为半径,计算出整体的基准阈值标准;
[0023]S43、以预计节点个数计算topk=cmax
size
范围内的所有节点相似度均值作为关联图分割阈值;
[0024]S44、将相邻节点集合的基准阈值和关联图分割阈值加权融合得到最终聚类阈值,最终的自适应阈值为T=α
·
T
max

·
T
topk

[0025]进一步地,所述S5具体包括:
[0026]S51、基于预设相似度阈值,初次遍历所有节点及其相邻节点构建关联图,并将处于同一关联图的节点赋予同一类别标签;
[0027]S52、将初次聚类后为赋予标签的剩余节点,以聚合分割阈值为起点,按预设阈值步长进行基于关联图不断更新每个节点的类别标签,从而实现节点的分类,进而得到初始的聚类结果。
[0028]进一步地,所述S6具体包括:
[0029]S61、对上述步骤中产生的多标签节点进行标签清洗,首先计算该节点所属类别间的两两重合度后进行融合,如果类别融合后该节点类别标签数置1,则该节点置为正常分类节点;否者,将其类别标签清空;
[0030]S62、将聚类迭代过程中形成的丢弃节点与被S61中清理标签的节点进行合并构建孤立节点集合;
[0031]S63、清理孤立节点标签,将其作为无类别标签节点;
[0032]S64、获取已有分类的类别标签映射表;
[0033]S65、获取无标签节点的相邻节点,通过节点类别标签对原节点进行标签重定义:若相邻节点均在无标签节点集合中,则将原节点及其相邻节点作为新的类别加入已有聚类结果中;若相邻节点中存在有标签节点,则通过数量投票确定原节点的归属;
[0034]S66、根据新标签,对节点进行重归类;
[0035]S67、更新无类别标签节点,进行下一次迭代。
[0036]与现有技术相比,本专利技术具有以下有益效果:
[0037]1、本专利技术针对已积累的海量数据,提供了一种自动、高效的聚类方案,可在短时间内(小时级)对百万甚至千万级数据进行准确聚类并标签化;
[0038]2、本专利技术采用K邻近相邻集合的动态构建方法能更好地适应不同的数据分布,能较好地解决数据样本数量不均衡问题;
[0039]3、本专利技术基于数据集分布特点的自适应阈值计算方法,可以使聚类算法在不同场景下可获得不同的聚类参数,大幅提升算法的泛化性,同时减少了人工参与程度,大幅提升方案的易用性;
[0040]4、本专利技术基于关联图的类别迭代聚合既能让不同类别尽可能分开,又可以使类内节点尽可能完备。并且基于状态转换的节点标签更替方案,可以大幅提升算法的迭代性能,以及降低对系统硬件的资源占用;
[0041]5、本专利技术的多标签清洗以及节点重聚类算法,能够保证最终聚类结果中每个样本具有唯一类别,并且不会出现样本遗漏。
附图说明
[0042]图1为本专利技术的方法在人脸识别系统中的应用。
[0043]图2为本专利技术的方法的基本流程。
[0044]图3为本专利技术的K邻近相邻节点集合构建的过程图。
[0045]图4为本专利技术的自适应聚类阈值计算图表。
[0046]图5为本专利技术的迭代聚合流程示意图。
[0047]图6为本专利技术的迭代聚类的过程图。
具体实施方式
[0048]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步的详细说明。此处所描述的具体实施例仅用于解释本专利技术,并不用于限定专利技术。
[0049]如图1、图2所示,本实施例提供了一种基于关联图的离线人脸聚类方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关联图的离线人脸聚类方法,其特征在于,包括如下步骤:S1、获取待聚类人脸图片;S2、利用已训练好的卷积神经网络模型对待聚类人脸图片提取人脸特征;S3、采用KNN算法对人脸特征构建K邻近相邻节点集合;S4、自适应计算K邻近相邻节点集合的聚类阈值;S5、基于相邻节点构建各节点关联图并进行迭代类别聚合;S6、基于投票机制进行多标签清洗和节点重聚类。2.根据权利要求1所述的基于关联图的离线人脸聚类方法,其特征在于,所述S2具体包括:S21、截取待聚类人脸图片中的人脸图像;S22、对人脸进行人脸关键点检测,并进行人脸矫正;S23、将矫正后的人脸图像输入到已训练好的卷积神经网络模型,输出多维的人脸特征向量。3.根据权利要求2所述的基于关联图的离线人脸聚类方法,其特征在于,所述S3具体包括:S31、将每一幅人脸图像由卷积神经网络模型输出的人脸特征视作一个节点,计算当前样本节点与其他节点的人脸特征相似度;S32、将计算的人脸特征相似度进行排序,并按预设相似度阈值选取当前节点的相邻节点,然后构建K邻近相邻节点集合。4.根据权利要求1所述的基于关联图的离线人脸聚类方法,其特征在于,所述S4具体包括:S41、根据K邻近节点集合的数据分布,计算该数据集下每个类别的平均预计节点个数size
avg-count
作为后续类别聚合中节点上限数量,然后增加一定的余量cmax
size
=α
·
size
avg-count
;S42、首先确定阈值分布中心的位置,作为自适应阈值的基准参考,先对阈值进行量化,然后计算量化阈值统计直方图,并以频次最高的阈值为中心,以r为半径,计算出整体的基准阈值标准;S...

【专利技术属性】
技术研发人员:张振斌陈杰
申请(专利权)人:博云视觉北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1