一种基于社区发现聚类的视频人脸标注方法和系统技术方案

技术编号:20993135 阅读:33 留言:0更新日期:2019-04-29 22:57
本发明专利技术提供了一种基于社区发现聚类的视频人脸标注方法和系统,用于训练数据集生成,包括:视频预处理;基于深度网络的人脸检测和关键点回归;正脸检测;人脸模糊检测;人脸特征提取;人脸特征相似度矩阵;基于社区发现聚类;人工合并。本发明专利技术的优点在于:通过社区发现聚类,自动确定聚类中心个数,然后人工对自动聚类结果进行合并,实现最大程度的自动化和尽量少的人工参与,使得高效地从视频中提取高质量人脸,构造数据集。

A Video Face Annotation Method and System Based on Community Discovery Clustering

The invention provides a video face annotation method and system based on community discovery clustering for training data set generation, including: video preprocessing; face detection based on depth network and key point regression; face detection; face blur detection; face feature extraction; face feature similarity matrix; community discovery clustering; manual merging. The advantages of the present invention lie in: automatically determining the number of clustering centers through community discovery clustering, and then merging the automatic clustering results manually, realizing maximum automation and minimal manual participation, so as to efficiently extract high-quality faces from video and construct data sets.

【技术实现步骤摘要】
一种基于社区发现聚类的视频人脸标注方法和系统
本专利技术涉及深度学习训练数据集生成、视频编目
,具体来说涉及一种用于训练数据集生成的基于社区发现聚类的视频人脸标注方法和系统。
技术介绍
目前深度学习在多个应用领域取得了较传统方法突破性的进展,如计算机视觉中的图像分类、物体检测、语义分割等;自然语言处理;推荐系统等。深度学习中使用的卷积神经网络、递归神经网络等需要在数据集上预先训练,而数据集需要进行标注。现有的人脸数据集标注方式有三种,一种是人工标注、另一种是人工辅助标注、又另一种是自动标注。人工标注虽然是目前主流的数据标注方法,且人工标注的准确性有保证,但是人工标注的人工成本和时间成本很高。自动标注一般借助搜索引擎,通过关键词搜索收集图片,用搜索关键词标注。虽然自动标注方法简单,但是收集到的数据集质量很差,数据清洗成本较高。人工辅助标注是介于人工和自动标注之间的一种标注方式。现有技术中的人工辅助标注专利如中国专利公开号CN103530652B提供一种基于人脸聚类的视频编目方法、检索方法及其系统,方法包括以下步骤:对视频文件进行镜头切分;对视频镜头进行人脸检测,得到人脸图片及相关信息;对检测出的人脸图片进行去重;对去重后的人脸图片进行人脸特征提取,将提取到的人脸特征存入人脸特征库;根据人脸特征,对人脸图片进行特征聚类;对人脸类别库中存储的各个人脸类别进行人工标注;根据人工标注后的人脸类别和类别中人脸的相关信息,自动生成人脸元数据,将所述人脸元数据增加到原始编目文件中,得到最终的视频编目文件。具有以下优点:对视频文件进行自动编目,准确高效,大大节省人力;不需要预制人脸样本库;提供基于人名和图片的视频检索功能,具有检索方便、高效的优点。然而,上述专利技术存在以下不足:1)需要指定聚类中心个数,即视频中独特的人脸数量。而这个数量除了一个一个数之外,并不能先验性的确定,因此这个值的选取并没有实际指导,对视频编目质量影响很大。2)对视频进行了镜头切分,且每个镜头只取了部分关键帧,当某些人脸没有出现在关键帧时,因此会造成人脸数量上的缺失。
技术实现思路
针对上述缺点,本专利技术的目标在于通过社区发现聚类,自动确定聚类中心个数,然后人工对自动聚类结果进行合并,实现最大程度的自动化和尽量少的人工参与,使得高效地从视频中提取高质量人脸,构造数据集。具体的,根据本专利技术的一个方面,提供了一种基于社区发现聚类的视频人脸标注方法,用于训练数据集生成,包括:视频预处理,将原始数据解码为按帧的图像,给每帧图像添加时间戳,得到视频帧图像序列;基于深度网络的人脸检测和关键点回归,得到检测出的每个人脸的五个关键点的坐标;正脸检测,以获得清晰的正脸图像;人脸模糊检测,将模糊正脸图像剔除;人脸特征提取,利用训练好的人脸识别网络,对上述清晰的正脸图像提取特征,构成人脸特征集合;计算所述人脸特征集合中两两之间的余弦相似度,得到人脸特征相似度矩阵;基于社区发现聚类,通过使用上述人脸特征相似度矩阵,贪心迭代优化模块度,得到自动聚类结果;将上述聚类结果进行合并,从而实现对视频中人脸的编目,用于构造数据集。优选的,所述原始数据为监控设备经过网络传输过来的监控视频流数据或者将前者保存在磁盘上的视频文件数据。优选的,所述五个关键点为人脸上的左眼左眼角,右眼右眼角,鼻尖,左嘴角和右嘴角。优选的,所述正脸检测包括以下步骤:基于哈尔特征的正脸检测,将基于深度网络的人脸检测得到的人脸输入训练好的分类器,去掉不是正脸的人脸及误检为人脸的其他目标;基于姿态估计的正脸检测,将基于哈尔特征的正脸检测过程判定为正脸的关键点坐标,使用姿态估计方法,估计当前正脸的姿态;利用估计出来的姿态,通过预定义的第一阈值,控制低头、仰脸、侧脸情况,得到过滤后的清晰的正脸图像。优选的,所述模糊正脸图像为拉普拉斯响应值低于第二阈值的图像。优选的,所述贪心迭代优化模块度对相似度矩阵进行预处理,去掉主对角线的值;将相似度小于第三阈值的值去掉。根据本专利技术的另一个方面,还提供了一种基于社区发现聚类的视频人脸标注系统,用于训练数据集生成,包括:视频预处理模块,用于将原始数据解码为按帧的图像,给每帧图像添加时间戳,得到视频帧图像序列;基于深度网络的人脸检测和关键点回归模块,用于得到检测出的每个人脸的五个关键点的坐标;正脸检测模块,用于获得清晰的正脸图像;人脸模糊检测模块,用于将模糊正脸图像剔除;人脸特征提取模块,利用训练好的人脸识别网络,对上述清晰的正脸图像提取特征,构成人脸特征集合;矩阵计算模块,用于计算所述人脸特征集合中两两之间的余弦相似度,得到人脸特征相似度矩阵;聚类模块,用于基于社区发现聚类,通过使用上述人脸特征相似度矩阵,贪心迭代优化模块度,得到自动聚类结果;合并模块,用于将上述聚类结果进行合并,从而实现对视频中人脸的编目,用于构造数据集。本专利技术的优点在于:通过社区发现聚类,自动确定聚类中心个数,然后人工对自动聚类结果进行合并,实现最大程度的自动化和尽量少的人工参与,使得高效地从视频中提取高质量人脸,构造数据集。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为一种用于训练数据集生成的基于社区发现聚类的视频人脸标注方法流程图;图2为一种用于训练数据集生成的基于社区发现聚类的视频人脸标注系统结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术主要目的是对视频人脸特征通过社区发现聚类,自动确定聚类中心个数,然后人工对自动聚类结果进行合并,实现最大程度的自动化和尽量少的人工参与,使得高效地从视频中提取高质量人脸,构造数据集。本专利技术提供的一种用于训练数据集生成的基于社区发现聚类的视频人脸标注方法,包括如下步骤:S1:视频预处理接收监控设备经过网络传输过来的监控视频流数据或者将前者保存在磁盘上的视频文件数据。将数据解码成一帧一帧的图像,给每帧图像添加时间戳。具体做法为,对于网络传输过来的视频流数据或者视频文件数据,解码出来的第一个有意义帧图像定义为图像1,记为Image_1,之后解码出来的帧图像序号依次累加,第t帧图像记为Image_t。预处理完成后,视频帧图像序列按照时间先后依次输入到人脸检测网络中,进行人脸检测和人脸质量检测。S2:基于深度网络的人脸检测和关键点回归利用在人脸数据库上训练好的人脸检测网络Net_1,在帧图像Image_t上检测人脸(其中t是时间戳),人脸图像记为Face_1,...,Face_Nt,其中Nt为Net_1在Image_t检测出的人脸数量。人脸检测网络Net_1回归得到检测出的每个人脸的五个关键点的坐标。五个点为人脸上的左眼左眼角,右眼右眼角,鼻尖,左嘴角和右嘴角。以检测出的第i个人脸Face_i为例,i=1,...,Nt,关键点集记为KPoint_i,由本文档来自技高网
...

【技术保护点】
1.一种基于社区发现聚类的视频人脸标注方法,用于训练数据集生成,包括:视频预处理,将原始数据解码为按帧的图像,给每帧图像添加时间戳,得到视频帧图像序列;基于深度网络的人脸检测和关键点回归,得到检测出的每个人脸的五个关键点的坐标;正脸检测,以获得清晰的正脸图像;人脸模糊检测,将模糊正脸图像剔除;人脸特征提取,利用训练好的人脸识别网络,对上述清晰的正脸图像提取特征,构成人脸特征集合;计算所述人脸特征集合中两两之间的余弦相似度,得到人脸特征相似度矩阵;基于社区发现聚类,通过使用上述人脸特征相似度矩阵,贪心迭代优化模块度,得到自动聚类结果;将上述聚类结果进行合并,从而实现对视频中人脸的编目,用于构造数据集。

【技术特征摘要】
1.一种基于社区发现聚类的视频人脸标注方法,用于训练数据集生成,包括:视频预处理,将原始数据解码为按帧的图像,给每帧图像添加时间戳,得到视频帧图像序列;基于深度网络的人脸检测和关键点回归,得到检测出的每个人脸的五个关键点的坐标;正脸检测,以获得清晰的正脸图像;人脸模糊检测,将模糊正脸图像剔除;人脸特征提取,利用训练好的人脸识别网络,对上述清晰的正脸图像提取特征,构成人脸特征集合;计算所述人脸特征集合中两两之间的余弦相似度,得到人脸特征相似度矩阵;基于社区发现聚类,通过使用上述人脸特征相似度矩阵,贪心迭代优化模块度,得到自动聚类结果;将上述聚类结果进行合并,从而实现对视频中人脸的编目,用于构造数据集。2.根据权利要求1所述的一种基于社区发现聚类的视频人脸标注方法,其特征在于,所述原始数据为监控设备经过网络传输过来的监控视频流数据或者将前者保存在磁盘上的视频文件数据。3.根据权利要求1所述的一种基于社区发现聚类的视频人脸标注方法,其特征在于,所述五个关键点为人脸上的左眼左眼角,右眼右眼角,鼻尖,左嘴角和右嘴角。4.根据权利要求1所述的一种基于社区发现聚类的视频人脸标注方法,其特征在于,所述正脸检测包括以下步骤:基于哈尔特征的正脸检测,将基于深度网络的人脸检测得到的人脸输入训练好的分类器,去掉不是正脸的人脸及误检为人脸的其他目标;基于姿态估计的正脸检测,将基于哈尔特征的正脸检测过程判定为正脸的关键点坐标,使用姿态估计方法,估计当前正脸的姿态;利用估计出来的姿态,通过预定义的第一阈值,控制低头、仰脸、侧脸情况,得到过滤后的清晰的正脸图像。5.根据权利要求1所述的一种基于社区发现聚类的视频人脸标注方法,其特征在于,所述模糊正脸图像为拉普拉斯响应值低于第二阈值的图像。6.根据权利要求1所述的一种基于社区发现聚类的视频人脸...

【专利技术属性】
技术研发人员:陈俊逸
申请(专利权)人:长沙小钴科技有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1