当前位置: 首页 > 专利查询>济南大学专利>正文

一种基于图像集合的快速多模态视频人脸识别方法技术

技术编号:31757574 阅读:23 留言:0更新日期:2022-01-05 16:40
本发明专利技术公开了一种基于图像集合的快速多模态视频人脸识别方法,所述方法的实现包括:输入多模态人脸视频序列视频数据,对所述多模态人脸视频序列视频数据进行预处理操作,以获得图像集数据;对获得的所述图像集数据进行建模表示,生成每个图像集的矩阵协方差;将所述矩阵协方差做为特征图像,输入到双向二维分数阶协方差相关分析中,优化求解后得到最优的投影方向,得到每个视频序列的特征图像,将所述特征图像投影到低维共享子空间,并进行信息融合;信息融合后,使用最近邻分类器进行分类。通过采用本发明专利技术的技术方案,能够有效减少视频识别时间,提高视频识别精度。提高视频识别精度。提高视频识别精度。

【技术实现步骤摘要】
一种基于图像集合的快速多模态视频人脸识别方法


[0001]本专利技术涉及视频人脸识别
,具体提供一种基于图像集合的快速多模态视频人脸识别方法。

技术介绍

[0002]视觉是人类接收信息的主要方式,在人类感知外界的过程中起着十分重要的作用。随着社会的发展,“电子眼”逐渐代替人眼来观察记录世间万物,导致每天产生海量的图像、视频数据。网络直播、短视频等平台的普及则进一步加速了数据规模的增长。随着人工智能技术的发展,目前基于单幅图像的人脸识别方法已经较为成熟,但基于视频的人脸识别方法仍有待进一步研究,近年来受到了研究人员的广泛关注。与单幅图像相比,关于某人的视频人脸序列可以提供更加丰富的描述信息,例如不同的表情信息、不同的姿势信息、不同的光照信息等。然而如何充分利用、挖掘这些视频中含有的有用信息,则给研究者带来了很大的挑战,主要包括:如何针对视频内容进行紧致、有效的建模,以及如何针对该模型设计合理的度量准则。
[0003]作为一种新兴的模式识别方法,基于集合的视频人脸识别,即图像集分类近年来引起了研究者越来越多的关注,并取得了一些的研究成果。图像集分类的关键在于两点:集合的建模表示以及集合间距离的度量,而距离度量通常依赖于建模表示方法,因此从集合建模角度出发,图像集分类方法可以分为两类:即参数表示法和非参数表示法,其中:
[0004]参数表示法使用参数分布函数表示每个图像集,然后使用K

L散度来度量两个分布函数之间的相似性。但参数表示法具有明显的局限性,即如果训练图像集与测试图像集之间的统计相关性较弱,其性能会受到较大的影响。
[0005]非参数表示法则是使用一些更灵活的方式表示图像集,例如使用凸包(Convex Hull)、仿射包(Affine Hull)、子空间(Subspace)、图模型(Graph)、矩阵协方差(Covariance Matrix)、聚合特征向量等等。在这其中,矩阵协方差建模因其简洁有效性,被应用到了多种方法中。但目前存在的基于矩阵协方差建模的方法都是基于单模态特征构建的,最终的分类结果有待进一步提升,而且其无法有效处理多模态图像集分类问题。其次,基于矩阵协方差的方法在建模之后,通常会使用传统特征提取算法如LDA,PLS等进行度量学习,而这些算法计算复杂度通常较高,尤其是当样本维度比较大时。再者,建模方法中使用的矩阵协方差都是基于训练数据估算得到的,而这种估计有可能会偏离数据的真实分布。

技术实现思路

[0006]本专利技术的技术任务是针对上述存在的问题,提供一种基于图像集合的快速多模态视频人脸识别方法,其能够提高图像集分类的效率和准确率。
[0007]为实现上述目的,本专利技术一方面提供了如下技术方案:
[0008]一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述方法的实
现包括步骤如下:
[0009]步骤1,输入多模态人脸视频序列数据,所述人脸视频序列是指经过镜头分割之后的视频片段,所述视频片段内部只包括特定人员;
[0010]步骤2,对步骤1中的所述多模态人脸视频序列数据进行预处理操作,以获得图像集数据;
[0011]步骤3,对步骤2获得的所述图像集数据进行建模表示,生成每个图像集的矩阵协方差;
[0012]步骤4,将步骤3获得的所述矩阵协方差作为特征图像,输入到双向二维分数阶协方差相关分析中,优化求解后得到最优的投影方向,进而得到每个视频序列的特征图像;
[0013]步骤5,将步骤4获得所述特征图像投影到低维共享子空间,并进行信息融合;
[0014]步骤6,信息融合后,使用最近邻分类器进行分类。
[0015]所述步骤1包括以下步骤:
[0016]步骤11,输入多模态人脸视频序列:和其中M是视频序列的数量。
[0017]所述步骤2包括以下步骤:
[0018]步骤21,使用Viola

Jones人脸检测器或MTCNN人脸检测器对视频中的每帧图像进行人脸检测,得到只包含人脸区域的图像,并对人脸图像进行对齐,改变大小等操作使得所有人脸图像具有相同的大小;
[0019]步骤22,首先将步骤21获得的人脸图像转为灰度图像,然后对其进行直方图均衡化处理,以减轻光照变化产生的影响,最后每幅图像都作为一个矩阵,从而将一个人脸视频序列变为一个图像集合,即和分别表示第i个图像集的两种不同的模态特征,其中表示第i个图像集X
i
中的第j幅图像,m
i
表示第i个图像集X
i
中一共含有m
i
幅人脸图像。
[0020]所述步骤3包括以下步骤:
[0021]步骤31,使用矩阵协方差对每个图像集进行建模表示,其中:图像集X
i
的矩阵协方差估算为:
[0022][0023]这是一种无偏估计,其中表示图像集合X
i
中所有图像的均值;
[0024]图像集Y
i
的矩阵协方差估算为:
[0025][0026]步骤32,对每个矩阵协方差添加扰动确保矩阵是非奇异的;使用相同的矩阵协方差估算方式,将上面的两组图像集数据表示为:和即每个目标都有两个不同的模态特征进行描述
[0027]所述步骤4包括以下步骤:
[0028]步骤41,将步骤32获得的矩阵协方差作为视频序列的特征图像,但该特征图像位
于黎曼流形(具体来说是对称正定流形)上,而不是欧氏空间中,这意味着我们无法直接对其进行处理。为解决上述问题,本专利技术首先使用log映射函数将矩阵协方差从黎曼流形映射到其对应的切空间(属于欧氏空间):
[0029][0030]其中是对进行的特征值分解;
[0031]最终,所有输入变为:和
[0032]步骤42,以步骤41获得的图像矩阵为处理对象进行双向二维典型相关分析,通过寻找两对最优的投影方向l
x
,l
y
和r
x
,r
y
来最大化投影后变量和之间的相关性;
[0033]步骤43,以双向二维典型相关分析为基础构建双向二维分数阶嵌入典型相关分析;
[0034]通过步骤42可以看到,双向二维典型相关分析在构造时需要根据训练数据计算模内协方差矩阵和模间协方差矩阵。研究指出,基于训练数据对矩阵协方差进行估算容易受到噪声的影响,并有可能会偏离数据的真实分布,进而影响分类效果。为解决该问题,本专利技术通过引入分数阶重建的方法,即使用分数阶特征值或奇异值对矩阵协方差进行重建,得到分数阶协方差矩阵;
[0035]步骤44,双向二维分数阶嵌入典型相关分析的目标函数描述为:
[0036][0037]同样基于迭代优化的思想,通过特征值分解并取前d个最大特征值对应的特征向量,最终得到最优的投影方向:L
x
,L
y
,R
x
,R
y

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述方法的实现包括步骤如下:步骤1,输入多模态人脸视频序列视频数据,所述人脸视频序列是指经过镜头分割之后的视频片段,所述视频片段内部只包括特定人员;步骤2,对步骤1中的所述多模态人脸视频序列视频数据进行预处理操作,以获得图像集数据;步骤3,对步骤2获得的所述图像集数据进行建模表示,生成每个图像集的矩阵协方差;步骤4,将步骤3获得的所述矩阵协方差做为特征图像,输入到双向二维分数阶协方差相关分析中,优化求解后得到最优的投影方向,得到每个视频序列的特征图像;步骤5,将步骤4获得所述特征图像投影到低维共享子空间,并进行信息融合;步骤6,信息融合后,使用最近邻分类器进行分类。2.根据权利要求1所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤1包括以下步骤:步骤11,输入多模态人脸视频序列:和其中M是视频序列的数量。3.根据权利要求2所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤2包括以下步骤:步骤21,使用Viola

Jones人脸检测器或MTCNN人脸检测器对视频中的每帧图像进行人脸检测,得到只包含人脸区域的图像,并对人脸图像进行操作使得所有人脸图像具有相同的大小;步骤22,首先将步骤21获得的人脸图像转为灰度图像,然后对其进行直方图均衡化处理,以减轻光照变化产生的影响,最后每幅图像都做为一个矩阵,从而将一个人脸视频序列变为一个图像集合,即和分别表示第i个图像集的两种不同的模态特征,其中表示第i个图像集X
i
中的第j幅图像,m
i
表示第i个图像集X
i
中一共含有m
i
幅人脸图像。4.根据权利要求3所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤3包括以下步骤:步骤31,使用矩阵协方差对每个图像集进行建模表示,其中:图像集X
i
的矩阵协方差估算为:其中表示图像集合X
i
中所有图像的均值;图像集Y
i
的矩阵协方差估算为:步骤32,对每个矩阵协方差添加扰动确保矩阵是非奇异的;使用相同的矩阵协方差估算方式,将上面的两组图像集数据表示为:和
即每个目标都有两个不同的模态特征进行描述5.根据权利要求4所述的一种基于图像集合的快速多模态视频人脸识别方法,其特征在于,所述步骤4包括以下步骤:步骤41,将步骤32获得的矩阵协方差做为视频序列的特征图像,使用log映射函数将矩阵协方差从黎曼流形映射到其对应的切空间:其中是对进行的特征值分解;最终,所有输入变为:和步骤42,以步骤41获得的图像矩阵为处理对象进行双向二维典型相关分析,通过寻找两对最优的投影方向l
x
,l
y<...

【专利技术属性】
技术研发人员:高希占牛四杰董吉文
申请(专利权)人:济南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1