当前位置: 首页 > 专利查询>周书田专利>正文

一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法技术

技术编号:25950844 阅读:30 留言:0更新日期:2020-10-17 03:43
我们针对之前基于2D卷积网络与不同帧间汇聚的方法,提出了一种用于视频人脸识别的3D分解卷积与时间金字塔网络的连续帧人脸识别方法。其不需要逐帧的对人脸数据进行提取,而是将多帧输入一个3D分解卷积结构,得出一个全局的特征向量,可以有效的对帧间互补信息进行建模。与逐帧并进行汇聚的算法相比,我们的方法可以大幅的提高计算效率,并且保持了竞争力的识别精度。

【技术实现步骤摘要】
一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法
本专利技术属于视频人脸识别
,涉及一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法。
技术介绍
当前人脸识别技术的流程主要分为四个步骤:第一步:找出所有的面孔;2000年初的时候,当保罗·比奥拉(PaulViola)和迈克尔·琼斯(MichaelJones)专利技术了一种能够快速在廉价相机上运行的人脸检测方法之后,人脸检测成为了主流。然而现在,一种更加可靠的,被称为方向梯度直方图(HistogramofOrientedGradients)简称HOG的方法在2005年问世。第二步:脸部的不同姿势;面部特征点估计(facelandmarkestimation)算法的基本思路是找到68个人脸上普遍存在的特定点(称为特征点,landmarks)——包括下巴的顶部、每只眼睛的外部轮廓、每条眉毛的内部轮廓等。第三步:给脸部编码;解决方案是训练一个深度卷积神经网络让其为脸部生成128个测量值。其中,每次训练要观察三个不同的脸部图像:1.加载一张已知人的面部训练图像;2.加载同一个人的另一张照片;3.加载另外一个人的照片;通过算法查看这三个图片生成的测量值。然后,稍微调整神经网络,以确保第一张和第二张生成的测量值接近,而第二张和第三张生成的测量值略有不同。第四步:从编码中找出人的名字;找到数据库中,与测试图像的测量值最接近的那个人。可以通过训练一个简单的线性SVM分类器,从一个新的测试图像中获取测量结果,并找出最匹配的人。
技术实现思路
本专利技术中视频人脸识别的整个流程,以及各项的详细配置如下:视频人脸识别系统可以分为三个部分,即一个视频特征编码器,一个用于优化视频编码器的损失函数,以及一种将视频进行匹配与检索的查找方法。首先将视频切成连续且非重叠的视频片段,每个片段包含有T帧,我们对每个片段进行特征抽取。片段特征抽取器将片段作为输入,并且输出D维度的特征向量fc。视频总体的特征为所有视频片段的平均汇聚。在对视频间特征进行比对时,我们采用余弦相似度,并且设定阈值,当阈值大于一定值时,则认为两段视频中的人为同一人,亦或是视频中的人脸与底库当中的相匹配。对于视频特征向量xi与yi,他们的余弦相似度为。判定是否为同一人的阈值,可根据应用场景进行设定。在评价性能时,往往采用一定FPR(falsepositivesrates)下的TPR(truepositives)进行比较。对于视频片段编码器,我们可以采用2D卷积网络+特征聚合方法或者3D卷积网络直接将视频剪辑编码为特征向量fc。2D卷积网络则首先提取每帧的图像特征t∈[1,n],并且通过特征聚合方法,将其聚合为单个视频特征向量fc。之后,我们将会分别介绍本专利技术中基于2D卷积神经网络+特征聚合以及3D卷积神经网络进行视频人脸识别的方法,并提出我们的高效分解卷积,以在保持识别精度的同时,降低计算消耗。附图说明图1是本专利技术的视频人脸识别效果图;图2是本专利技术中采取的将卷积核为t×d×d的3D卷积分解为1×d×d与t×1×1的卷积示意图;图3是本专利技术中用于视频人脸识别的时间金字塔网络结构图;表1是本专利技术中不同方法在YoutubeFace(YTF)上性能的比较结果;表2是本专利技术中不同方法在计算消耗的比较结果;具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。基于帧间特征汇聚方法我们采用标准的ResNet-50网络作为特征提取模型,对一个给定的视频帧序列t∈[1,n],我们将每帧进行特征提取,得到了一个维度的特征T×D向量矩阵,其中T是视频帧的数量,而D则为每个视频帧的特征向量维度。池化汇聚我们对视频帧的特性进行池化,以获取视频层特征。池化汇聚主要包括最大池化与平均池化。平均池化可以表示为最大池化可以表示为注意力机制汇聚另外一种汇聚的方式是使用注意力机制。注意力机制旨在自适应的在帧特征之间寻找权重,以给“关键帧”更高的汇聚权重。基于注意力机制的帧间汇聚可以表示为其中为T帧的注意力权重。在卷积神经网络的最后一层,我们得到了[w,h,2048]的特征图,我们采用宽为w长为h,输入通道数为2048,输出通道为d的卷积核对特征图进行卷积。然后使用输入通道数为2048,输出通道数为1的全连接层将特征映射为注意力权重。t∈[1,T],最后我们将所有帧间的注意力权重过softmax层得到最终的注意力分数,即基于时序卷积的方法3D卷积对于视频连续帧,我们直接将其输入3D卷积神经网络,我们采用了一个3DResNet-50网络。其直接将包含有n帧的视频片段c进行卷积生成为fc。相比于正常的2d卷积,3d卷积在时间维度上多了一维度,正常的2d卷积核可以表示为[c,h,w],而3d卷积核则可表示为[c,t,h,w]。因为时间通道的加入,其可以建模时序帧间的特征信息。时序分解卷积采用3D卷积可以建模帧间信息,然而,3D卷积会引入巨大的计算量与显存消耗,这对于部署带来了巨大的挑战。近年来,在视频识别领域,对3D卷积分解进行了一定的探索,并且取到了不错的结果。如图2所示,忽略掉通道维度,一个t×d×d的3D卷积,可以分解为一个1×d×d的卷积再加上一个t×1×1的卷积,从而使得计算量缩小,并且分解后的卷积本质上为2D卷积加1D卷积,可以使用工业界更加成熟的卷积优化算子进行加速。3D分解卷积其本质是先对单帧的空间信息进行建模(2D卷积),后对帧间信息进行卷积汇聚(1D卷积)。我们将ResNet-50网络中所有的3D卷积都替换成为此分解卷积,实验证明,其实现了更快的推理速度与有竞争力的准确度。时间金字塔网络对于视频人脸识别,核心关键点即是如何对视频帧间的信息进行建模,如何高效的利用帧间的互补信息。使用3D卷积分离对连续帧进行提取,并没考虑到视频速度的变化,即一个人在视频中是缓慢的摇晃头部,还是快速的摇晃头部,这种速度的变化并没有被显示的建模到网络中。为了对多种速度的脸部运动进行建模,我们以不同的时间帧率对视频进行采样,并将不同帧率的输入以时间金字塔的方式进行汇聚。如图3所示,我们分别对本文档来自技高网
...

【技术保护点】
1.一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法,其特征在于:对视频间特征进行比对时,采用余弦相似度,并且设定阈值,当阈值大于一定值时,则认为两段视频中的人为同一人,亦或是视频中的人脸与底库当中的相匹配,对于视频特征向量xi与yi,他们的余弦相似度为:/n

【技术特征摘要】
1.一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法,其特征在于:对视频间特征进行比对时,采用余弦相似度,并且设定阈值,当阈值大于一定值时,则认为两段视频中的人为同一人,亦或是视频中的人脸与底库当中的相匹配,对于视频特征向量xi与yi,他们的余弦相似度为:





2.根据权利要求1所述的一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法,其特征在于:视频片段编码器采用2D卷积网络+特征聚合方法或者3D卷积网络直接将视频剪辑编码为特征向量fc;2D卷积网络则首先提取每帧的图像特征并且通过特征聚合方法,将其聚合为单个视频特征向量fc。


3.根据上述任一项权利要求所述的一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法,其特征在于:采用标准的ResNet-50网络作为特征提取模型,对一个给定的视频帧序列我们将每帧进行特征提取,得到了一个维度的特征T×D向量矩阵,其中T是视频帧的数量,而D则为每个视频帧的特征向量维度。


4.根据上述任一项权利要求所述的一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法,其特征在于:对视频帧的特性进行池化汇聚,以获取视频层特征,池化汇聚至少包括最大池化或平均池化,平均池化可以表示为最大池化可以表示为


5.根据权利要求1所述的一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法,其特征在于:汇聚的方式使用注意力机制汇聚,基于注意力机制的帧间汇聚可以表示为其中为T帧的注意力权重,在卷积神经网络的最后一层,我们得到了[w,h,2048]的特征图,我们采用宽为w长为h,输入通道数为2048,输出通道为d的卷积核对特征图进行卷积;然后使用输入通道数为2048,输出通道数为1的全连接层将特征映射为注意力权重最后我们将所有帧间的注意力权重过softmax层得到最终的注意力分数,即


6.根据权利要求1所述的一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法,其特征在于:对于视频连续帧,我们...

【专利技术属性】
技术研发人员:周书田
申请(专利权)人:周书田
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1