一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法技术

技术编号：25950844 阅读：30 留言：0更新日期：2020-10-17 03:43

我们针对之前基于2D卷积网络与不同帧间汇聚的方法，提出了一种用于视频人脸识别的3D分解卷积与时间金字塔网络的连续帧人脸识别方法。其不需要逐帧的对人脸数据进行提取，而是将多帧输入一个3D分解卷积结构，得出一个全局的特征向量，可以有效的对帧间互补信息进行建模。与逐帧并进行汇聚的算法相比，我们的方法可以大幅的提高计算效率，并且保持了竞争力的识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法
本专利技术属于视频人脸识别
，涉及一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法。
技术介绍
当前人脸识别技术的流程主要分为四个步骤：第一步：找出所有的面孔；2000年初的时候，当保罗·比奥拉(PaulViola)和迈克尔·琼斯(MichaelJones)专利技术了一种能够快速在廉价相机上运行的人脸检测方法之后，人脸检测成为了主流。然而现在，一种更加可靠的，被称为方向梯度直方图(HistogramofOrientedGradients)简称HOG的方法在2005年问世。第二步：脸部的不同姿势；面部特征点估计(facelandmarkestimation)算法的基本思路是找到68个人脸上普遍存在的特定点(称为特征点，landmarks)——包括下巴的顶部、每只眼睛的外部轮廓、每条眉毛的内部轮廓等。第三步：给脸部编码；解决方案是训练一个深度卷积神经网络让其为脸部生成128个测量值。其中，每次训练要观察三个不同的脸部图像：1.加载一张已知人的面部训练图像；2.加载同一个人的另一张照片；3.加载另外一个人的照片；通过算法查看这三个图片生成的测量值。然后，稍微调整神经网络，以确保第一张和第二张生成的测量值接近，而第二张和第三张生成的测量值略有不同。第四步：从编码中找出人的名字；找到数据库中，与测试图像的测量值最接近的那个人。可以通过训练一个...

【技术保护点】
1.一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法，其特征在于：对视频间特征进行比对时，采用余弦相似度，并且设定阈值，当阈值大于一定值时，则认为两段视频中的人为同一人，亦或是视频中的人脸与底库当中的相匹配，对于视频特征向量xi与yi，他们的余弦相似度为：/n

【技术特征摘要】
1.一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法，其特征在于：对视频间特征进行比对时，采用余弦相似度，并且设定阈值，当阈值大于一定值时，则认为两段视频中的人为同一人，亦或是视频中的人脸与底库当中的相匹配，对于视频特征向量xi与yi，他们的余弦相似度为：

2.根据权利要求1所述的一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法，其特征在于：视频片段编码器采用2D卷积网络+特征聚合方法或者3D卷积网络直接将视频剪辑编码为特征向量fc；2D卷积网络则首先提取每帧的图像特征并且通过特征聚合方法，将其聚合为单个视频特征向量fc。

3.根据上述任一项权利要求所述的一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法，其特征在于：采用标准的ResNet-50网络作为特征提取模型，对一个给定的视频帧序列我们将每帧进行特征提取，得到了一个维度的特征T×D向量矩阵，其中T是视频帧的数量，而D则为每个视频帧的特征向量维度。

4.根据上述任一项权利要求所述的一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法，其特征在于：对视频帧的特性进行池化汇聚，以获取视频层特征，池化汇聚至少包括最大池化或平均池化，平均池化可以表示为最大池化可以表示为

5.根据权利要求1所述的一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法，其特征在于：汇聚的方式使用注意力机制汇聚，基于注意力机制的帧间汇聚可以表示为其中为T帧的注意力权重，在卷积神经网络的最后一层，我们得到了[w,h,2048]的特征图，我们采用宽为w长为h，输入通道数为2048，输出通道为d的卷积核对特征图进行卷积；然后使用输入通道数为2048，输出通道数为1的全连接层将特征映射为注意力权重最后我们将所有帧间的注意力权重过softmax层得到最终的注意力分数，即

6.根据权利要求1所述的一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法，其特征在于：对于视频连续帧，我们...

【专利技术属性】
技术研发人员：周书田，
申请(专利权)人：周书田，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人