一种人脸检测及特征预测跟踪显示的方法技术

技术编号：39593191 阅读：17 留言：0更新日期：2023-12-03 19:48

本发明专利技术提供了一种人脸检测及特征预测跟踪显示的方法，应用于计算机视觉技术领域，该方法包括：接收视频输入数据，并按帧分解视频输入数据，得到多帧输入图像；对多帧输入图像依次进行人脸检测，并对检测到的人脸进行对应位置记录；对多帧输入图像中检测到的人脸进行特征预测，并按照特征类别进行计算合并得到多个标签；将多个标签依次添加到各输入图像中记录的对应位置；将添加标签后的多个图像合成视频，并输出合成视频

全部详细技术资料下载

【技术实现步骤摘要】
一种人脸检测及特征预测跟踪显示的方法

[0001]本专利技术涉及计算机视觉领域，特别涉及一种人脸检测及特征预测跟踪显示的方法
。

技术介绍

[0002]近年来，视频数据采集的研究主要集中在目标跟踪
、
虚拟现实和分辨率增强等方面
。
跟踪目标的选择十分多样，如从多视图视频中捕捉人类表演；跟踪现实生活中老人的跌倒，帮助进行护理等
。
[0003]目前已有许多基于不同结构的人脸检测方法，常见的检测方法有
Harr Cascade
与
Dlib。
通过上述检测方法进行人脸检测后，可将检测得到的人脸图像送入人脸特征预测模型，进行表情
、
性别
、
年龄
、
人种和是否佩戴口罩等特征的提取
。
[0004]但是目前已公开的文献或专利中，如上所述大多只进行了人脸检测或人脸特征识别，并没有给出如何实现端到端提取多人同时出现的视频中的人脸，并跟踪显示对应的特征如表情
、
性别
、
年龄和人种等，再实时表示或导出为添加特征的视频的技术方案
。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一
。
为此，本专利技术的一个目的在于提供一种人脸检测及特征预测跟踪显示的方法，该方法能够实现端到端提取多人同时出现的视频中的人脸，并跟踪显示对应的特征，以及能实时表示或导出为添加特征的视频r/>。
[0006]第一方面，为解决上述技术问题，本专利技术提供了一种人脸检测及特征预测跟踪显示的方法，该方法包括：
[0007]接收视频输入数据，并按帧分解所述视频输入数据，得到多帧输入图像；
[0008]对所述多帧输入图像依次进行人脸检测，并对检测到的人脸进行对应位置记录；
[0009]对所述多帧输入图像中检测到的人脸进行特征预测，并按照特征类别进行计算合并得到多个标签；
[0010]将所述多个标签依次添加到各输入图像中记录的所述对应位置；
[0011]将添加标签后的多个图像合成视频，并输出所述合成视频
。
[0012]进一步的，所述对所述多帧输入图像依次进行人脸检测，并对检测到的人脸进行对应位置记录的步骤，可以包括：
[0013]根据视频分辨率及预设比例计算得到人脸允许移动阈值；
[0014]计算当前帧输入图像中人脸位置与前一帧输入图像中人脸位置的差值，并在所述差值小于所述人脸允许移动阈值时，确定对应的两张人脸为同一目标，并对属于同一目标的人脸进行对应位置记录
。
[0015]进一步的，所述多个标签至少可以包括：表情
、
年龄
、
人种和性别
。
[0016]进一步的，对所述多帧输入图像中检测到的人脸进行特征预测，并按照特征类别
进行计算合并得到多个标签的步骤，可以包括：将检测到人脸后的所述多帧输入图像依次输入至聚类网络模型
、
多头注意力网络模型和特征合并网络模型进行处理，以计算合并得到所述多个标签
。
[0017]进一步的，通过所述聚类网络模型对所述多帧输入图像进行处理的步骤，可以包括：
[0018]获取所述多帧输入图像的预测结果，并随机生成与所述预测结果数量相同的中心点；
[0019]计算每一类预测结果中的所有样本与对应中心点的
L2
范数误差，并求和得到聚类损失；
[0020]根据所述聚类损失进行反向传播，以调整所述中心点的位置；
[0021]返回计算所述聚类损失的步骤，直至迭代次数达到第一预设次数，或者所述聚类损失小于第一预设阈值时，输出第一聚类特征
。
[0022]进一步的，通过所述多头注意力网络模型进行处理的步骤，可以包括：
[0023]接收所述聚类网络模型输出的所述第一聚类特征，并随机生成
Key、Query
和
Value
参数矩阵；
[0024]将
Key、Query
参数矩阵分别与所述第一聚类特征相乘得到
Key
向量和
Query
向量，并将所述
Key
向量和所述
Query
向量相乘得到相似度，以确定表示注意力权重的权重系数；
[0025]对所述相似度进行
Softmax
归一化，得到所有权重系数和为1的概率分布；
[0026]将所述
Value
参数矩阵与所述第一聚类特征相乘得到
Value
向量，并根据所有的所述权重系数对所述
Value
向量进行加权求和，得到注意力分数；
[0027]训练更新
Key、Query
和
Value
参数矩阵，并返回计算相似度的步骤，直至迭代次数达到第二预设次数，或者所述注意力分数达到第二预设阈值时，输出第二聚类特征
。
[0028]进一步的，通过所述特征合并网络模型进行处理的步骤，可以包括：
[0029]接收所述多头注意力网络模型输出的所述第二聚类特征；
[0030]根据接收的所述第二聚类特征，计算各注意头之间的方差，并求和计算分散损失；
[0031]根据所述分散损失进行反向传播，以更新注意头参数；
[0032]返回计算所述分散损失的步骤，直至迭代次数达到第三预设次数，或者所述分散损失小于第三预设阈值时，将输出特征输入至分类
/
回归卷积网络进行特征运算；
[0033]将特征运算结果输入至
Softmax
进行结果预测，以计算合并得到所述多个标签
。
[0034]进一步的，所述方法还包括对所述聚类网络模型
、
所述多头注意力网络模型和所述特征合并网络模型形成的分散注意力网络模型进行预训练，其中预训练输入的数据集包括：
RAF
‑
DB
数据集
、Megaa ge_asian
数据集和
FACE_DATA_CSV
数据集，其中，所述
RAF
‑
DB
数据集用于表情识别训练，所述
Megaage_asian
数据集用于年龄识别训练，所述
FACE_DATA_CSV
数据集用于人种和性别识别训练
。
[0035]进一步的，所述方法还可以包括：对所述多帧输入图像中检测到的人脸图像进行旋转
、
平移
、
翻转
、
缩放和切片的随机变换处理
。
[0036]进一步的，所述方法还可以包括：采用快照集成设置学习率的方法优化所述分散注意力网络模型
。
[0037]第二方面本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种人脸检测及特征预测跟踪显示的方法，其特征在于，所述方法包括：接收视频输入数据，并按帧分解所述视频输入数据，得到多帧输入图像；对所述多帧输入图像依次进行人脸检测，并对检测到的人脸进行对应位置记录；对所述多帧输入图像中检测到的人脸进行特征预测，并按照特征类别进行计算合并得到多个标签；将所述多个标签依次添加到各输入图像中记录的所述对应位置；将添加标签后的多个图像合成视频，并输出所述合成视频
。2.
如权利要求1所述的人脸检测及特征预测跟踪显示的方法，其特征在于，所述对所述多帧输入图像依次进行人脸检测，并对检测到的人脸进行对应位置记录的步骤，包括：根据视频分辨率及预设比例计算得到人脸允许移动阈值；计算当前帧输入图像中人脸位置与前一帧输入图像中人脸位置的差值，并在所述差值小于所述人脸允许移动阈值时，确定对应的两张人脸为同一目标，并对属于同一目标的人脸进行对应位置记录
。3.
如权利要求1所述的人脸检测及特征预测跟踪显示的方法，其特征在于，所述多个标签至少包括：表情
、
年龄
、
人种和性别
。4.
如权利要求3所述的人脸检测及特征预测跟踪显示的方法，其特征在于，对所述多帧输入图像中检测到的人脸进行特征预测，并按照特征类别进行计算合并得到多个标签的步骤，包括：将检测到人脸后的所述多帧输入图像依次输入至聚类网络模型
、
多头注意力网络模型和特征合并网络模型进行处理，以计算合并得到所述多个标签
。5.
如权利要求4所述的人脸检测及特征预测跟踪显示的方法，其特征在于，通过所述聚类网络模型对所述多帧输入图像进行处理的步骤，包括：获取所述多帧输入图像的预测结果，并随机生成与所述预测结果数量相同的中心点；计算每一类预测结果中的所有样本与对应中心点的
L2
范数误差，并求和得到聚类损失；根据所述聚类损失进行反向传播，以调整所述中心点的位置；返回计算所述聚类损失的步骤，直至迭代次数达到第一预设次数，或者所述聚类损失小于第一预设阈值时，输出第一聚类特征
。6.
如权利要求5所述的人脸检测及特征预测跟踪显示的方法，其特征在于，通过所述多头注意力网络模型进行处理的步骤，包括：接收所述聚类网络模型输出的所述第一聚类特征，并随机生成
Key、Query
和
Value
参数矩阵；将
Key、Query
参数矩阵分别与所述第一聚类特征相乘得到
Key
向量和
Query
向量，并将所述
Key
向量和所述
Query

【专利技术属性】
技术研发人员：丁浩源，刘学彦，尹东，刘文庭，董鹏宇，
申请(专利权)人：上海富瀚微电子股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人