当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于特征融合的人像关键点检测方法及系统技术方案

技术编号:34428313 阅读:9 留言:0更新日期:2022-08-06 16:02
本发明专利技术涉及一种基于特征融合的人像关键点检测方法,该方法包括:S1:将人像图片送入人脸检测网络进行人脸检测并裁剪,将训练数据集中的坐标信息转化为热力图信息;S2:将人像图片送入基于Transformer和Convolution特征融合的回归网络对其进行训练,回归网络为并行结构,通过Convolution捕捉人像图片的低级语义特征,通过Transformer捕捉人像图片中的高级语义特征,将得到的特征图进行跳跃连接,共同编码包含坐标信息的热力图;S3:基于Convolution和Transformer特征融合的回归网络将N个关键点的N个热力图联合在同一个通道,生成具有边界信息的热力图,输出N+1个通道的热力图;S4:将输出的热力图取前N个热力图进行解码,得到精确的N个关键点的坐标信息。该方法及系统有利于提高检测精度和运行速度。及系统有利于提高检测精度和运行速度。及系统有利于提高检测精度和运行速度。

【技术实现步骤摘要】
一种基于特征融合的人像关键点检测方法及系统


[0001]本专利技术涉及本专利技术属于计算机视觉
,具体涉及一种基于特征融合的人像关键点检测方法及系统。

技术介绍

[0002]近年来,随着Convolution网络以及深度学习在计算机视觉领域的蓬勃发展,关于人脸图像的计算机视觉任务也得到了实际应用。其中,基于深度学习的人像关键点检测技术是当前图像检测领域的研究热门之一,人脸关键点检测在虚拟现实,识别表情,人脸重建,人脸追踪,人像美颜等方面发展趋势明显。
[0003]而Transformer网络并不是因计算机视觉领域的蓬勃发展而诞生的。Transformer模型是Google团队在2017年所提出,目的是应用于NLP领域(自然语言处理)。Transformer模型中的自我注意机制,不采用RNN的顺序结构,使得Transformer模型可以实现并行化训练,而且能够拥有全局信息。在2020年,Carion提出一种端到端的Transformer物体检测模型,成功将NLP领域中的Transformer模型与计算机视觉领域相结合,从此视觉Transformer开始迅速发展,取得了与传统卷积相当的成绩,甚至有的Transformer网络结构已经实现对传统卷积模型的超越。
[0004]人脸关键点检测技术发展迅猛。其中,由Cootes等提出的ASM(Active Shape Model)算法的特点是基于点分布式的,通过预先标定的训练集,经过网络训练获得特征,再通过关键点的位置实现特点位置的匹配。随后,在2010年,Dollar提出CPR(CascadedPose Regression,级联姿势回归),CPR通过一系列回归器将一个指定的初始预测值逐步细化,每一个回归器都依靠前一个回归器的输出来执行简单的图像操作,整个系统可自动的从训练样本中学习。最后进入了深度学习时代,最为代表性的是Zhang等人提出一种多任务级联卷积神经网络(MTCNN,Multi

task Cascaded Convolutional Networks)用以同时处理人脸检测和人脸关键点定位问题。作者认为人脸检测和人脸关键点检测两个任务之间往往存在着潜在的联系,然而大多数方法都未将两个任务有效的结合起来,本文为了充分利用两任务之间潜在的联系,提出一种多任务级联的人脸检测框架,将人脸检测和人脸关键点检测同时进行。
[0005]然而,目前主流的人像关键点检测算法都是采用热力图回归的形式,这一种方法需要渲染高斯热图,因为热力图中的最值点直接对应了关键点,这就导致了两个问题,一是这一类算法都需要维持一个相对高分辨率的热图,导致这一类回归网络具有难以回归的特点。二是这一类算法,热力图中的最值点直接代表了对应的关键点位置,渲染准确的热力图仅仅依靠传统的卷积层个数加深的方法往往是不足的。

技术实现思路

[0006]本专利技术的目的在于提供一种基于特征融合的人像关键点检测方法及系统,该方法及系统有利于提高检测精度和运行速度。
[0007]为实现上述目的,本专利技术采用的技术方案是:一种基于特征融合的人像关键点检测方法,包括以下步骤:
[0008]步骤S1:将人像数据集中的图片送入轻量化人脸检测网络YOLOV5

n

face进行人脸检测并裁剪,摒弃背景多余信息,得到经过处理后的人像图片,将人像图片中的原有的坐标信息归一化后,通过高斯分布转化为热力图;
[0009]步骤S2:将步骤S1得到的人像图片送入基于Transformer和Convolution特征融合的回归网络对其进行训练,将步骤S1得到的热力图用于监督学习,损失函数采用自适应Wing loss;回归网络为并行结构,通过Convolution捕捉人像图片的低级语义特征,通过Transformer捕捉人像图片中的高级语义特征,将Convolution和Transformer得到的特征图进行跳跃连接,即通道相连,共同编码包含坐标信息的热力图;
[0010]步骤S3:基于Convolution和Transformer特征融合的回归网络将N个关键点的N个热力图联合在同一个通道,生成一个单通道具有边界信息的热力图,输出N+1个通道、分辨率为64*64的热力图,N为关键点个数,其中每一个通道为关键点的高斯分布图,取其概率最大值则为所求的关键点;
[0011]步骤S4:将输出的热力图通过解码函数,取前N个热力图进行解码,得到精确的N个关键点的坐标信息。
[0012]进一步地,步骤S2中,通过所述回归网络获得低级语义特征与高级语义特征融合的特征图,其方法为:将Convolution和Transformer并行结构得到不同尺度和不同特征空间的特征图,经过下采样操作后,以跳跃连接,即通道连接方式进行特征融合,从而构造基于Convolution和Transformer特征融合的回归网络;基于Convolution和Transformer特征融合的回归网络的主干模块由CNN卷积神经网络ConvNeXt中的卷积模块blocks构造,辅以Transformer捕捉远距离语义相关信息进一步融合特征。
[0013]进一步地,Transformer通过一个Embedding操作,将序列输入转化为Token,格式为(N,C,H*W),其中N为一次训练时输入网络的图片数量,C为图片通道数,H和W分别为图片的高度和宽度;Embedding层利用不同卷积核大小的二维卷积应用于(N,C,H,W)的特征图,再将不同分辨率大小的特征图进行双线性插值变为同一个分辨率大小,利用通道连接的方式得到包含不同分辨率的特征图,将此特征图进行格式变化,从(N,C,H,W)方式转化为(N,C,H*W)再送入Transformer的自我注意机制中。
[0014]进一步地,Transformer中的Embedding操作为:送入的特征图并行通过卷积核大小分别为1*1,3*3,7*7,9*9,步长分别为1,1,2,2的二维卷积,得到四种分辨率大小不同的特征图;再将四种分辨率大小不同的特征图通过双线性插值的方法变成四种分辨率大小相同的特征图进行通道连接,最后通过格式变化函数,将特征图的尺寸变为适合Transformer中自我注意层的大小。
[0015]进一步地,将Transformer结构中的Self

attention的线性层操作改为位置卷积CoordConv操作,进一步加强自我注意层捕捉远距离高级语义的特征以及通过卷积的形式加入位置信息。
[0016]本专利技术还提供了一种基于特征融合的人像关键点检测系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
[0017]与现有技术相比,本专利技术具有以下有益效果:提供了一种基于特征融合的人像关键点检测方法及系统,该方法及系统设计了结合Convolution模块和Transformer模块的特征融合网络,可以结合Tra本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征融合的人像关键点检测方法,其特征在于,包括以下步骤:步骤S1:将人像数据集中的图片送入轻量化人脸检测网络YOLOV5

n

face进行人脸检测并裁剪,摒弃背景多余信息,得到经过处理后的人像图片,将人像图片中的原有的坐标信息归一化后,通过高斯分布转化为热力图;步骤S2:将步骤S1得到的人像图片送入基于Transformer和Convolution特征融合的回归网络对其进行训练,将步骤S1得到的热力图用于监督学习,损失函数采用自适应Wing loss;回归网络为并行结构,通过Convolution捕捉人像图片的低级语义特征,通过Transformer捕捉人像图片中的高级语义特征,将Convolution和Transformer得到的特征图进行跳跃连接,即通道相连,共同编码包含坐标信息的热力图;步骤S3:基于Convolution和Transformer特征融合的回归网络将N个关键点的N个热力图联合在同一个通道,生成一个单通道具有边界信息的热力图,输出N+1个通道、分辨率为64*64的热力图,N为关键点个数,其中每一个通道为关键点的高斯分布图,取其概率最大值则为所求的关键点;步骤S4:将输出的热力图通过解码函数,取前N个热力图进行解码,得到精确的N个关键点的坐标信息。2.根据权利要求1所述的一种基于特征融合的人像关键点检测方法,其特征在于,步骤S2中,通过所述回归网络获得低级语义特征与高级语义特征融合的特征图,其方法为:将Convolution和Transformer并行结构得到不同尺度和不同特征空间的特征图,经过下采样操作后,以跳跃连接,即通道连接方式进行特征融合,从而构造基于Convolution和Transformer特征融合的回归网络;基于Convolution和Transformer特征融合的回归网络的主干模块由CNN卷积神经网络ConvNeXt中的...

【专利技术属性】
技术研发人员:林志贤陈凯林珊玲郭太良林坚普叶芸张永爱周雄图
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1