对象关键点检测方法及装置、训练方法及装置和计算设备制造方法及图纸

技术编号:33080793 阅读:14 留言:0更新日期:2022-04-15 10:33
提供了对象关键点的检测方法及装置、训练方法及装置和计算设备。检测方法包括:基于待检测图像中的对象的姿态确定待检测图像对应的第一对象框,第一对象框与待检测图像中的对象所在的感兴趣区域相对应;基于经训练的神经网络的输入数据的预设尺寸、第一对象框的框尺寸和预设扩框系数对第一对象框进行尺寸调整,得到第二对象框,该预设扩框系数使得所述第二对象框的宽长比介于预设尺寸对应的宽长比与第一对象框的宽长比之间;基于第二对象框得到待检测图像的裁剪图像,并基于预设尺寸对裁剪图像进行调整,得到裁剪图像对应的网络输入图像,网络输入图像的尺寸与预设尺寸相等;以及基于经训练的神经网络对网络输入图像中的对象关键点进行检测。象关键点进行检测。象关键点进行检测。

【技术实现步骤摘要】
对象关键点检测方法及装置、训练方法及装置和计算设备


[0001]本公开涉及计算机领域,更具体地,涉及一种对象关键点的检测方法及装置、训练方法及装置和计算设备。

技术介绍

[0002]对象关键点对于描述对象姿态、预测对象的行为至关重要,因此,对象关键点的检测是诸多计算机视觉领域诸多应用的基础,如,智能视频监控,虚拟现实、短视频、健身应用等等。对象可以为人体或者动物,对象的关键点检测主要是检测对象的一些骨骼关键点,例如对于人体可以包括:左眼,右眼,左耳,右耳,鼻子,胸,左肩,右肩,左手肘,右手肘,左手腕,右手腕,左髋关节,右髋关节,左膝,右膝,左脚踝,右脚踝等等,以通过关键点的坐标描述对象的骨骼信息。通常,可以通过采集对象的图像来对图像中的对象的关键点进行检测,以根据检测到的关键点进行其他操作,例如确定对象的肢体动作、肢体特效触发、人体搜身、虚拟形象动作驱动等等。
[0003]目前的关键点检测可以基于神经网络来进行。神经网络的输入数据具有预设尺寸,通常在将采集的图像输入至神经网络以进行对象的关键点检测前,需要首先将采集的图像处理为具有与神经本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种对象关键点的检测方法,包括:基于待检测图像中的对象的姿态确定所述待检测图像对应的第一对象框,所述第一对象框与待检测图像中的对象所在的感兴趣区域相对应;基于经训练的神经网络的输入数据的预设尺寸、所述第一对象框的框尺寸和预设扩框系数对所述第一对象框进行尺寸调整,得到第二对象框,其中,所述预设扩框系数使得所述第二对象框的宽长比介于所述预设尺寸对应的宽长比与所述第一对象框的宽长比之间,所述预设尺寸是能够被所述经训练的神经网络处理的输入数据的固定尺寸;基于所述第二对象框得到所述待检测图像的裁剪图像,并基于所述预设尺寸对所述裁剪图像进行调整,得到所述裁剪图像对应的网络输入图像,所述网络输入图像的尺寸与所述预设尺寸相等;以及基于经训练的神经网络对所述网络输入图像中的对象关键点进行检测。2.根据权利要求1所述的检测方法,其中,所述基于神经网络的输入数据的预设尺寸、所述第一对象框的框尺寸和所述预设扩框系数对所述第一对象框进行调整,得到第二对象框,包括:基于所述经训练的神经网络的输入数据的预设尺寸对应的宽数值和长数值确定所述预设尺寸对应的宽长比,作为第一宽长比;基于所述第一对象框的框尺寸对应的宽数值和长数值确定所述第一对象框的宽长比,作为第二宽长比;基于所述第一宽长比、所述第二宽长比以及所述预设扩框系数确定所述第一对象框的拉伸系数;以及基于所述拉伸系数对所述第一对象框进行尺寸调整,得到第二对象框。3.根据权利要求2所述的检测方法,其中,所述基于所述第一宽长比、所述第二宽长比以及所述预设扩框系数确定所述第一对象框的拉伸系数,包括:确定所述第二宽长比和第一宽长比的差值与所述预设扩框系数的乘积,作为宽长比调整量;将所述第一对象框的拉伸系数确定为所述第一宽长比与所述宽长比调整量的和。4.根据权利要求2所述的检测方法,其中,所述基于拉伸系数对所述第一对象框进行调整得到第二对象框,包括:在所述第一宽长比小于等于所述第二宽长比的情况下,将所述第一对象框的所述宽数值与所述拉伸系数相除,作为第二对象框的长数值,并将所述第一对象框的宽数值作为所述第二对象框的宽数值;以及在所述第一宽长比大于所述第二宽长比的情况下,将所述第一对象框的所述长数值与所述拉伸系数相乘,作为第二对象框的宽数值,并将所述第一对象框的长数值作为所述第二对象框的长数值。5.根据权利要求4所述的检测方法,其中,所述预设扩框系数通过以下方式确定:获取所述第一宽长比、所述第二宽长比以及预设扩框系数之间的映射关系;以及基于所述映射关系,确定所述第一宽长比和所述第二宽长比所对应的预设扩框系数。6.根据权利要求5所述的检测方法,其中,所述映射关系包括预设函数关系:S=max(0.5

|R
in

R
net
|*K,0.2),
其中S为所述预设扩框系数,Rin为所述第一宽长比,Rnet为所述第二宽长比,K为预设正数,且根据R
in

R
net
的绝对差值具有分段值,所述绝对差值越大,K越大。7.根据权利要求4所述的检测方法,其中,所述预设扩框系数通过以下方式确定:获取预设扩框系数的多个候选值;基于所述预设扩框系数的每个候选值,得到测试集的每个测试图像的网络输入图像,所述测试集的每个测试图像包括对象实例以及针对所述对象实例的关键点标注;针对每个候选值,利用所述经训练的神经网络针对所述测试集的每个测试图像的网络输入图像进行关键点检测,得到所述测试集对应的测试结果;以及基于针对每个候选值的、所述测试集对应的测试结果,确定用于所述测试集的最佳候选值,作为所述预设扩框系数。8.根据权利要求7所述的检测方法,其中,所述经训练的神经网络为对初始训练的神经网络进行扩框增强所得到的优化神经网络,其中,所述对初始训练的神经网络进行扩框增强包括:获取训练用扩框系数的预设取值范围;获取训练图像集,每个训练图像包括对象实例以及针对所述对象实例的关键点标注;针对每个训练图像,从所述预设取值范围随机选择多个不同的训练用扩框系数;针对每个训练图像,基于多个不同的训练用扩框系数对所述训练图像进行处理,得到与所述预设尺寸相同的多个网络输入图像,实现对所述训练图像集的网络输入图像集的扩增;以及利用扩增后的网络输入图像集对所述初始训练的神经网络进行进一步优化,得到优化神经网络,其中,所述优化神经网络作为所述经训练的神经网络对所述待检测图像中的对象关键点进行检测。9.根据权利要求8所述的检测方法,其中,所述获取训练用扩框系数的预设取值...

【专利技术属性】
技术研发人员:徐列付灿苗康洋孙冲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1