一种提高小目标分辨率的姿态估计方法技术

技术编号：38135126 阅读：6 留言：0更新日期：2023-07-08 09:45

本发明专利技术提供一种提高小目标分辨率的姿态估计方法，包括：将获取的图像输入到卷积神经网络进行人体框检测，对图片中所有人物分配一个ID，分配完成后对于检测到的人体框进行大小判断，并对小目标的人体框进行Token标记。对小目标的人体框进行分辨率增强。将经过分辨率增强的图像进行多头自注意力机制操作，使用反卷积层提高分辨率，再进行通道自我关注以及多层感知机，生成关节点热图。本发明专利技术针对图像中人体部位所在的人体框的大小进行判断，将人体框大小作为判断依据，将图片输入至提高分辨率的模块，增强小目标分辨率。采用改进的全注意力网络，使输入至网络的特征图一直保持高分辨率的状态并进行多通道关注，减少小目标低分辨率造成的准确度误差。造成的准确度误差。造成的准确度误差。

全部详细技术资料下载

【技术实现步骤摘要】
一种提高小目标分辨率的姿态估计方法

[0001]本专利技术涉及姿态估计
，具体而言，尤其涉及一种提高小目标分辨率的姿态估计方法。

技术介绍

[0002]在近年来，使用深度学习进行人体姿态估计是计算机视觉一直在关注的问题之一。人体姿态估计是指对人体的关键点部位，比如手、头、肩关节、髋关节、脚踝等位置进行估计，通常与行为分析、手势分析、动作捕捉等联系到一起。对一个人的姿态进行持续跟踪估计可用于检测一个人是否有摔倒趋势，是否有某种疾病(比如帕金森等)，除此之外还可以用于检测运动员技术动作是否规范等。
[0003]经检索，专利号为CN114999002A，公开了一种融合人体姿态信息的行为识别方法，该专利技术虽然稳定性强，克服了图卷积神经网络的识别能力很受骨骼点坐标点平移的影响，另外融合了图像前后帧的信息与人体关键点信息，信息的融合帮助提升动作识别的性能。但是该方法没有考虑小目标分辨率低对动作识别造成的误差；此外，该方法没有对全局进行上下文关注，而是对局部进行了操作，没有考虑到各通道之间的联系。

技术实现思路

[0004]根据上述提出的技术问题，提供一种提高小目标分辨率的姿态估计方法。本专利技术针对图像中人体部位所在的人体框的大小进行判断，将人体框大小作为判断依据，将图片输入进提高分辨率的模块，使得小目标分辨率增强。采用改进后的全注意力网络，使得输入进网络的特征图一直保持高分辨率的状态并进行多通道关注，减少小目标低分辨率造成的准确度误差。
[0005]本专利技术采用的技术手段如下：
>[0006]一种提高小目标分辨率的姿态估计方法，包括：
[0007]获取图像，对图像进行人体框检测，并对小目标的人体框进行标记；
[0008]对标记后的小目标的人体框进行分辨率增强；
[0009]基于经过分辨率增强后的图像，设计保持高分辨率的注意力网络。
[0010]进一步地，所述获取图像，对图像进行人体框检测，并对小目标的人体框进行标记，包括：
[0011]将获取的图像输入到一个具有三个卷积层和一个全连接层的卷积神经网络进行人体框检测，对图片信息中所有人物分配一个ID，分配完成后对于检测到的人体框进行大小判断，并对小目标的人体框进行Token标记。
[0012]进一步地，所述将获取的图像输入到一个具有三个卷积层和一个全连接层的卷积神经网络进行人体框检测，对图片信息中所有人物分配一个ID，分配完成后对于检测到的人体框进行大小判断，并对小目标的人体框进行Token标记，具体包括：
[0013]将图片输入至卷积神经网络，该网络包括三个卷积层、一个全连接层以及小目标
标记操作，其中第一个卷积层模块包含256个3
×
3卷积的卷积层、一个BN层、一个RELU层；第二个卷积层模块包含512个3
×
3卷积的卷积层、一个BN层、一个RELU层；第三个卷积层模块包含512个3
×
3卷积的卷积层、一个BN层、一个RELU层，输入的图像依次经过三个卷积层以及全连接层进行特征提取以及人体框标记，在得到人体框标记后判断每个人体框的大小，对小目标的人体框坐在位置进行Token标记，输出标记后的结果。
[0014]进一步地，所述对标记后的小目标的人体框进行分辨率增强，包括：
[0015]对小目标标记区域进行两次反卷积操作以及全连接层的操作，同时进行双线性插值，最终得到提高分辨率的结果。
[0016]进一步地，所述对小目标标记区域进行两次反卷积操作以及全连接层的操作，同时进行双线性插值，最终得到提高分辨率的结果，具体包括：
[0017]将标记后的结果输入进小目标分辨率增强网络，该网络由两层反卷积模块以及一个全连接层组成，第一个反卷积模块有256个3
×
3卷积的卷积层、一个BN层、一个RELU层；第二个反卷积模块有512个3
×
3卷积的反卷积层、一个BN层、一个RELU层；通过两层反卷积模块的反卷积操作将小目标进行分辨率的增强。
[0018]进一步地，所述基于经过分辨率增强后的图像，设计保持高分辨率的注意力网络，包括：
[0019]将经过分辨率增强的图像进行多头自注意力机制操作，然后使用反卷积层提高分辨率，保持高分辨率的需求，最后进行通道自我关注以及多层感知机，最终生成关节点热图。
[0020]进一步地，所述将经过分辨率增强的图像进行多头自注意力机制操作，然后使用反卷积层提高分辨率，保持高分辨率的需求，最后进行通道自我关注以及多层感知机，最终生成关节点热图，具体包括：
[0021]构建保持高分辨率的全注意力网络，保持高分辨率的全注意力网络由MHSA层、反卷积模块、Channel Self
‑
Attention层、MLP层组成；反卷积模块包含3
×
3卷积的反卷积层、BN层、RELU层；MHSA多头自注意力模块用于提取所述提高分辨率结果中的结构信息，将抽象feature map中的每个元素之间建立关联，来平行地计算从输入信息中选取多个信息，每个注意力关注输入信息的不同部分，然后再进行拼接，对应的感受野是整张图像；将得到的信息进行反卷积操作保证图像的分辨率，将提高再进行Channel Self
‑
Attention层，Channel Self
‑
Attention层会计算一个通道权重，主要关注于输入的不同通道信息，将提高分辨率后的信息输入至MLP层，将通过Channel Self
‑
Attention层和MLP层的矩阵进行融合，实现全通道关注，得到关键点热图。
[0022]较现有技术相比，本专利技术具有以下优点：
[0023]1、本专利技术提供的提高小目标分辨率的姿态估计方法，通过卷积神经网络对图片信息中所有人物进行标记，对图片信息中所有人物分配一个ID，分配完成后对于检测到的人体框进行大小判断，并对像素值小于整体图片像素1/3的小目标的人体框进行Token标记，之后将标记后的结果输入至提高小目标分辨率的模块，该模块只对进行token标记部分的像素进行提高分辨率操作，减少了对所有人物进行分辨率增强的时间。
[0024]2、本专利技术提供的提高小目标分辨率的姿态估计方法，通过MHSA多头自注意力模块后进行反卷积操作，保证预测过程中的高分辨率需求，进行通道自我关注，关注于输入的不
同通道信息，通过通道自我关注以及MLP层后进行关键点热图的预测，在进行关键点热图生成的过程中，始终保持着高分辨率，提高检测效果，有效地提高了姿态估计的准确性。
[0025]基于上述理由本专利技术可在姿态估计等领域广泛推广。
附图说明
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种提高小目标分辨率的姿态估计方法，其特征在于，包括：获取图像，对图像进行人体框检测，并对小目标的人体框进行标记；对标记后的小目标的人体框进行分辨率增强；基于经过分辨率增强后的图像，设计保持高分辨率的注意力网络。2.根据权利要求1所述的提高小目标分辨率的姿态估计方法，其特征在于，所述获取图像，对图像进行人体框检测，并对小目标的人体框进行标记，包括：将获取的图像输入到一个具有三个卷积层和一个全连接层的卷积神经网络进行人体框检测，对图片信息中所有人物分配一个ID，分配完成后对于检测到的人体框进行大小判断，并对小目标的人体框进行Token标记。3.根据权利要求2所述的提高小目标分辨率的姿态估计方法，其特征在于，所述将获取的图像输入到一个具有三个卷积层和一个全连接层的卷积神经网络进行人体框检测，对图片信息中所有人物分配一个ID，分配完成后对于检测到的人体框进行大小判断，并对小目标的人体框进行Token标记，具体包括：将图片输入至卷积神经网络，该网络包括三个卷积层、一个全连接层以及小目标标记操作，其中第一个卷积层模块包含256个3
×
3卷积的卷积层、一个BN层、一个RELU层；第二个卷积层模块包含512个3
×
3卷积的卷积层、一个BN层、一个RELU层；第三个卷积层模块包含512个3
×
3卷积的卷积层、一个BN层、一个RELU层，输入的图像依次经过三个卷积层以及全连接层进行特征提取以及人体框标记，在得到人体框标记后判断每个人体框的大小，对小目标的人体框坐在位置进行Token标记，输出标记后的结果。4.根据权利要求1所述的提高小目标分辨率的姿态估计方法，其特征在于，所述对标记后的小目标的人体框进行分辨率增强，包括：对小目标标记区域进行两次反卷积操作以及全连接层的操作，同时进行双线性插值，最终得到提高分辨率的结果。5.根据权利要求3所述的提高小目标分辨率的姿态估计方法，其特征在于，所述对小目标标记区域进行两次反卷积操作以及全连接层的操作，同时进行双线性插值，最终得到提高分辨率的结果，具体包括：将标记后的结...

【专利技术属性】
技术研发人员：史金余，孙悦琪，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人