【技术实现步骤摘要】
本专利技术属于姿态估计,具体涉及一种基于注意力机制的视频人体姿态传播方法。
技术介绍
1、人体姿态估计的目标是定位给定图像中人物身体的关键点,以准确识别人体姿势;这项技术是计算机视觉领域里一项具有挑战性的前沿技术,也是许多其他视觉任务的重要基础和前提,如医疗康复和动作捕捉。人体姿态估计的最终效果是把一张图像中各个人物的骨骼关节点按一定规则连接起来,从而在视觉上呈现这个人的姿势。
2、基于视频的人体姿态估计技术依赖于大量密集标注的视频帧,这些方法认为视频帧之间丰富的关联信息只能用于训练,而忽视了视频样本标注的有序性和相关性,即邻近帧之间的时间连续性和空间相似性。在视频中,由于人的运动是连续的,邻近帧之间的人体姿态变化往往是平滑和渐进的,这意味着如果能够有效地利用这种时间和空间上的连续性,就可以摆脱对每一帧都进行标注的需求。通过分析连续帧之间的变化可以推断出中间帧的姿态信息,而无需对每一帧都进行标注;传统的密集标注不仅耗时耗力,而且成本高昂。
3、视频姿态传播为稀疏标注提供了可能,稀疏标注相关方法作为一种减少标注需求
...【技术保护点】
1.一种基于注意力机制的视频人体姿态传播方法,包括如下步骤:
2.根据权利要求1所述的视频人体姿态传播方法,其特征在于:所述步骤(1)中对于视频数据集中任一段视频,在视频中以间隔m均匀选定n个视频帧作为标注帧,为每个非标注帧匹配前向和后向最近的标注帧作为其支持帧,为每个标注帧匹配前向和后向距离为m/2的两个非标注帧作为其支持帧,m为大于0的自然数,n为大于1的自然数。
3.根据权利要求1所述的视频人体姿态传播方法,其特征在于:所述骨干网络基于Vision Transformer,其包括补丁嵌入层、级联的Transformer block层以及上
...【技术特征摘要】
1.一种基于注意力机制的视频人体姿态传播方法,包括如下步骤:
2.根据权利要求1所述的视频人体姿态传播方法,其特征在于:所述步骤(1)中对于视频数据集中任一段视频,在视频中以间隔m均匀选定n个视频帧作为标注帧,为每个非标注帧匹配前向和后向最近的标注帧作为其支持帧,为每个标注帧匹配前向和后向距离为m/2的两个非标注帧作为其支持帧,m为大于0的自然数,n为大于1的自然数。
3.根据权利要求1所述的视频人体姿态传播方法,其特征在于:所述骨干网络基于vision transformer,其包括补丁嵌入层、级联的transformer block层以及上采样检测头,输入为视频帧及其对应匹配的两个支持帧,首先将这三帧在批次维度连接送入补丁嵌入层进行嵌入压缩并添加位置信息,再送入级联的transformer block层提取特征得到特征令牌,最后将特征令牌变换形状后送入上采样检测头得到姿态热图。
4.根据权利要求1所述的视频人体姿态传播方法,其特征在于:所述预处理层的具体实现方式为:首先将特征令牌和姿态热图在批次维度分开,得到三个时刻的特征令牌和姿态热图,然后利用1×1的卷积块将三张姿态热图降维至单通道并分成与特征令牌尺度大小相等的块,进而将块沿最后一个维度复制成和对应特征令牌相同大小形状后,再与对应的特征令牌进行逐点相乘实现权重筛选,最后把筛选后的三个特征令牌在通道维度拼接起来作为输出。
5.根据权利要求1所述的视频人体姿态传播方法,其特征在于:所述级联自注意力层用于对预处理层输出的特征进行全局空间计算,该层由多个transformer块级联而成,每个transformer块包含两个归一化层、一个多头自注意力层和一个多层感知机,多层感知机包含一个维度扩大两倍的线性层、一个silu激活函数、一个维度缩小两倍的线性层,具体操作表达式如下:
6.根据权利要求1所述的视频人体姿态传播方法,其特征在于:所述线性融合层...
【专利技术属性】
技术研发人员:刘振广,汪志刚,吴哲琦,徐卓越,王勋,
申请(专利权)人:浙江工商大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。