一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置制造方法及图纸

技术编号:35654339 阅读:16 留言:0更新日期:2022-11-19 16:50
本发明专利技术涉及人工智能计算机视觉技术领域,具体提供了一种在线跨通道交互式并行蒸馏架构姿态预估方法,首先视频采集装置获取外界视频流,将视频流切分成帧输入到特征提取网络中进行特征提取;将提取到的特征输送到YOLOV5目标检测模型中,检测每一帧图像中的目标人体所在位置并标记检测框,得到目标人体的特征数据;将目标人体特征数据传递给姿态检测模型Faster

【技术实现步骤摘要】
一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置


[0001]本专利技术涉及人工智能计算机视觉
,具体提供一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置。

技术介绍

[0002]人体姿态预估是人工智能计算机视觉中一个重要的
通过对场景中人的行为进行估计,可以更好的实现人机交互。目前人体姿态预估常用于工人违规操作检测、安防领域以及VR穿戴设备中。人体姿态预估算法中目标检测模型提取人体检测框的准确性对人体关键点定位的准确性和稳定性至关重要。
[0003]现有注意力模型没有考虑通道特征信息和空间特征信息的关联性,导致准确性不高。

技术实现思路

[0004]本专利技术是针对上述现有技术的不足,提供一种实用性强的在线跨通道交互式并行蒸馏架构姿态预估方法。
[0005]本专利技术进一步的技术任务是提供一种设计合理,安全适用的在线跨通道交互式并行蒸馏架构姿态预估装置。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种在线跨通道交互式并行蒸馏架构姿态预估方法,首先视频采集装置获取外界视频流,将视频流切分成帧输入到特征提取网络中进行特征提取;
[0008]将提取到的特征输送到YOLOV5目标检测模型中,检测每一帧图像中的目标人体所在位置并标记检测框,得到目标人体的特征数据;
[0009]将目标人体特征数据传递给姿态检测模型Faster

Pose,得到人体关键点特征信息;将得到的人体关键点特征信息通过线性变换映射到特征图中,得到带有人体关键点标注的特征图。
[0010]进一步的,所述特征提取网络设计成CSP结构,并引入跨通道交互式注意力机制,跨通道交互式注意力机制联合通道注意力和空间注意力,使用协方差矩阵计算通道注意力模型中特征图每两个通道的相似性,相似度高的通道进行融合;
[0011]空间注意力中使用二阶有限差分法计算特征图像素值差和像素梯度方向。
[0012]进一步的,两个所述通道的协方差计算值为负数则表示负相关,值为0则表示两个通道之间相互独立互不相关,值为正数则表示两个通道正相关进行特征融合;
[0013]首先计算每个通道的均值如公式(1)所示:
[0014][0015]所有通道的均值特征记为
[0016]计算每个通道的方差如公式(2)所示:
[0017][0018]所有通道的方差记为:
[0019]计算通道C1,C2之间的协方差如公式(3)所示:
[0020][0021]以此类推得到的所有通道相似性协方差值记为Cov
i,k
,只在不同通道之间做协方差,根据协方差值将正相关性的通道进行逐像素融合。
[0022]进一步的,将提取到的特征输送到YOLOV5目标检测模型中,检测每一帧图像中的目标人体所在位置并标记检测框,得到目标人体的特征数据;
[0023]所述YOLOV5目标检测模型使用公开数据集MSCOCO 2017进行训练。MSCOCO 2017数据集按照预先设定的比例随机抽取,对样本数据做数据增强预处理操作。
[0024]作为优选,所述数据增强的方式包括对图像进行多角度旋转,旋转角度划分间隔为30度,对图像按照概率P对图像随机掩膜处理,掩膜下的像素值置为0,对图像进行上、下、左、右翻转,对图像进行不同程度的扭曲变形处理以及对图像进行颜色扰动。
[0025]进一步的,所述通道注意力模型使用SoftMax函数得到通道特征概率矩阵,空间注意力模型使用SoftMax函数得到空间特征概率矩阵;
[0026]概率矩阵与原特征图分别使用乘积的方式进行融合,为特征图增加权重信息。
[0027]进一步的,使用Depth

Wise方法对特征图的每个通道进行特征提取,得到每个通道的特征值矩阵,进行跨通道特征融合。
[0028]进一步的,姿态检测模型Faster

Pose中进行在线并行知识蒸馏方法,在线并行知识蒸馏方法在网络结构上继续沿用基于教师

学生(Teacher

Student)知识蒸馏框架,Teacher网络由8个Hourglass特征提取模块组成,Student网络由4个Hourglass特征提取模块组成;
[0029]使用MSCOCO 2017数据集训练Teacher网络,使用一部分带有标签的数据集训练Student网络,训练过程中使用KL散度计算Teacher网络特征图和Student网络特征图损失,并将Teacher特征图信息与Student特征图信息按照通道相似度进行融合,训练过程中Teacher与Student网络并行训练;
[0030]推理过程中去掉Teacher网络直接推理Student网络,在Faster

Pose姿态检测模型中引入跨通道交互式注意力机制,跨通道交互式注意力机制为Teacher网络中的特征图赋予不同的权重信息,Teacher网络特征图和Student网络特征图计算过程如公式(4)所示:
[0031][0032]其中,分别代表Teacher网络第二个Hourglass模块提取到的特征图和Student网络第一个Hourglass模块提取到的特征图;
[0033]总的特征图损失如公式(5)所示:
[0034][0035]Faster

Pose姿态预估模型的最终损失函数如公式(6)所示:
[0036][0037]其中为Student网络模型损失,α和λ为待学习的超参数。
[0038]进一步的,Faster

Pose姿态检测模型输出的人体关键点Heat Map数据信息使用线性插值法映射到原特征图中,映射过程中出现的像素点偏移使用三线性插值进行纠正。
[0039]一种在线跨通道交互式并行蒸馏架构姿态预估装置,包括:至少一个存储器和至少一个处理器;
[0040]所述至少一个存储器,用于存储机器可读程序;
[0041]所述至少一个处理器,用于调用所述机器可读程序,执行一种在线跨通道交互式并行蒸馏架构姿态预估方法。
[0042]本专利技术的一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置和现有技术相比,具有以下突出的有益效果:
[0043]本专利技术提出了跨通道交互式注意力机制并提出了新的姿态检测模型Faster

Pose。在特征提取阶段,通道注意力用于检测特征图哪些通道上含有所需信息的特征表达,空间注意力检测特征图的哪个位置存在所需的特征信息。在本专利技术中将空间注意力提取到的特征信息和通道注意力提取到的特征信息进行融合,考虑到通道特征信息和空间特征信息的关联性,提升所需特征信息的表达能力。
附图说明
[0044]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在线跨通道交互式并行蒸馏架构姿态预估方法,其特征在于,首先视频采集装置获取外界视频流,将视频流切分成帧输入到特征提取网络中进行特征提取;将提取到的特征输送到YOLOV5目标检测模型中,检测每一帧图像中的目标人体所在位置并标记检测框,得到目标人体的特征数据;将目标人体特征数据传递给姿态检测模型Faster

Pose,得到人体关键点特征信息;将得到的人体关键点特征信息通过线性变换映射到特征图中,得到带有人体关键点标注的特征图。2.根据权利要求1所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法,其特征在于,所述特征提取网络设计成CSP结构,并引入跨通道交互式注意力机制,跨通道交互式注意力机制联合通道注意力和空间注意力,使用协方差矩阵计算通道注意力模型中特征图每两个通道的相似性,相似度高的通道进行融合;空间注意力中使用二阶有限差分法计算特征图像素值差和像素梯度方向。3.根据权利要求2所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法,其特征在于,两个所述通道的协方差计算值为负数则表示负相关,值为0则表示两个通道之间相互独立互不相关,值为正数则表示两个通道正相关进行特征融合;首先计算每个通道的均值如公式(1)所示:所有通道的均值特征记为计算每个通道的方差如公式(2)所示:所有通道的方差记为:计算通道C1,C2之间的协方差如公式(3)所示:以此类推得到的所有通道相似性协方差值记为Cov
i,k
,只在不同通道之间做协方差,根据协方差值将正相关性的通道进行逐像素融合。4.根据权利要求3所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法,其特征在于,将提取到的特征输送到YOLOV5目标检测模型中,检测每一帧图像中的目标人体所在位置并标记检测框,得到目标人体的特征数据;所述YOLOV5目标检测模型使用公开数据集MSCOCO 2017进行训练。MSCOCO 2017数据集按照预先设定的比例随机抽取,对样本数据做数据增强预处理操作。5.根据权利要求4所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法,其特征在于,所述数据增强的方式包括对图像进行多角度旋转,旋转角度划分间隔为30度,对图像按照概率P对图像随机掩膜处理,掩膜下的像素值置为0,对图像进行上、下、左、右翻转,对图像进行不同程度的扭曲变形处理以及对图像进行颜色扰动。6.根据权利要求5所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法,其特征
在于,所述通道注意力模型使用SoftMax函数得到通道特征概率矩阵,空间注意力模型使用SoftMax函数得到空间...

【专利技术属性】
技术研发人员:郑群杨义坤孙桂刚李超朱宪
申请(专利权)人:厦门信息技术应用创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1