当前位置: 首页 > 专利查询>之江实验室专利>正文

一种共时与跨域异步融合驱动的行为识别方法技术

技术编号:36813009 阅读:37 留言:0更新日期:2023-03-09 00:56
一种共时与跨域异步融合驱动的行为识别方法,包括:获取多人人体彩色图像作为图像序列;从截取图像中估计二维人体姿态,计算二维人体姿态的关键点热图作为姿态序列;建立表观网络,以图像序列作为输入并提取图像特征;同时,建立姿态网络,以姿态序列作为输入并提取姿态特征;以图像特征和姿态特征作为输入,将图像特征和姿态特征进行缩放、对齐和融合;将融合后的图像特征和姿态特征归一化,拼接归一化后的双流特征得到全局特征,输入到分类器中求解概率最大的行为类别;采集多人人体彩色图像序列、二维人体姿态及其对应的类别标签作为训练数据集,对表观网络、姿态网络、共时缩放单元和跨域融合单元进行预训练优化。元和跨域融合单元进行预训练优化。元和跨域融合单元进行预训练优化。

【技术实现步骤摘要】
一种共时与跨域异步融合驱动的行为识别方法


[0001]本专利技术涉及计算机视觉和机器人领域,尤其涉及了一种共时与跨域异步融合驱动的行为识别方法,通过设计共时缩放单元和跨域融合单元,分别在时间和空间维度对图像与姿态特征进行缩放并融合,提高了行为识别的通用性,可以应用于服务机器人领域对人体动作意图的识别和理解。

技术介绍

[0002]人体行为识别技术作为人机交互领域的核心驱动引擎,可以辅助机器人通过视觉感知交互发起人的肢体动作,来理解交互发起人的交互意图与交互指令。随着深度学习与视觉感知技术的迅猛发展,人体行为识别方法在VR/AR体感交互、机器人遥操作和无人驾驶等领域,拥有越发广泛的应用前景。人们常见的交互动作不仅人体自身运动有关,例如“挥手”、“站立”和“看向”等独立动作,而且与场景物体的类别有关,例如“取下帽子”、“摘掉眼镜”和“端起杯子”等场景动作。图像中的物体纹理、颜色和类别信息,一方面对于识别场景动作是必不可少的,另一方面却是干扰独立动作识别的额外噪声。现有基于单一图像或人体姿态的行为识别解决方案,因无法兼顾场景动作和独立动作的通用识别,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种共时与跨域异步融合驱动的行为识别方法,其特征在于,包括:步骤S101,获取多人人体彩色图像作为图像序列;步骤S102,采用目标检测网络从所述多人人体彩色图像中检测二维人体包围框,采用二维人体姿态估计网络从截取图像中估计二维人体姿态,计算二维人体姿态的关键点热图作为姿态序列;步骤S103,建立表观网络,以图像序列作为输入并提取图像特征;同时,建立姿态网络,以姿态序列作为输入并提取姿态特征;步骤S104,采用共时与跨域异步融合的策略,搭建共时缩放单元和跨域融合单元,以图像特征和姿态特征作为输入,将图像特征和姿态特征进行缩放、对齐和融合;步骤S105,采用全局池化层将融合后的图像特征和姿态特征归一化,拼接归一化后的双流特征得到全局特征,输入到分类器中求解概率最大的行为类别;步骤S106,采集多人人体彩色图像序列、二维人体姿态及其对应的类别标签作为训练数据集,对表观网络、姿态网络、共时缩放单元和跨域融合单元进行预训练优化。2.根据权利要求1所述的行为识别方法,其特征在于,所述步骤S101,包括:所述多人人体彩色图像应尽量捕捉到人体的全身姿态,将机器人身上的彩色相机安装到适当位置,调整拍摄角度获取优质图像。3.根据权利要求1所述的行为识别方法,其特征在于,所述的彩色相机的安装位置距离地面1.7m。4.根据权利要求1所述的行为识别方法,其特征在于,所述步骤S102,包括:所述目标检测网络和二维人体姿态估计网络均采用轻量化可实时运行的开源预训练模型;所述目标检测网络从彩色图像中检测出“人”的类别置信度c
j
及其二维人体包围框(u1,v1,u2,v2),当人体类别置信度c
j
≥0.5时,从图像中剪裁出(u1,v1,u2,v2)作为局部图像;所述二维人体姿态估计网络从局部图像中计算出二维人体关键点,可由相机坐标系下人体的右脚、右肩、左肘、右肘等14个关键关节的二维坐标组成,记作c
j
为置信度,ξ为每个人的关节总数,第t帧彩色图像的总人数为ρ,p∈{1,ρ}为图像第p个人;所述关键点热图将二维人体关键点重构成类似图像的模态,可选择高斯分布函数作为基函数,第t帧第j个关键点热图可以计算如下:式中,σ=0.5为高斯分布的标准差,第t帧彩色图像中有关第j个关节(x
j
,y
j
)的热图分布;通过将每一帧图像中的每一个关节热图拼接,姿态序列记作H
P
和W
P
分别表示高度和宽度,T为采样帧数。5.根据权利要求1所述的行为识别方法,其特征在于,所述步骤S103,包括:所述图像序列将T帧图像拼接为四维张量,图像序列记作所述表观网络与姿态网络由二维卷积神经网络构建,均采用开源的ResNet

50作为网
络结构,表观网络提取的图像特征为络结构,表观网络提取的图像特征为为图像特征的通道维度,和分别表示高度和宽度;同样的,姿态网络提取的姿态特征可记作6.根据权利要求1所述的行为识别方法,其特征在于,所述步骤S104,包括:所述共时与跨域异步融合包括共时缩放单元和跨域融合单元,对于双流特征采用的异步融合策略:在时间维度上进行缩放、在空间维度上进行叠加,满足了图像特征与姿态特征在时间上共享节奏、在空间上互补特征的基本原则;所述共时缩放单元以图像特征和姿态特征作为输入,采用空间池化对输入的空间尺寸大小归一化,归一化后的图像特征记作归一化后的姿态特征记作设计编码器和解码器,对图像特征和姿态特征在时间维度上进行编码:式中,表示时序共享特征,通过编码器Co

encoder(*)提取;和表示图像特征和姿态特征的缩放系数,分别通过解码器Decoder
A
(*)和Decoder
P...

【专利技术属性】
技术研发人员:郭方泰朱世强宋伟张格格钱金菊穆宗昊孟森森
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1