【技术实现步骤摘要】
一种基于骨骼和RGB帧融合的行为识别方法、装置及系统
[0001]本专利技术涉及计算机视觉领域,尤其涉及是一种基于骨骼和RGB帧融合的行为识别方法、装置及系统。
技术介绍
[0002]除了语音之外,人们很多时候是通过动作来传递信息的,比如交警使用手势指挥交通,人们使用特定的动作传递情感(挥手表达再见,摇头表示反对,比心表达爱意等)。因此,人体的动作对于理解人类的活动有着重要的作用。人体动作识别在计算机视觉领域一直是一个热门且具有挑战性的研究方向,它指的是输入一段分割好的视频,最后输出这段视频对应的动作类别,即是一个视频分类的任务。它有很多实际的应用,比如在智能安防领域,识别出打架斗殴行为然后报警,识别出有人在公共场所抽烟然后做出报警等。在老年健康呵护领域,识别出老人摔倒然后做出报警等。在人机交互领域,可以用手势隔空操纵电子产品等。因此,在计算机视觉领域,快速有效准确的识别人体动作显得尤为重要。
[0003]目前记录人体动作的常用传感器有RGB相机、深度相机和惯性传感器(比如加速度计和陀螺仪)等。从RGB相机我们能获取 ...
【技术保护点】
【技术特征摘要】
1.一种基于骨骼和RGB帧融合的行为识别方法,其特征在于,构建基于骨骼和RGB帧融合的行为识别网络,通过该行为识别网络进行行为识别,行为识别网络构建,包括如下步骤:S1,利用RGB相机获取行为动作的RGB数据,利用深度相机获取3D骨骼数据,构建行为识别数据集;S2,对行为识别数据集进行预处理;S3,通过神经网络分别提取RGB数据和3D骨骼数据的数据特征;S4,搭建骨骼和RGB帧在特征层面交互的神经网络;S5,利用训练集训练该神经网络实现优化参数,得到基于骨骼和RGB帧融合的行为识别网络。2.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法,其特征在于,所述步骤S3中,利用时空图卷积神经网络ST
‑
GCN提取3D骨骼数据特征x_skeleton,尺寸为(N,C,T,V),其中N代表一个批量的大小,C代表特征通道的数目,T代表时间帧的数目,V代表骨骼关节点的数目;利用轻量级GhostNet提取RGB帧数据特征x_rgb,尺寸为(N,C,H,W),其中N代表一个批量的大小,C代表特征通道的数目,H代表图像的高度,W代表图像的宽度。3.根据权利要求1所述的基于骨骼和RGB帧融合的行为识别方法,其特征在于,所述步骤S4中的骨骼和RGB帧在特征层面交互的神经网络的搭建包括如下步骤:S41,将x_skeleton的尺寸转换为与x_rgb一致的尺寸,得到尺寸(N,C,H,W)的3D骨骼数据特征x_skeleton_att;S42,对x_skeleton_att和x_rgb进行哈达玛积运算,实现RGB帧数据特征的校正,得到校正后的RGB帧数据特征x_rgb_new,x_rgb_new经过全局平均池化层,得到尺寸(N,C)的RGB帧数据特征,再经过全连接层,得到尺寸(N,C1)的RGB帧输出;S43,将x_rgb的尺寸转换为与x_skeleton一致的尺寸,得到尺寸(N,C,T,V)的RGB帧数据特征x_rgb_att;S44,对x_skeleton和x_rgb_att进行哈达玛积运算,实现3D骨骼数据特征的校正,得到校正后的3D骨骼数据特征x_skeleton_new;x_skeleton_new经过全局平均池化层,得到尺寸(N,C)的3D骨骼数据特征,再经过全连接层,得到尺寸(N,C1)的骨骼输出;S45,将尺寸同为(N,C)的RBG帧数据特征和3D骨骼数据特征(N,C)拼接,再经过1*1的卷积层,得到尺寸(N,C1)的融合输出。4.根据权利要求3所述的基于骨骼和RGB帧融合的行为识别方法,其特征在于,所述步骤S41中,将x_skeleton的尺寸转换为与x_rgb一致的尺寸,得到尺寸(N,C,H,W)的3D骨骼数据特征x_skeleton_att,具体转换为:x_skeleton首先经过一个全局平均池化层把T和V这...
【专利技术属性】
技术研发人员:黄炜,颜天信,
申请(专利权)人:安徽省科亿信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。