【技术实现步骤摘要】
一种基于多模态多层次信息融合的行为识别方法及系统
[0001]本专利技术涉及计算机
,涉及一种基于多模态多层次信息融合的行为识别方法及系统。
技术介绍
[0002]人员跌倒尤其是老人跌倒若发现不够及时,有可能对生命健康造成威胁。目前针对跌倒行为多以人工发现为主,一方面,由于人的避害性,即便发现打架跌倒行为,有可能为了避免麻烦,会对这些行为视而不见;另一方面,在特定时间段(如深夜),人员稀少,导致这些行为不被发现。
[0003]行为识别是计算机视觉研究领域的重要研究问题,被广泛应用于视频监控、行为分析、人体交互等众多领域中。传统人体识别主要基于RBG视频序列,但由于传统算法对特征提取的局限性,往往会导致算法鲁棒性低、精度低等问题。近年来,随着人工智能技术的发展,基于深度学习的RBG视频序列行为识别精度有了很大的提升,但视频场景中往往会有复杂的背景,给行为识别带来了一定的挑战。随着高精度的深度传感器和人体姿态估计算法的发展,人体的骨骼关节点变得易于获得,基于深度学习的骨架行为识别方法,可以有效避免视频背景对行为识别的影响,但是部分背景信息是有益于行为识别的,而基于骨架的行为识别完全忽视了视频背景信息,限制了行为识别的表现力。
[0004]针对现有技术难以高效、高精度识别跌倒行为的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]为了克服上述现有技术中存在的缺陷,本专利技术提供一种基于多模态多层次信息融合的行为识别方法及系统。
[0006]为了实现上述目的,提供了以 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态多层次信息融合的行为识别方法,其特征在于,包括以下步骤:将目标视频切片生成视频片段,并根据视频片段生成输入行为人体骨骼点序列;将所述视频片段和所述行为人体骨骼点序列输入训练好的多模态多层次信息融合网络模型,得到行为类别,所述行为类别用于判断是否存在跌倒行为;所述多模态多层次信息融合网络模型包括视频特征提取网络、骨骼特征提取网络和中间层特征融合模块,所述视频片段输入所述视频特征提取网络,所述行为人体骨骼点序列输入所述骨骼特征提取网络;所述视频特征提取网络和骨骼特征提取网络分别包括若干中间层,若干中间层依次链接;并且所述视频特征提取网络的输出层输出的视频特征与所述骨骼特征提取网络的输出层输出的骨骼特征拼接后,依次输入全连接层和softmax层,得到行为类别;所述中间层特征融合模块用于将视频特征提取网络的当前中间层输出的视频特征和骨骼特征提取网络的当前中间层输出的骨骼特征进行融合,得到视频特征融合权重和骨骼特征融合权重,将所述视频特征融合权重与所述视频特征提取网络的当前中间层输出的视频特征进行通道乘法后输入到下一层,将所述骨骼特征融合权重与所述骨骼特征提取网络中的当前中间层输出的骨骼特征进行通道乘法后输入到下一层。2.如权利要求1所述的一种基于多模态多层次信息融合的行为识别方法,其特征在于,所述中间层特征融合模块包括依次链接的压缩层、融合层、分离层和激发层。3.如权利要求2所述的一种基于多模态多层次信息融合的行为识别方法,其特征在于,所述压缩层用公式表示为:所述压缩层用公式表示为:其中,H、W对应视频特征中具体像素的高、宽,T代表视频中具体帧数,C代表视频特征A中具体通道数,C
’
代表骨骼特征B中具体通道数,V代表具体的骨骼点,S
A
,S
B
分别表示压缩后的视频特征和骨骼特征,R
C
指c阶矩阵。4.如权利要求3所述的一种基于多模态多层次信息融合的行为识别方法,其特征在于,所述融合层用以下公式表示:C
Z
=(C+C')/4,其中,Z表示融合后特征,W
’
表示学习权重,S
A
,S
B
分别表示压缩后的视频特征和骨骼特征,b表示偏置,C
Z
表示融合后特征通道数,指C
Z
阶矩阵。5.如权利要求4所述的一种基于多模态多层次信息融合的行为识别方法,其特征在于,所述分离层用以下公式表示:E
A
=W
A
Z+b
A
;E
A
∈R
C
,b
A
∈R
C
;E
B
=W
B
Z+b
B
;E
B
∈R
C'
,b
B
∈R
C'
...
【专利技术属性】
技术研发人员:赵晟,廖华,陈苏,虞凯,向一帆,苗齐秀,谢联莲,潘兆马,王璞,曾妮,杨学锋,陈梦婷,陈忱,詹青见,
申请(专利权)人:中铁二院工程集团有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。