基于时间注意力机制和LSTM的人体行为识别方法技术

技术编号:21892799 阅读:27 留言:0更新日期:2019-08-17 14:51
本发明专利技术提供了一种基于时间注意力机制和LSTM的人体行为识别方法,包括步骤:1)获取RGB单目视觉传感器的视频数据;2)提取2D骨架关节点数据;3)提取关节点联合结构特征;4)构建LSTM长短期记忆网络;5)在LSTM网络中加入时间注意力机制;6)利用softmax分类器进行人体行为识别。本发明专利技术能提高基于视觉的行为识别系统的普适性、实时性以及对复杂动作识别的准确率。

Human Behavior Recognition Based on Time Attention Mechanism and LSTM

【技术实现步骤摘要】
基于时间注意力机制和LSTM的人体行为识别方法
本专利技术涉及人体行为识别的
,尤其是指一种基于时间注意力机制和LSTM的人体行为识别方法。
技术介绍
近年来,人体行为识别技术在生产生活中具有广泛的应用。一方面,智能家居的发展使机器人对人的动作识别和理解提出更高的要求,另一方面,产业的转型使工业趋向智能化发展,人体行为识别被广泛地应用于工业机器人的人机交互和人机协作等领域。此外,随着视频媒体的发展及视觉传感器的普及,人体行为识别技术在远程医疗、家庭监控及城市治安监控等方面发挥着重要作用。RGB+D视频由于其包含丰富的信息,成为当前行为识别研究的热点。目前,人体行为识别技术研究方面主要采用基于视觉的传感器和基于深度神经网络的方法,但目前还面临如下问题:1、深度视觉传感器的普适性差:尽管基于RGB+D视频的行为识别方法在实验环境有较高的精度,然而由于深度视觉传感器实时性差、分辨率低、成本较高、只能近距离识别等限制,难以在实际生活中普及。2、RGB视频行为识别系统的实时性差:由于视频含有大量信息,在为行为识别带来足够可用信息的同时,也带来大量的冗余信息,从而降低系统运行的速度,使实际应用中延迟时间长,实时性差。3、复杂背景和复杂动作的识别精度低:对于复杂动作,当前大多数行为识别方法都是将视频序列输入深度神经网络进行特征提取,然而却忽略视频序列中不同帧的对动作类别的贡献程度,缺乏对关键信息的关注使得人体行为识别系统对复杂动作的识别精度降低。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提出了一种基于时间注意力机制和LSTM的人体行为识别方法,识别准确率较高及普适性较强,旨在构建基于RGB单目视觉传感器的深度神经网络模型从而提高在基于视觉的行为识别系统的普适性;从RGB视频流中提取2D骨架关节点,提出一种基于骨骼关节点的结构特征提取方法,通过减少视频冗余信息来提高行为识别系统的处理速度从而提高实时性;提出一种结合时间注意力机制的LSTM(长短期记忆网络)模型,从而提高行为识别的准确率。为实现上述目的,本专利技术所提供的技术方案为:基于时间注意力机制和LSTM的人体行为识别方法,包括以下步骤:1)获取RGB单目视觉传感器的视频数据;2)提取2D骨架关节点数据;3)提取关节点联合结构特征;4)构建LSTM长短期记忆网络;5)在LSTM网络中加入时间注意力机制;6)利用softmax分类器进行人体行为识别。在步骤1)中,获取RGB单目视觉传感器的视频数据,包括以下步骤:1.1)将RGB单目视觉传感器安装于监控区域,实时获取数据;1.2)将服务器连接到前端编解码器,通过流媒体协议下载实时视频数据;1.3)采用iSCSI的IP连接模式,将获取的视频传输到服务器的存储设备进行存储;1.4)对采集的视频数据进行预处理,并将数据送到关节点提取模块进行处理。在步骤2)中,提取2D骨架关节点数据,包括以下步骤:2.1)将视频根据每10秒的时长进行分段处理;2.2)输入图像之后,将图像尺寸长宽指定为368*368;2.3)调用OpenPose框架,将指定尺寸的图片输入CNN网络提取partconfidencemaps和partaffinityfields;2.4)建立一个列表,用于存储从图片中检测到的18个关节点;2.5)采用偶匹配求出partassociation,将关节点连接起来形成人体关节的整体骨架。在步骤3)中,提取关节点联合结构特征,包括以下步骤:3.1)定义所获取的2维骨架关节点坐标为:pi(x,y)3.2)定义所提取的二维骨架关节点集合为向量J,J表示如下:J={p1,p2,...,p18}3.3)将两个关节点之间骨骼向量进行归一化处理,归一化向量计算如下:其中,pi和pj表示相邻的两个关节点,||pi-pj||为两点之间的欧氏距离,计算如下:3.4)计算骨骼向量特征,即将相邻关节点连接而成骨骼向量,分别选择上肢四组和下肢四组作为本实施方式的骨骼向量,根据关节点定义规则,骨骼向量特征集合S定义为:S={B2,3,B3,4,B5,6,B6,7,B8,9,B9,10,B11,12,B12,13}3.5)计算骨骼角度特征,采用左腕、左肩与分别左臀部的夹角,右腕、右肩与右臀部的夹角作为骨骼空间夹角,定义关节点pi和pj为三维空间中在XY平面投影所在的夹角θ为:骨骼角度特征集合θ定义为:θ=(θ4,8,θ2,8,θ5,11,θ7,11)3.6)计算骨骼长度特征,选择骨骼长度作为偏置来描述人体骨架的整体性差异,采用脊柱向量,即左臀部、右臀部两个节点和颈部节点之间的距离作为骨骼长度特征,骨骼长度特征D集合定义为:D=D1,8+D1,11其中,设关节点i与关节点j相连;Dij=||pi-pj||3.7)计算骨架关节点联合结构特征,将骨骼向量特征、骨骼角度特征和骨骼长度特征进行线性拼接,形成骨架关节点的联合结构特征,表示为:Feature={S,θ,D}。在步骤4)中,构建LSTM长短期记忆网络,具体如下:隐藏层单元内部结构中,最上面的隐藏单元的状态水平线将隐藏单元状态从上一个时刻传送到下一个时刻,只包含少数的线性变换操作;LSTM包括三个“门”结构,输入门it,忘记门ft和输出门ot;每个门都有sigmoid函数和按位乘操作,使得隐藏单元尽可能只记住有用的信息,丢弃无用的信息;对LSTM隐藏单元内部进行计算,忘记门中,Wf表示输入向量的忘记权重,bf表示忘记偏置,忘记门计算如下:ft=σ(Wf·[ht-1,xt]+bf)输入门中,Wi表示输入向量的更新权重,bi表示更新偏置,输入门计算如下:it=σ(Wi·[ht-1,xt]+bi)C为隐藏单元的状态,隐藏单元计算如下:Ct=ft*Ct-1+it*tanh(WC·[ht-1,xt]+bC)输出门中,Wo为输入向量的输出权重,bo为输出偏置,输出门计算如下:ot=σ(Wo·[ht-1,xt]+bo)最后计算输出层h:ht=ot*tanh(Ct)其中,x为输入层,h为输出层,ht-1为t-1时刻的输出单元,xt-1为t-1时刻的输入单元。在步骤5)中,在LSTM网络中加入时间注意力机制,包括以下步骤:5.1)输入上下文信息c,和当前数据的某个部分的表示yi;5.2)使用tanh层计算m1,m2,...,mn,将yi和c进行聚合,设c的权重为Wcm,yi的权重为Wym,则mi计算如下:mi=tanh(Wcmc+Wymyi)5.3)通过softmax函数计算聚合后的每一个权重:其中,si是mi投射到学习方向上的softmax值,所以softmax认为是依据上下文c得到的最相关值;5.4)计算所有yi的加权平均值作为输出值z,权重表示每个变量跟上下文c的相关性,z计算如下:z=∑isiyi。在步骤6)中,利用softmax回归模型分类器进行分类,包括以下步骤:6.1)构建训练数据集,使用BerkeleyMHAD和UTD-MHAD多模态人体行为识别公开数据集;6.2)在基于时间注意力机制的LSTM模型的最后一层添加一个softmax分类器,把LSTM最后一层的输出作为分类器的输入,通过训练分类器得到最终的分类模型;6.3)使用从RGB视频中提取的2D关节点的联合结构特征作为输入本文档来自技高网...

【技术保护点】
1.基于时间注意力机制和LSTM的人体行为识别方法,其特征在于,包括以下步骤:1)获取RGB单目视觉传感器的视频数据;2)提取2D骨架关节点数据;3)提取关节点联合结构特征;4)构建LSTM长短期记忆网络;5)在LSTM网络中加入时间注意力机制;6)利用softmax分类器进行人体行为识别。

【技术特征摘要】
1.基于时间注意力机制和LSTM的人体行为识别方法,其特征在于,包括以下步骤:1)获取RGB单目视觉传感器的视频数据;2)提取2D骨架关节点数据;3)提取关节点联合结构特征;4)构建LSTM长短期记忆网络;5)在LSTM网络中加入时间注意力机制;6)利用softmax分类器进行人体行为识别。2.根据权利要求1所述的基于时间注意力机制和LSTM的人体行为识别方法,其特征在于,在步骤1)中,获取RGB单目视觉传感器的视频数据,包括以下步骤:1.1)将RGB单目视觉传感器安装于监控区域,实时获取数据;1.2)将服务器连接到前端编解码器,通过流媒体协议下载实时视频数据;1.3)采用iSCSI的IP连接模式,将获取的视频传输到服务器的存储设备进行存储;1.4)对采集的视频数据进行预处理,并将数据送到关节点提取模块进行处理。3.根据权利要求1所述的基于时间注意力机制和LSTM的人体行为识别方法,其特征在于,在步骤2)中,提取2D骨架关节点数据,包括以下步骤:2.1)将视频根据每10秒的时长进行分段处理;2.2)输入图像之后,将图像尺寸长宽指定为368*368;2.3)调用OpenPose框架,将指定尺寸的图片输入CNN网络提取partconfidencemaps和partaffinityfields;2.4)建立一个列表,用于存储从图片中检测到的18个关节点;2.5)采用偶匹配求出partassociation,将关节点连接起来形成人体关节的整体骨架。4.根据权利要求1所述的基于时间注意力机制和LSTM的人体行为识别方法,其特征在于,在步骤3)中,提取关节点联合结构特征,包括以下步骤:3.1)定义所获取的2维骨架关节点坐标为:pi(x,y)3.2)定义所提取的二维骨架关节点集合为向量J,J表示如下:J={p1,p2,...,p18}3.3)将两个关节点之间骨骼向量进行归一化处理,归一化向量计算如下:其中,pi和pj表示相邻的两个关节点,||pi-pj||为两点之间的欧氏距离,计算如下:3.4)计算骨骼向量特征,即将相邻关节点连接而成骨骼向量,分别选择上肢四组和下肢四组作为本实施方式的骨骼向量,根据关节点定义规则,骨骼向量特征集合S定义为:S={B2,3,B3,4,B5,6,B6,7,B8,9,B9,10,B11,12,B12,13}3.5)计算骨骼角度特征,采用左腕、左肩与分别左臀部的夹角,右腕、右肩与右臀部的夹角作为骨骼空间夹角,定义关节点pi和pj为三维空间中在XY平面投影所在的夹角θ为:骨骼角度特征集合θ定义为:θ=(θ4,8,θ2,8,θ5,11,θ7,11)3.6)计算骨骼长度特征,选择骨骼长度作为偏置来描述人体骨架的整体性差异,采用脊柱向量,即左臀部、右臀部两个节点和颈部节点之间的距离作为骨骼长度特征,骨骼长度特征D集合定义为:D=D1,8+D1,11其中,设关...

【专利技术属性】
技术研发人员:毕盛谢澈澈董敏李永发
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1