The invention discloses a video event recognition method based on deep residual long-term and short-term memory network, which includes: 1) design of spatiotemporal feature data connection layer, forming spatiotemporal feature data connection unit DLSTM (double LSTM) after synchronous parsing of spatiotemporal feature data by long-term and short-term memory unit (LSTM), highlighting the consistency of spatiotemporal information; Dual unidirectional DLSTM (Dual Unidirectional DLSTM) dual unidirectional structure design broadens the width of the network and increases the range of feature selection; 3) RDU DLSTM (residual dual unidirectional DLSTM) residual module design to solve the deeper problem of network gradient disappearance; 4) 2C soft Max objective function design to expand class spacing. The distance between classes should also be reduced. The advantage of this method is to solve the problem of gradient disappearance by constructing a deep residual network architecture, and to improve the accuracy of video event recognition by using the consistent fusion of temporal and spatial network features.
【技术实现步骤摘要】
基于深度残差长短时记忆网络的视频事件识别方法
本专利技术涉及视频事件识别技术,尤其是一种基于深度残差长短时记忆网络的视频事件识别方法。
技术介绍
视频事件识别是指从视频中识别出事件的时空视觉模式。随着视频监控在现实生活中的广泛应用,监控视频事件识别受到了广泛关注,并取得了一系列的研究成果,然而监控视频的事件识别仍然面临着巨大的挑战和困难,比如自然场景下监控视频背景复杂、事件区域对象遮挡严重、摄像头视角变化等因素,导致事件类间距离小、类内距离大。现有技术中,为了解决监控视频事件识别困难的问题,传统的解决方案是采用基于视觉词袋模型的方法和基于运动轨迹的方法进行监控视频的事件识别,但是这种手工特征识别方法难以进一步提高识别精度;随着时代的发展,深度学习成为人工智能领域研究的热点,并开始应用于监控视频的事件检测、行为识别等领域,例如,用于行为识别的双流CNN网络,其中,时间CNN网络利用视频的静态帧信息,空间CNN网络利用视频的光流信息,但是以双流CNN网络为代表的方法仅仅利用了视频的短时动态特征,并无有效利用视频的长时动态特征,在监控视频的事件识别方面仍然存在一定缺陷, ...
【技术保护点】
1.一种基于深度残差长短时记忆网络的视频事件识别方法,其特征在于,包括:1)时空特征数据联接单元设计时空特征数据经LSTM同步解析后形成时空特征数据联接单元DLSTM;2)DU‑DLSTM双单向结构设计每个DLSTM单元包含了来自时间CNN网络(Convolutional Neural Network)和空间CNN网络的输入,两个单向传递的DLSTM联接后构成DU‑DLSTM单元;3)RDU‑DLSTM残差模块设计多个DU‑DLSTM层再加一个恒等映射形成残差模块;4)2C‑softmax目标函数设计双中心Loss分别维护空间特征中心和时间特征中心,空间特征中心和时间特征中 ...
【技术特征摘要】
1.一种基于深度残差长短时记忆网络的视频事件识别方法,其特征在于,包括:1)时空特征数据联接单元设计时空特征数据经LSTM同步解析后形成时空特征数据联接单元DLSTM;2)DU-DLSTM双单向结构设计每个DLSTM单元包含了来自时间CNN网络(ConvolutionalNeuralNetwork)和空间CNN网络的输入,两个单向传递的DLSTM联接后构成DU-DLSTM单元;3)RDU-DLSTM残差模块设计多个DU-DLSTM层再加一个恒等映射形成残差模块;4)2C-softmax目标函数设计双中心Loss分别维护空间特征中心和时间特征中心,空间特征中心和时间特征中心按一定权重系数融合形成质心,给softmax的Loss加入双中心Loss以及DLSTM单元的正则项,构成2C-softmax目标函数。2.根据权利要求1所述的一种基于深度残差长短时记忆网络的视频事件识别方法,其特征在于,所述步骤1)时空特征数据联接单元设计包括:(1)接收数据SLSTM(SpatialLSTM)接收来自空间CNN网络的特征hSL,TLSTM(TemporalLSTM)接收来自时间CNN网络的特征hTL;(2)激活函数转换SLSTM和TLSTM经ReLU激活函数d转换,分别得到:d(WShSL+bS)和d(WThTL+bT),其中WS和WT表示权重,bS和bT表示偏置项;(3)特征联接激活函数转换后的SLSTM和TLSTM再经联接操作c形成一个新的单元DLSTM,描述为:hDL=c(d(WShSL+bS),d(WThTL+bT))。3.根据...
【专利技术属性】
技术研发人员:龚声蓉,李永刚,刘纯平,季怡,曹李军,王朝晖,
申请(专利权)人:苏州大学,苏州科达科技股份有限公司,常熟理工学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。