一种基于LSTM网络的多标签视频事件检测方法技术

技术编号：17516657 阅读：1339 留言：0更新日期：2018-03-21 01:14

一种基于LSTM网络的多标签视频事件检测方法：将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型，包括：获取每一个视频图像序列对应所有标签集的概率分布和通过所得概率分布更新网络，得到基于LSTM网络的模型；对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。本发明专利技术通过本发明专利技术的方法生成监控视频的多个事件报告，回避了对象监测和跟踪过程；针对监控视频的处理基于长短期记忆网络设计了全新的网络结构；大幅提高了监控视频处理的效率和鲁棒性，改善了传统方法针对同时发生的多个事件识别效果差的问题。

A multi label video event detection method based on LSTM network

A method for detecting multi label video events based on LSTM network: all the video image sequence Concurrent Event Dataset database to generate a LSTM network model, which is based on the corresponding probability distribution of all tag sets and through the probability distribution network update each video image sequence acquisition, LSTM network based on the model for detecting video; used to obtain the probability distribution corresponding tag set model based on LSTM network. The present invention through multiple events in the method of the invention generates video report, avoid object monitoring and tracking process; processing in surveillance video long short term memory network based on the design of the network structure is new; greatly improve the monitoring video processing efficiency and robustness, improved the traditional method for multiple event recognition effect and at the same time the problem of poor.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LSTM网络的多标签视频事件检测方法
本专利技术涉及一种视频事件检测方法。特别是涉及一种基于LSTM网络的多标签视频事件检测方法。
技术介绍
监控录像的目的是监控录像中发生的人类行为、活动或其他视觉事件。现在，在军事、公共安全、商业和法律等领域的应用越来越多。这个领域的发展，是随着廉价计算能力的增加，数码相机的普及，以及图像传感器的普及而崛起。此外，人工监测和监测系统的效率低下(如参考文献[1])也是一个因素。我们都知道，人类不可能不断地处理大量的数据。由于这个原因，错误通常会发生。此外，人工观察输出的资源非常昂贵。因此，如何得知视频中的内容信息已经是一个引起广泛关注的问题。目前已经提出了多种方法来检测视频事件。首先，无标记的基于视觉的人体运动分析有可能提供一个廉价的、不引人注目的方法来估计人体的姿势。因此,它广泛应用于运动分析。Fujiyoshi等(如参考文献[2])提出了“恒星”骨架化过程来分析目标运动。其次，行动或集体活动识别可以在视频中告诉我们动作或群组事件的存在。提出了一种基于早期局部时空特征的浅高维编码的视频动作识别方法。在稀疏时空的兴趣点可以用局部时空来描述特征，包括梯度向量的直方图(HOG)和光流直方图(HOF)。这些特性随后被编码成特征包(BoF)描述子(如参考文献[3])，然后使用支持向量机进行分类任务。此外，近期组活动识别方面也有着大量的相关工作。绝大部分之前的工作都是使用人工设计的特征来表述时空中的个体(如参考文献[4])。Lan等(如参考文献[5])提出代表了从较低的人级信息到较高的群体层次的交互层次关系的自适应潜在结构学...
一种基于LSTM网络的多标签视频事件检测方法

【技术保护点】
一种基于LSTM网络的多标签视频事件检测方法，其特征在于，包括如下步骤：1)将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型，包括：(1)获取每一个视频图像序列对应所有标签集的概率分布；(2)通过所得概率分布更新网络，得到基于LSTM网络的模型；2)对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。

【技术特征摘要】
1.一种基于LSTM网络的多标签视频事件检测方法，其特征在于，包括如下步骤：1)将ConcurrentEventDataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型，包括：(1)获取每一个视频图像序列对应所有标签集的概率分布；(2)通过所得概率分布更新网络，得到基于LSTM网络的模型；2)对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。2.根据权利要求1所述的一种基于LSTM的多标签视频事件检测方法，其特征在于，步骤1)中第(1)步包括：(1.1)对于给定的一个视频图像序列x＝{x1，x2，…，xt，…，xn}及所对应的标签集y＝{y1，y2，…，yj，…，ym}，在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出图像序列x对应的fc7层作为视频图像特征，其中，x1，x2，…，xt，…，xn分别对应视频图像中第一帧、第二帧、…和第n帧图像；y1，y2，…，yj，…，ym是所述视频图像中发生的关键事件；(1.2)将所提取的视频图像特征输入到第一个LSTM网络系统中，对于输入的第t帧图像xt，分别计算以下的变量：ft＝σ(Wxfxt+Whfht-1+bf)it＝σ(Wxixt+Whiht-1+bi)gt＝tanh(Wxgxt+Whght-1+bg)ct＝ft⊙ct-1+it⊙gtot＝σ(Wofxt+Whoht-1+bo)ht＝ot⊙tanh(ct)其中，σ是元素级别的逻辑sigmoid函数，tanh是双曲正切函数，⊙是元素对应项乘法；Wxf表示输入与遗忘门输出间的门的权值矩阵，Whf表示隐藏状态值与遗忘门输出间的门的权值矩阵，Wxi表示输入门输出与遗忘门输出间的门的权值矩阵，Whi表示隐藏状态值与输入门输出间的门的权值矩阵，Wxg表示输入与计算新的ct的候选值间的门的权值矩阵，Whg表示隐藏状态值与计算新的ct的候选值间的门的权值矩阵，Wof表示输出门输出与遗忘门输出间的门的权值矩阵，Who表示隐藏状态值与输出门输出间的门的权值矩阵，bf来表示遗忘门输出的隐藏状态，bi来表示输入门输出隐藏状态，bg来表示计算新的ct的候选值的隐藏状态，bo来表示输出门输出的隐藏状态，ft表示遗忘门输出，it表示输入门输出，ot表示输出门的输出。ct是细胞元状态值，ht是隐藏状态值，gt是计算新的ct的候选值；(1.3)将第(1.2)步得到的视频图像序列x中的所有隐藏状态值ht，t＝1，2，…，n，输入到第二个LSTM网络系统中，分别计算以下的变量：f1t＝σ(W1xfzt+W1zfzt-1+b1f)i1t＝σ(W1xiht+W1zizt-1+b1i)g1t＝tanh(W1xght+W1zgzt-1+big)c1t＝f1t⊙c1(t-1)+i1t⊙g1tO1t＝σ(W1ofht+W1zozt-1+b1o)zt＝o1t⊙tanh(c1t)其中，σ是元素级别的逻辑sigmoid函数，tanh是双曲正切函数，⊙是元素对应项乘法；W1xf表示输入与遗忘门输出间的门的权值矩阵，W1zf表示输出值与遗忘门输出间的门的权值矩阵，W1xi表示输入门输出与遗忘门输出间的门的权值矩阵，W1zi表示输出值与输入门输出间的门的权值矩阵，W1xg表示输入与计算新的c1t的候选值间的门的权值矩阵，W1zg表示输出值与计算新的c1t的候选值间的门的权值矩阵，W1of表示输出门输出与遗忘门输出间的门的权值矩阵，W1zo表示输出值与输出门输出间的门的权值矩阵，b1f来表示遗忘门输出的隐藏状态，b1i来表示输入门输出隐藏状态，b1g来表示计算新的c1t的候选值的隐藏状态，b1o来表示输出门输出的隐藏状态，f1t表示遗忘门输出，i1t表示输入门输出，o1t表示输出门的输出。c1t是细胞元状态值，zt是输出值，g1t是计算新的c1t的候选值；(1.4)通过如下公式计算每一个视频图像序列对应所有标签集的概率分布：其中，p...

【专利技术属性】
技术研发人员：苏育挺，刘瑶瑶，刘安安，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人