当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于LSTM网络的多标签视频事件检测方法技术

技术编号:17516657 阅读:1339 留言:0更新日期:2018-03-21 01:14
一种基于LSTM网络的多标签视频事件检测方法:将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型,包括:获取每一个视频图像序列对应所有标签集的概率分布和通过所得概率分布更新网络,得到基于LSTM网络的模型;对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。本发明专利技术通过本发明专利技术的方法生成监控视频的多个事件报告,回避了对象监测和跟踪过程;针对监控视频的处理基于长短期记忆网络设计了全新的网络结构;大幅提高了监控视频处理的效率和鲁棒性,改善了传统方法针对同时发生的多个事件识别效果差的问题。

A multi label video event detection method based on LSTM network

A method for detecting multi label video events based on LSTM network: all the video image sequence Concurrent Event Dataset database to generate a LSTM network model, which is based on the corresponding probability distribution of all tag sets and through the probability distribution network update each video image sequence acquisition, LSTM network based on the model for detecting video; used to obtain the probability distribution corresponding tag set model based on LSTM network. The present invention through multiple events in the method of the invention generates video report, avoid object monitoring and tracking process; processing in surveillance video long short term memory network based on the design of the network structure is new; greatly improve the monitoring video processing efficiency and robustness, improved the traditional method for multiple event recognition effect and at the same time the problem of poor.

【技术实现步骤摘要】
一种基于LSTM网络的多标签视频事件检测方法
本专利技术涉及一种视频事件检测方法。特别是涉及一种基于LSTM网络的多标签视频事件检测方法。
技术介绍
监控录像的目的是监控录像中发生的人类行为、活动或其他视觉事件。现在,在军事、公共安全、商业和法律等领域的应用越来越多。这个领域的发展,是随着廉价计算能力的增加,数码相机的普及,以及图像传感器的普及而崛起。此外,人工监测和监测系统的效率低下(如参考文献[1])也是一个因素。我们都知道,人类不可能不断地处理大量的数据。由于这个原因,错误通常会发生。此外,人工观察输出的资源非常昂贵。因此,如何得知视频中的内容信息已经是一个引起广泛关注的问题。目前已经提出了多种方法来检测视频事件。首先,无标记的基于视觉的人体运动分析有可能提供一个廉价的、不引人注目的方法来估计人体的姿势。因此,它广泛应用于运动分析。Fujiyoshi等(如参考文献[2])提出了“恒星”骨架化过程来分析目标运动。其次,行动或集体活动识别可以在视频中告诉我们动作或群组事件的存在。提出了一种基于早期局部时空特征的浅高维编码的视频动作识别方法。在稀疏时空的兴趣点可以用局部时空来描述特征,包括梯度向量的直方图(HOG)和光流直方图(HOF)。这些特性随后被编码成特征包(BoF)描述子(如参考文献[3]),然后使用支持向量机进行分类任务。此外,近期组活动识别方面也有着大量的相关工作。绝大部分之前的工作都是使用人工设计的特征来表述时空中的个体(如参考文献[4])。Lan等(如参考文献[5])提出代表了从较低的人级信息到较高的群体层次的交互层次关系的自适应潜在结构学习。最近,多任务学习方法已应用于人类群体活动识别。其中,Liu等(如参考文献[6])提出了一种层次聚类多任务学习对人类行为进行分组和识别。再次,视频摘要是用于视觉理解和显示的另一种方法。有几个方法可以从一个长视频中生成视频摘要。一种代表性方法是对一个物体和活动出现在不同时间段的视频生成概要。Pritch等(如参考文献[7])还提出了一种新的方法,可以根据类似的事件活动簇生成短而连贯的视频梗概。另一种方法产生基于文本的摘要。Chu等人(如参考文献[8])提出了一个多媒体分析框架同时处理视频和文本,通过场景图共同构建实体之间的关系来理解事件(如参考文献[9])。目前的大多数方法都需要处理多项具有挑战性的视觉分析任务。Lee对于视频背景去除提出了一个有效的高斯混合学习方法。Dai等提出了一种鲁棒的R-FCN对象检测网络。上述任务的进展提高视频报告的性能。虽然现有的方法已经在处理某些方面的问题上展现出了有效性,针对于自动理解监控视频的处理仍有着诸多的挑战和局限性。主要的挑战来自以下两个方面:数据的复杂性和处理方法的问题。针对于数据本身而言,主要的挑战在于分辨率低、数据量大、事件集和情景复杂、数据来源闭塞。对于方法而言,主要有以下的限制:1)很多方法依赖于前景背景分割技术,然而这一技术会造成错误累加。2)很多方法依赖于检测和跟踪,然而对于不同的视频和移动的对象,检测和跟踪的鲁棒性较低。这些缺点降低了时间分析的效率。3)当数据量增大时,计算量会大幅提升。4)真实生活中的事件检测大多数是多标签的问题。尤其是在于监控视频之中,多个事件会同时发生。然而,动作识别和组识别都是基于单一标签的事件检测方法。因此这两种识别方法会丢失同时发生的时间。LSTM网络的成功之处在于其独特的结构。它可以针对多帧信息进行编码,并且生成一系列连续的动作/活动。更进一步的是,LSTM网络模型可以处理输入和输出长度不同的问题。这些优势与监控视频的处理良好地切合(输入是视频,而输出是一系列事件)。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够大幅提高监控视频处理的效率和鲁棒性的基于LSTM网络的多标签视频事件检测方法。本专利技术所采用的技术方案是:一种基于LSTM网络的多标签视频事件检测方法,包括如下步骤:1)将ConcurrentEventDataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型,包括:(1)获取每一个视频图像序列对应所有标签集的概率分布;(2)通过所得概率分布更新网络,得到基于LSTM网络的模型;2)对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。步骤1)中第(1)步包括:(1.1)对于给定的一个视频图像序列x={x1,x2,…,xt,…,xn}及所对应的标签集y={y1,y2,…,yj,…,ym},在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出图像序列x对应的fc7层作为视频图像特征,其中,x1,x2,…,xt,…,xn分别对应视频图像中第一帧、第二帧、…和第n帧图像;y1,y2,…,yj,…,ym是所述视频图像中发生的关键事件;(1.2)将所提取的视频图像特征输入到第一个LSTM网络系统中,对于输入的第t帧图像xt,分别计算以下的变量:ft=σ(Wxfxt+Whfht-1+bf)it=σ(Wxixt+Whiht-1+bi)gt=tanh(Wxgxt+Whght-1+bg)ct=ft⊙ct-1+it⊙gtot=σ(Wofxt+Whoht-1+bo)ht=ot⊙tanh(ct)其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;Wxf表示输入与遗忘门输出间的门的权值矩阵,Whf表示隐藏状态值与遗忘门输出间的门的权值矩阵,Wxi表示输入门输出与遗忘门输出间的门的权值矩阵,Whi表示隐藏状态值与输入门输出间的门的权值矩阵,Wxg表示输入与计算新的ct的候选值间的门的权值矩阵,Whg表示隐藏状态值与计算新的ct的候选值间的门的权值矩阵,Wof表示输出门输出与遗忘门输出间的门的权值矩阵,Who表示隐藏状态值与输出门输出间的门的权值矩阵,bf来表示遗忘门输出的隐藏状态,bi来表示输入门输出隐藏状态,bg来表示计算新的ct的候选值的隐藏状态,bo来表示输出门输出的隐藏状态,ft表示遗忘门输出,it表示输入门输出,ot表示输出门的输出。ct是细胞元状态值,ht是隐藏状态值,gt是计算新的ct的候选值;(1.3)将第(1.2)步得到的视频图像序列x中的所有隐藏状态值ht,t=1,2,…,n,输入到第二个LSTM网络系统中,分别计算以下的变量:f1t=σ(W1xfzt+W1zfzt-1+b1f)i1t=σ(W1xiht+W1zizt-1+b1i)g1t=tanh(W1xght+W1zgzt-1+b1g)c1t=f1t⊙c1(t-1)+i1t⊙g1to1t=σ(W1ofht+W1zozt-1+b1o)zt=o1t⊙tanh(c1t)其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;W1xf表示输入与遗忘门输出间的门的权值矩阵,W1zf表示输出值与遗忘门输出间的门的权值矩阵,W1xi表示输入门输出与遗忘门输出间的门的权值矩阵,W1zi表示输出值与输入门输出间的门的权值矩阵,W1xg表示输入与计算新的c1t的候选值间的门的权值矩阵,W1zg表示输出值与计算新的c1t的候选值间的门的权值矩阵,W1of表示输出门输出与遗忘门输出间的门的权值矩阵,W1zo表示输出值本文档来自技高网
...
一种基于LSTM网络的多标签视频事件检测方法

【技术保护点】
一种基于LSTM网络的多标签视频事件检测方法,其特征在于,包括如下步骤:1)将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型,包括:(1)获取每一个视频图像序列对应所有标签集的概率分布;(2)通过所得概率分布更新网络,得到基于LSTM网络的模型;2)对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。

【技术特征摘要】
1.一种基于LSTM网络的多标签视频事件检测方法,其特征在于,包括如下步骤:1)将ConcurrentEventDataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型,包括:(1)获取每一个视频图像序列对应所有标签集的概率分布;(2)通过所得概率分布更新网络,得到基于LSTM网络的模型;2)对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。2.根据权利要求1所述的一种基于LSTM的多标签视频事件检测方法,其特征在于,步骤1)中第(1)步包括:(1.1)对于给定的一个视频图像序列x={x1,x2,…,xt,…,xn}及所对应的标签集y={y1,y2,…,yj,…,ym},在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出图像序列x对应的fc7层作为视频图像特征,其中,x1,x2,…,xt,…,xn分别对应视频图像中第一帧、第二帧、…和第n帧图像;y1,y2,…,yj,…,ym是所述视频图像中发生的关键事件;(1.2)将所提取的视频图像特征输入到第一个LSTM网络系统中,对于输入的第t帧图像xt,分别计算以下的变量:ft=σ(Wxfxt+Whfht-1+bf)it=σ(Wxixt+Whiht-1+bi)gt=tanh(Wxgxt+Whght-1+bg)ct=ft⊙ct-1+it⊙gtot=σ(Wofxt+Whoht-1+bo)ht=ot⊙tanh(ct)其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;Wxf表示输入与遗忘门输出间的门的权值矩阵,Whf表示隐藏状态值与遗忘门输出间的门的权值矩阵,Wxi表示输入门输出与遗忘门输出间的门的权值矩阵,Whi表示隐藏状态值与输入门输出间的门的权值矩阵,Wxg表示输入与计算新的ct的候选值间的门的权值矩阵,Whg表示隐藏状态值与计算新的ct的候选值间的门的权值矩阵,Wof表示输出门输出与遗忘门输出间的门的权值矩阵,Who表示隐藏状态值与输出门输出间的门的权值矩阵,bf来表示遗忘门输出的隐藏状态,bi来表示输入门输出隐藏状态,bg来表示计算新的ct的候选值的隐藏状态,bo来表示输出门输出的隐藏状态,ft表示遗忘门输出,it表示输入门输出,ot表示输出门的输出。ct是细胞元状态值,ht是隐藏状态值,gt是计算新的ct的候选值;(1.3)将第(1.2)步得到的视频图像序列x中的所有隐藏状态值ht,t=1,2,…,n,输入到第二个LSTM网络系统中,分别计算以下的变量:f1t=σ(W1xfzt+W1zfzt-1+b1f)i1t=σ(W1xiht+W1zizt-1+b1i)g1t=tanh(W1xght+W1zgzt-1+big)c1t=f1t⊙c1(t-1)+i1t⊙g1tO1t=σ(W1ofht+W1zozt-1+b1o)zt=o1t⊙tanh(c1t)其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;W1xf表示输入与遗忘门输出间的门的权值矩阵,W1zf表示输出值与遗忘门输出间的门的权值矩阵,W1xi表示输入门输出与遗忘门输出间的门的权值矩阵,W1zi表示输出值与输入门输出间的门的权值矩阵,W1xg表示输入与计算新的c1t的候选值间的门的权值矩阵,W1zg表示输出值与计算新的c1t的候选值间的门的权值矩阵,W1of表示输出门输出与遗忘门输出间的门的权值矩阵,W1zo表示输出值与输出门输出间的门的权值矩阵,b1f来表示遗忘门输出的隐藏状态,b1i来表示输入门输出隐藏状态,b1g来表示计算新的c1t的候选值的隐藏状态,b1o来表示输出门输出的隐藏状态,f1t表示遗忘门输出,i1t表示输入门输出,o1t表示输出门的输出。c1t是细胞元状态值,zt是输出值,g1t是计算新的c1t的候选值;(1.4)通过如下公式计算每一个视频图像序列对应所有标签集的概率分布:其中,p...

【专利技术属性】
技术研发人员:苏育挺刘瑶瑶刘安安
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1