一种基于深特征提取异步融合网络的动作识别方法技术

技术编号:18445595 阅读:29 留言:0更新日期:2018-07-14 10:39
本发明专利技术中提出的一种基于深特征提取异步融合网络的动作识别方法,其主要内容包括:粗粒度到细粒度网络、异步融合网络、深特征提取异步融合网络。其过程为,先将输入视频外观流的每个空间帧和运动流的每个短期光流堆栈输入到粗粒度到细粒度网络,集成多个动作类粒度的深度特征,并创建了一个更精确的特征表示,然后将提取出的特征输入集成不同时间点信息流特征的异步融合网络,获得一个动作类预测结果,最后深特征提取异步融合网络组合不同的动作预测结果,确定输入视频的最终动作类标签。本发明专利技术能从多个动作类粒度中提取并集成深层特征,获得更精确的动作表示,同时异步融合能更好地利用多个信息流中的互补信息,提高动作识别的准确度。

An action recognition method based on deep feature extraction asynchronous fusion network

In this invention, an action recognition method based on deep feature extraction asynchronous fusion network is proposed. Its main contents include coarse grained to fine-grained network, asynchronous fusion network, and deep feature extraction asynchronous fusion network. The process is to input each spatial frame of the video stream and each short light stream stack of the motion flow into the coarse to fine-grained network, integrate the depth features of multiple action classes, and create a more accurate feature representation, and then integrate the extracted features into the information flow characteristics of different time points. The asynchronous fusion network obtains an action class prediction result, and the final deep feature extracts the different action prediction results of the asynchronous fusion network, and determines the final action class label of the input video. The invention can extract and integrate deep features from multiple action class granularity to obtain more accurate action representation, and asynchronous fusion can make better use of complementary information in multiple information streams to improve the accuracy of action recognition.

【技术实现步骤摘要】
一种基于深特征提取异步融合网络的动作识别方法
本专利技术涉及计算机视觉分析领域,尤其是涉及了一种基于深特征提取异步融合网络的动作识别方法。
技术介绍
动作识别,旨在识别输入动作视频的动作类标签。由于它在许多应用中的重要性,动作识别已经引起了很多研究人员的关注,并成为计算机视觉分析领域的热点方向。动作识别技术可以满足智能视频监控、基于内容的视频分析等任务对自动分析以及智能化的需求,推动社会发展进步。动作识别技术可以应用在智能监护上,提高监护质量,节约大量人力资源;还可以运用在智能家居中,实时监测人体动作,对危险动作做出预计,避免意外造成的伤害;动作识别技术还可以协助监控社会治安,如对打架斗殴动作、偷窃动作等进行检测和识别,阻断社会恶性事件的进一步发展,对维护社会安全和降低犯罪率有着巨大的实用价值。然而由于视频场景的变化巨大以及与视频主题无关的嘈杂内容的干扰,卷积网络自动习得特征技术在动作识别上取得的进步相对较少;且大多数人关注的是如何学习特征以直接描述动作类的行为、如何引入更多的信息流或加强流之间的相关性,因此,现有的技术在区分动作类的模糊性方面有着局限性。本专利技术提出了一种基于深特征提取异步融合网络的动作识别方法,先将输入视频外观流的每个空间帧和运动流的每个短期光流堆栈输入到粗粒度到细粒度网络,集成多个动作类粒度的深度特征,并创建了一个更精确的特征表示,然后将提取出的特征输入集成不同时间点信息流特征的异步融合网络,获得一个动作类预测结果,最后深特征提取异步融合网络组合不同的动作预测结果,确定输入视频的最终动作类标签。本专利技术能从多个动作类粒度中提取并集成深层特征,获得更精确的动作表示,同时异步融合能更好地利用多个信息流中的互补信息,提高动作识别的准确度。
技术实现思路
针对区分动作类模糊性方面存在局限性的问题,本专利技术的目的在于提供一种基于深特征提取异步融合网络的动作识别方法,先将输入视频外观流的每个空间帧和运动流的每个短期光流堆栈输入到粗粒度到细粒度网络,集成多个动作类粒度的深度特征,并创建了一个更精确的特征表示,然后将提取出的特征输入集成不同时间点信息流特征的异步融合网络,获得一个动作类预测结果,最后深特征提取异步融合网络组合不同的动作预测结果,确定输入视频的最终动作类标签。为解决上述问题,本专利技术提供一种基于深特征提取异步融合网络的动作识别方法,其主要内容包括:(一)粗粒度到细粒度网络;(二)异步融合网络;(三)深特征提取异步融合网络;其中,所述的粗粒度到细粒度网络,主要由特征提取模块、自适应类群形成模块和粗粒度到细粒度集成模块这三个模块组成;特征提取模块应用于一个卷积网络上,用于从不同的动作类粒度中提取深度特征;自适应类群形成模块用于保证特征提取模块中适当的特征提取;粗粒度到细粒度集成模块用于逐步集成从粗粒度到细粒度的特征,并为输入帧/光学流堆栈输出一个精确的特征。进一步地,所述的特征提取模块,从VGG-16卷积网络的第3、4和5级的最后一个卷积层分别获取侧输出映射,分别切割这三个侧输出映射,并连接到三个特定标度的侧映射组,其中每个侧映射组对应一个动作类粒度,同时为了确保不同级的输出映射具有相同的大小,在映射连接之前,将超采样层应用于侧输出映射,最后,特定标度的侧映射组分别被输入到一个完全连接(FC)层,以获得三个动作类粒度的特征。进一步地,所述的自适应类群形成模块,首先利用一个较小的卷积网络事先预测输入的动作类标签/光学流栈帧的动作类标签,然后分别使用第五、第三和第一个动作类预测结果形成三个动作类粒度的动作类组,然后通过交叉熵损失函数指导特征提取过程,这迫使特征提取模块尽可能生成能在多个粒度描述构造好的动作类组的共同特征:其中,W是为多粒度特征提取模块设立的参数,N是动作类的总数,Gk是构建的第k个动作类粒度组,αk是衡量第k个动作类粒度相对重要性的权重,是第k个动作类粒度特征预测到第n个动作类的概率,同时为了得到动作预测结果在训练阶段的多粒度特征提取模块的特征输出层中额外添加了两个完全连接层。进一步地,所述的较小的卷积网络,是在同一数据集上预先训练,且为了创建稳定的动作类群,这个卷积网络在训练过程中是固定的;在形成动作类组时,如果一个输入帧/光流堆栈的标签不在这个卷积网络预测结果的前几级动作类组中,标签会被强制性地添加进去,避免网络给输入帧/光流堆栈生成无关的特征。进一步地,所述的粗粒度到细粒度集成模块,使用一个三单元的长短时记忆模型(LSTM),其中每个单元都从一个动作类粒度中获取特征Xt,并创建隐藏的状态输出ht,以影响下一个单元,最后一个单元的隐藏状态输出将是输入帧/光学流堆栈的最终集成特征,整个过程可描述为:其中,Xt和ht(t=1,2,3)是第t个LSTM单元的输入特征和隐藏状态输出,Φt={Mt,bt}是第t个单元的参数,是对第t个单元的动作,以创建隐藏状态输出;同样在训练阶段,可以利用以下的损失函数训练LSTM以获取期望的结果:其中,Φ1,Φ2,Φ3是LSTM的三个单元的参数,β是衡量LSTM的相对重要性的权重,ng是一个输入示例的参考动作类标签,N是动作类的总数,是第t个单元预测到参考动作类的概率;而为了得到动作预测概率训练阶段在每个LSTM单元的输出中额外增加一个完全连接层。其中,所述的异步融合网络,先使用沿着信息流方向的特征融合模块融合来自不同流的两个输入特征;然后使用异步集成模块集成不同时间点的输出特征,并为一个周期的输入创建动作类预测结果,整个异步融合网络可以用以下公式训练:其中,ng是一个输入示例的参考动作类标签,N是动作类的总数,T=5是LSTM的单元和单层卷积网络的总数,Φt和Kt分别是第t个LSTM单元和单层卷积网络的参数,ΨA={Φ1,..,ΦT,K1,..,KT}和γ分别是整个异步融合网络参数和权重,是第t个单元预测到参考动作类的概率。进一步地,所述的沿信息流方向的特征融合模块,用5个1层的卷积来融合沿着信息流方向的特征,将一个流中的输入特征与来自另一个流的5个输入特征融合在一起;融合的5个输入特征也有Δ(Δ=5)的时间间隔,这使模块能够捕获信息流之间较长期的异步模式。进一步地,所述的异步集成模块,利用了一个五单元的LSTM按顺序集成不同时间点的输出特征,并为一个周期的输入特征创建一个动作预测结果。其中,所述的深特征提取异步融合网络(三),将粗粒度到细粒度网络和异步融合网络集成为一个框架并通过以下公式表示:其中,和分别是第一和第二个信息流的参数和分别是粗粒度到细粒度网络和异步融合网络的损失函数,T=5是第一个流中的输入总数;由于第一个流中的五个粗粒度到细粒度网络是一样的权重,所以使用相同的参数集来计算每个输入的损失,t是1到5的整数;需要注意的是实际上需要构建两个独立的模型,其中一个模型将一个外观流输入与多个动作流输入融合在一起,另一个模型将一个动作流输入与多个外观流输入融合在一起,两个模型和不同时间段的动作预测结果被组合在一起来决定输入视频的最终标签,利用主流的双流方法来组合动作预测结果,将不同模型不同周期的动作预测结果结合在一起,并选择具有最大总体预测分数的动作类作为最终结果。附图说明图1是本专利技术一种基于深特征提取异步融合网络的动作识别方法的系统框架图本文档来自技高网
...

【技术保护点】
1.一种基于深特征提取异步融合网络的动作识别方法,其特征在于,粗粒度到细粒度网络(一);异步融合网络(二);深特征提取异步融合网络(三)。

【技术特征摘要】
1.一种基于深特征提取异步融合网络的动作识别方法,其特征在于,粗粒度到细粒度网络(一);异步融合网络(二);深特征提取异步融合网络(三)。2.基于权利要求书1所述的粗粒度到细粒度网络(一),其特征在于,主要由特征提取模块、自适应类群形成模块和粗粒度到细粒度集成模块这三个模块组成;特征提取模块应用于一个卷积网络上,用于从不同的动作类粒度中提取深度特征;自适应类群形成模块用于保证特征提取模块中适当的特征提取;粗粒度到细粒度集成模块用于逐步集成从粗粒度到细粒度的特征,并为输入帧/光学流堆栈输出一个精确的特征。3.基于权利要求书2所述的特征提取模块,其特征在于,从VGG-16卷积网络的第3、4和5级的最后一个卷积层分别获取侧输出映射,分别切割这三个侧输出映射,并连接到三个特定标度的侧映射组,其中每个侧映射组对应一个动作类粒度,同时为了确保不同级的输出映射具有相同的大小,在映射连接之前,将超采样层应用于侧输出映射,最后,特定标度的侧映射组分别被输入到一个完全连接(FC)层,以获得三个动作类粒度的特征。4.基于权利要求书2所述的自适应类群形成模块,其特征在于,首先利用一个较小的卷积网络事先预测输入的动作类标签/光学流栈帧的动作类标签,然后分别使用第五、第三和第一个动作类预测结果形成三个动作类粒度的动作类组,然后通过交叉熵损失函数指导特征提取过程,这迫使特征提取模块尽可能生成能在多个粒度描述构造好的动作类组的共同特征:其中,W是为多粒度特征提取模块设立的参数,N是动作类的总数,Gk是构建的第k个动作类粒度组,αk是衡量第k个动作类粒度相对重要性的权重,是第k个动作类粒度特征预测到第n个动作类的概率,同时为了得到动作预测结果在训练阶段的多粒度特征提取模块的特征输出层中额外添加了两个完全连接层。5.基于权利要求书4所述的较小的卷积网络,其特征在于,这个卷积网络是在同一数据集上预先训练的,且为了创建稳定的动作类群,这个卷积网络在训练过程中是固定的;在形成动作类组时,如果一个输入帧/光流堆栈的标签不在这个卷积网络预测结果的前几级动作类组中,标签会被强制性地添加进去,避免网络给输入帧/光流堆栈生成无关的特征。6.基于权利要求书2所述的粗粒度到细粒度集成模块,其特征在于,使用一个三单元的长短时记忆模型(LSTM),其中每个单元都从一个动作类粒度中获取特征Xt,并创建隐藏的状态输出ht,以影响下一个单元,最后一个单元的隐藏状态输出将是输入帧/光学流堆栈的最终集成特征,整个过程可描述为:其中,Xt和ht(t=1,...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1