In this invention, an action recognition method based on deep feature extraction asynchronous fusion network is proposed. Its main contents include coarse grained to fine-grained network, asynchronous fusion network, and deep feature extraction asynchronous fusion network. The process is to input each spatial frame of the video stream and each short light stream stack of the motion flow into the coarse to fine-grained network, integrate the depth features of multiple action classes, and create a more accurate feature representation, and then integrate the extracted features into the information flow characteristics of different time points. The asynchronous fusion network obtains an action class prediction result, and the final deep feature extracts the different action prediction results of the asynchronous fusion network, and determines the final action class label of the input video. The invention can extract and integrate deep features from multiple action class granularity to obtain more accurate action representation, and asynchronous fusion can make better use of complementary information in multiple information streams to improve the accuracy of action recognition.
【技术实现步骤摘要】
一种基于深特征提取异步融合网络的动作识别方法
本专利技术涉及计算机视觉分析领域,尤其是涉及了一种基于深特征提取异步融合网络的动作识别方法。
技术介绍
动作识别,旨在识别输入动作视频的动作类标签。由于它在许多应用中的重要性,动作识别已经引起了很多研究人员的关注,并成为计算机视觉分析领域的热点方向。动作识别技术可以满足智能视频监控、基于内容的视频分析等任务对自动分析以及智能化的需求,推动社会发展进步。动作识别技术可以应用在智能监护上,提高监护质量,节约大量人力资源;还可以运用在智能家居中,实时监测人体动作,对危险动作做出预计,避免意外造成的伤害;动作识别技术还可以协助监控社会治安,如对打架斗殴动作、偷窃动作等进行检测和识别,阻断社会恶性事件的进一步发展,对维护社会安全和降低犯罪率有着巨大的实用价值。然而由于视频场景的变化巨大以及与视频主题无关的嘈杂内容的干扰,卷积网络自动习得特征技术在动作识别上取得的进步相对较少;且大多数人关注的是如何学习特征以直接描述动作类的行为、如何引入更多的信息流或加强流之间的相关性,因此,现有的技术在区分动作类的模糊性方面有着局限性。本专利技术提出了一种基于深特征提取异步融合网络的动作识别方法,先将输入视频外观流的每个空间帧和运动流的每个短期光流堆栈输入到粗粒度到细粒度网络,集成多个动作类粒度的深度特征,并创建了一个更精确的特征表示,然后将提取出的特征输入集成不同时间点信息流特征的异步融合网络,获得一个动作类预测结果,最后深特征提取异步融合网络组合不同的动作预测结果,确定输入视频的最终动作类标签。本专利技术能从多个动作类粒度中提取并集 ...
【技术保护点】
1.一种基于深特征提取异步融合网络的动作识别方法,其特征在于,粗粒度到细粒度网络(一);异步融合网络(二);深特征提取异步融合网络(三)。
【技术特征摘要】
1.一种基于深特征提取异步融合网络的动作识别方法,其特征在于,粗粒度到细粒度网络(一);异步融合网络(二);深特征提取异步融合网络(三)。2.基于权利要求书1所述的粗粒度到细粒度网络(一),其特征在于,主要由特征提取模块、自适应类群形成模块和粗粒度到细粒度集成模块这三个模块组成;特征提取模块应用于一个卷积网络上,用于从不同的动作类粒度中提取深度特征;自适应类群形成模块用于保证特征提取模块中适当的特征提取;粗粒度到细粒度集成模块用于逐步集成从粗粒度到细粒度的特征,并为输入帧/光学流堆栈输出一个精确的特征。3.基于权利要求书2所述的特征提取模块,其特征在于,从VGG-16卷积网络的第3、4和5级的最后一个卷积层分别获取侧输出映射,分别切割这三个侧输出映射,并连接到三个特定标度的侧映射组,其中每个侧映射组对应一个动作类粒度,同时为了确保不同级的输出映射具有相同的大小,在映射连接之前,将超采样层应用于侧输出映射,最后,特定标度的侧映射组分别被输入到一个完全连接(FC)层,以获得三个动作类粒度的特征。4.基于权利要求书2所述的自适应类群形成模块,其特征在于,首先利用一个较小的卷积网络事先预测输入的动作类标签/光学流栈帧的动作类标签,然后分别使用第五、第三和第一个动作类预测结果形成三个动作类粒度的动作类组,然后通过交叉熵损失函数指导特征提取过程,这迫使特征提取模块尽可能生成能在多个粒度描述构造好的动作类组的共同特征:其中,W是为多粒度特征提取模块设立的参数,N是动作类的总数,Gk是构建的第k个动作类粒度组,αk是衡量第k个动作类粒度相对重要性的权重,是第k个动作类粒度特征预测到第n个动作类的概率,同时为了得到动作预测结果在训练阶段的多粒度特征提取模块的特征输出层中额外添加了两个完全连接层。5.基于权利要求书4所述的较小的卷积网络,其特征在于,这个卷积网络是在同一数据集上预先训练的,且为了创建稳定的动作类群,这个卷积网络在训练过程中是固定的;在形成动作类组时,如果一个输入帧/光流堆栈的标签不在这个卷积网络预测结果的前几级动作类组中,标签会被强制性地添加进去,避免网络给输入帧/光流堆栈生成无关的特征。6.基于权利要求书2所述的粗粒度到细粒度集成模块,其特征在于,使用一个三单元的长短时记忆模型(LSTM),其中每个单元都从一个动作类粒度中获取特征Xt,并创建隐藏的状态输出ht,以影响下一个单元,最后一个单元的隐藏状态输出将是输入帧/光学流堆栈的最终集成特征,整个过程可描述为:其中,Xt和ht(t=1,...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。