【技术实现步骤摘要】
一种基于三维卷积的时空特征多层次融合的行为识别方法
[0001]本专利技术属于行为识别领域,具体涉及一种基于三维卷积的时空特征多层次融合的行为识别方法。
技术介绍
[0002]目前计算机视觉技术已经被广泛应用到我们的日常生活中,深度学习技术的发展也在逐渐解决了计算机视觉中的种种问题。计算机视觉作为一项跨学科的领域,研究如何从数字图像或者视频中获得高级的理解,使用计算机来代替人眼实现对目标物体的识别、追踪以及其他视觉问题,使得计算机在某些方面胜于人眼的图像处理能力。视频理解作为计算机视觉中的重要方向,其任务之一就是理解人类的行为,在视频中识别人类行为的任务被称为视频动作理解,比如常见的弹琴,骑车,打球等。从人眼对视频中的行为识别经验不难发现,决定一个视频中的行为类别主要由视频的空间特点和时间变化决定。当视频中出现明显的空间特点,比如弹琴行为中,视频中一定会有琴这一目标。如果根据单张视频帧进行识别,就会忽略该行为的连续性,行为识别任务退化成图像分类任务,虽然对于某些特殊行为,比如打球,图像分类任务也会有效。但是对于大部分行为而言 ...
【技术保护点】
【技术特征摘要】
1.一种基于三维卷积的时空特征多层次融合的行为识别方法,其特征在于,包括如下步骤:S1:采用包含多种动作类和多视频段的Kinetic400公开数据集作为实验数据集,从数据集中的各个视频片段等间隔的取出部分帧分别作为时空特征双流网络中时间特征提取网络和空间特征提取网络的输入;S2:构建基于时间和空间的双流网络,包括帧抽取模块、时间特征提取网络、空间特征提取网络和多层次特征融合模块;时间特征提取网络和空间特征提取网络的结构包括多阶段的卷积层,全局池化层以及全连接层和Softmax层,其中,全局池化层和全连接层构成分类器,Softmax层用来对识别结果的归一化;时间特征提取网络用于提取整段视频包含行为的多层次时间特征信息;空间特征提取网络用于提取整段视频包含行为的多层次空间特征信息,多层次特征融合模块用于进行多层次的时空特征融合,分类器用于对融合后的特征进行给出行为预测的结果;在时间特征提取网络和空间特征提取网络的后面阶段将提取到的不同层次的特征作为多层次特征融合模块的输入;S3:多层次特征融合模块针对不同层次的时间特征图和空间特征图进行采样操作,对特征图进行维度对齐,然后分别在时间和空间特征内部进行上下两方向上的特征融合,增强和丰富各个层次上的特征语义表达,接着将空间融合后的特征和时间融合后的特征进一步全融合,最终获得该视频下不同层次时空特征融合后的行为特征;将该特征输入到...
【专利技术属性】
技术研发人员:张清芳,韩枫,梁伟,杨璐瑶,邓鑫,刘征奇,郭竞,许鹏飞,
申请(专利权)人:西北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。