当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于时空信息融合的视频人体行为识别方法技术

技术编号:20797602 阅读:37 留言:0更新日期:2019-04-06 11:13
本发明专利技术涉及人工智能领域,更具体的,涉及一种基于时空信息融合的视频人体行为识别方法。本发明专利技术基于密集光流场结合轨迹的时间显著值提取显著轨迹,并基于底层显著轨迹构造了一种新的中层特征——轨迹组,其在一定程度上刻画了时间维度上的运动信息,弥补了底层轨迹的缺陷,同时构造了轨迹组在时间维度上的前后、远近关系,丰富了轨迹组的时间关系。本发明专利技术基于稀疏采样提出了自适应分段采样策略,对视频采样的数目随视频时长而自适应变化,对任意时长的视频都能够提取到富有判别力的空间信息。

A Video Human Behavior Recognition Method Based on Spatio-temporal Information Fusion

The invention relates to the field of artificial intelligence, more specifically, to a video human behavior recognition method based on space-time information fusion. The invention extracts salient trajectories based on dense optical flow field and time salient value of trajectory, and constructs a new middle-level feature-trajectory group based on bottom salient trajectory. The trajectory group depicts motion information in time dimension to a certain extent, makes up for the defect of bottom trajectory, and constructs the forward-backward, far-near relationship in time dimension of trajectory group, thus enriching the time of trajectory group. The relationship between them. Based on sparse sampling, an adaptive subsection sampling strategy is proposed. The number of video samples varies adaptively with the length of video, and discriminatory spatial information can be extracted for any length of video.

【技术实现步骤摘要】
一种基于时空信息融合的视频人体行为识别方法
本专利技术涉及人工智能领域,更具体的,涉及一种基于时空信息融合的视频人体行为识别方法。
技术介绍
近年来,一些研究构建中层特征以表示运动相关的语义信息弥补全局和局部特征表示的缺陷。这类表示方式能够较为有效地挖掘行为动作的时空结构,含有丰富的动作语义信息和较强的判别力。但现有的方法大多从运动几何等方面考虑,采用较为复杂的建模方式构建中层特征,导致计算资源耗用过多。而在利用卷积神经网络提取视频中的空间信息时,当前常用的采样策略主要是稀疏采样策略,该策略将视频均匀分成K段,从每一段中随机选取一帧作为卷积网络的输入,最后将每一段的分类分数进行融合。这种采样方式对短视频和长视频都采用相同的K,在视频过长时可能导致丢失一些重要的帧信息,在视频过短时可能会使所采集的帧过多,造成冗余。
技术实现思路
本专利技术基于密集光流场结合轨迹的时间显著值提取显著轨迹,并基于底层显著轨迹构造了一种新的中层特征——轨迹组,其在一定程度上刻画了时间维度上的运动信息,弥补了底层轨迹的缺陷,同时构造了轨迹组在时间维度上的前后、远近关系,丰富了轨迹组的时间关系。本专利技术基于稀疏采本文档来自技高网...

【技术保护点】
1.一种基于时空信息融合的视频人体行为识别方法,其特征在于,包括以下步骤:步骤S1:对视频时间信息进行提取分类,将原始视频进行灰度空间尺度变换,提取显著轨迹;步骤S2:根据显著轨迹的持续时间进行聚类而构建视频中层特征TG;步骤S3:构造TG之间的时间关系;步骤S4:计算TG的特征描述符;步骤S5:采用Fisher编码方法对TG特征进行编码,结合TG以及时间关系作为时间信息视频表示;步骤S6:采用隐结构的支持向量机对视频进行分类;步骤S7:对视频空间信息进行提取分类,采用自适应分段采样策略从视频中进行稀疏采样;步骤S8:对采样所得到的视频帧利用卷积神经网络提取空间特征;步骤S9:根据提取到的特征...

【技术特征摘要】
1.一种基于时空信息融合的视频人体行为识别方法,其特征在于,包括以下步骤:步骤S1:对视频时间信息进行提取分类,将原始视频进行灰度空间尺度变换,提取显著轨迹;步骤S2:根据显著轨迹的持续时间进行聚类而构建视频中层特征TG;步骤S3:构造TG之间的时间关系;步骤S4:计算TG的特征描述符;步骤S5:采用Fisher编码方法对TG特征进行编码,结合TG以及时间关系作为时间信息视频表示;步骤S6:采用隐结构的支持向量机对视频进行分类;步骤S7:对视频空间信息进行提取分类,采用自适应分段采样策略从视频中进行稀疏采样;步骤S8:对采样所得到的视频帧利用卷积神经网络提取空间特征;步骤S9:根据提取到的特征进行行为视频分类;步骤S10:把根据视频时间信息得到的分类结果和根据视频空间信息得到的分类结果进行平均加权融合,得到最后的视频分类结果。2.根据权利要求1所述的一种基于时空信息融合的视频人体行为识别方法,其特征在于,步骤S1具体包括以下步骤:步骤S101:输入原始视频序列X;步骤S102:计算初始化视频轨迹长度L,采样步长STEP:步骤S103:对原始视频做灰度转换;步骤S104:对进行灰度转换后的视频起始帧进行密集采样得到轨迹集初始点;步骤S105:跟踪初始点在后续视频帧的位置,同时计算各个视频帧的时间显著值以及过滤阈值;步骤S106:将视频序列的轨迹记作表示以第j帧为起始帧,第i个点形成的长度为L的轨迹,将第j帧上每个特征点pj(xj,yj),通过中值滤波后的密集光流场f=(ut,vt)跟踪至第j+1帧:得到第j帧的位置pj,具体公式如下:其中,M为中值滤波核,是(xj,yj)四舍五入取整后的位置坐标;步骤S107:计算第j帧的所有采样点的时间显著值,设在第j帧中,点周围3×3像素块作为该点的中心块为其周围9×9像素块为第一周围块为16×16像素块为第二周围块为为中心块建立一个光流字典和分别为对应的同一光流图像上的两个周围块,点的中心块与周围块的运动差值作为的时间显著值,记作由以下公式计算获得:其中Ov(·)和Oh(·)分别是中心块和周围块的水平和垂直方向上的光流平均值,轨迹的时间显著值定义为该条轨迹上每个点的平均时间显著值:步骤S108:在第j帧的时间显著值的基础上计算平均时间显著值,第j帧的平均时间显著值Sf定义为:其中,H和W分别是帧的高度值和宽度值;为第j帧所有采样点的时间显著值总和;count是帧采样点的总个数;步骤S109:计算每一帧的过滤阈值Tf;步骤S110:初始化Tf为2Sf,若点的时间显著值小于Tf,则Tf设...

【专利技术属性】
技术研发人员:周小峰李奥衣杨沈金龙朱艺顾佳良
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1