一种基于稀疏低秩编码的视频动作识别方法技术

技术编号:13927983 阅读:68 留言:0更新日期:2016-10-28 10:53
本发明专利技术涉及一种基于稀疏低秩编码的视频动作识别方法。本发明专利技术对给定的视频集合进行如下操作:1)对每个视频从空间和时间两个维度使用立方体检测和描述视频动作的兴趣点,并形成相应的局部时空特征;2)利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码表示,并用改进的平均池化技术获得全局时空特征向量作为视频的数据表示;3)对所有视频样本实施上述步骤获得相应的时空数据表示,并分为训练样本和测试样本,再利用支持向量机建立分类模型用于识别测试样本的视频动作。本发明专利技术能够从局部和全局角度利用视频兴趣点的时空特征有力刻画视频动作,并通过稀疏低秩编码获得更优的视频数据表示,提高了视频动作识别的准确率。

【技术实现步骤摘要】

本专利技术属于视频分析
,特别是基于稀疏低秩编码的视频动作识别方法
技术介绍
随着视频采集设备的日益丰富和城市安防监控需求的逐步增大,各类视频数据源源不断地产生,使得视频大数据的理解受到学术界和产业界研究人员的广泛关注,同时引起了国家高层的重视。不同于传统的文本和图像,视频往往呈现非结构化、规模大的特点且具有时序关联性,给理解和分析视频数据带来很大挑战。常见的视频数据应用包括目标定位与跟踪、目标识别、动作识别、事件检测等。其中,视频动作识别作为典型的视频理解问题,可用于地铁广场监控、交通流监管,同时为视频数据的高层语义分析奠定基础,例如视频事件一般由多个相互关联的视频动作组成,因而视频动作识别方法的研究有利于提高视频事件检测技术的发展。视频的数据表示是实现视频动作识别的关键,即对视频提取特征并将其表示为向量形式。最为直接的方法是提取视频帧的图像特征,如SIFT、SURF等,但是该方法未考虑视频帧之间的时间关系,不能反映兴趣点的时空变化。由此,研究人员提出许多时空兴趣点提取方法,比如立方体(Cuboid)算子,分别从时间和空间两个维度提取给定视频的兴趣点,并用合适的描述子表征兴趣点。同时,对兴趣点表征向量的进一步优化是提升视频动作识别效果的重要途径,例如词袋(BoW)表示、稀疏表示、低秩表示、非负矩阵分解等等。然后,对优化后的兴趣点表示利用最大池化技术或平均池化技术获得视频的向量化特征表示。最后,在视频样本集的新特征表示上建立分类模型,用于对未标记的视频样本进行动作识别。上述方法存在一些缺陷,例如词袋表示和非负矩阵分解均未充分考虑视频样本与字典间的重构关系、稀疏表示未考虑重构矩阵的低秩特性、低秩表示未考虑重构矩阵的稀疏特性,使得视频样本的特征表示不能很好地刻画动作的兴趣点。另外,最大池化技术仅考虑了占比最大兴趣点而忽略了其他重要兴趣点;平均池化技术由于利用了所有的兴趣点特征,使之不可避免地将一些噪声兴趣点特征用于计算视频的全局特征表示。总体而言,这些视频特征表示方法或多或少都存在无法克服的缺点,不利于视频样本分类器的建立,直接影响了视频动作的识别效果。因此,迫切需要设计一种能准确反映视频时空兴趣点结构的特征编码方法,同时考虑局部和全局信息,从而构建泛化能力更强的视频动作识别分类器,提高识别的精度。
技术实现思路
为了准确表征视频动作序列的时空结构,从局部和全局两个角度反映视频中兴趣点的时空信息,增强视频动作识别的效果,本专利技术提出了一种基于稀疏低秩编码的视频动作识别方法,该方法包括以下步骤:1、获取视频样本集合后,进行以下操作:1)对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点,并形成相应的局部时空特征。2)利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示。3)对所有的视频样本实施上述步骤后,可获得相应的时空数据表示,将其分为训练样本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视频动作。进一步,所述的步骤1)中的对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点,并形成相应的局部时空特征,具体是:1.1)对每个视频分别用二维高斯光滑核(Gaussian smoothing kernel)与一维高波滤波器(Gabor filter)从空间维度和时间维度生成n个兴趣点,并采用立方体描述子(Cuboid descriptor)表示这些局部时空兴趣点。1.2)单个视频的所有兴趣点表示组成的集合记为其中每个兴趣点表示Ii(i=1,2,…,n)为长度为80维的具有局部时空特性的列向量,这些列向量组成该视频对应的特征矩阵进一步,所述的步骤2)中的利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示,具体是:2.1)视频的特征矩阵X分解为两部分,一部分为从数据字典为字典的原子个数,80为字典原子的维度)重构获得的低秩矩阵另一部分为噪声矩阵并对低秩矩阵Z添加l1范式约束||Z||1,使得重构矩阵Z尽可能逼近视频中兴趣点的局部时空特性结构。2.2)数据字典A通过对视频的特征矩阵X运用k均值(k-means)聚类算法获得,即将视频的所有兴趣点表示聚为500个簇,而簇中心以列向量的形式组成数据字典A。2.3)根据视频的特征矩阵及其数据字典,计算最优稀疏低秩编码矩阵Z的目标函数为 m i n Z , E | | Z | | * + α | | Z | | 1 + λ | | E | | 2 , 1 , s . t . X = A Z + E , ]]>其中,常数α>0,λ>0,符号||·||*表示矩阵的核范数为矩阵的奇异值之和,符号||·||2,1表示矩阵的l2,1范数,即先求矩阵各列向量的l2范式再求其l1范式。2.4)为了减少求解核范数的时间复杂度,特将矩阵Z分解为两个矩阵,即和用Frobenius范数||·||F近似替换核范数,则计算效率更高的目标函数为 m i n Z , L , R , E | | Z - L R | | F 2 + α | | Z | | 1 + λ | | E | | 2 , 1 , s . t . X = A Z + E , ]]>这样,该目标函数中共有四个变量需要优化。2.5)利用变量交替迭代优化方法求解2.4)中目标函数的最优解,可得到视频的最优稀疏低秩编码表示Z*,其中变量交替迭代方法的本质特点在于每轮迭代中依次固定其他变量的同时仅优化一个变量。2.6)最优稀疏低秩编码表示Z*由500个维度为n的行向量组成,即{z1,z2,…,z500本文档来自技高网
...

【技术保护点】
一种基于稀疏低秩编码的视频动作识别方法,该方法的特征在于对给定的视频集合,进行如下操作:1)对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点,并形成相应的局部时空特征;2)利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示;3)对所有的视频样本实施上述步骤后,可获得相应的时空数据表示,将其分为训练样本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视频动作。

【技术特征摘要】
1.一种基于稀疏低秩编码的视频动作识别方法,该方法的特征在于对给定的视频集合,进行如下操作:1)对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点,并形成相应的局部时空特征;2)利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示;3)对所有的视频样本实施上述步骤后,可获得相应的时空数据表示,将其分为训练样本和测试样本,利用支持向量机建立分类模型用于识别测试样本的视频动作。2.如权利要求1所述的基于稀疏低秩编码的视频动作识别方法,其特征在于:所述的步骤1)中的对每个视频从空间和时间两个维度使用立方体算子检测和描述视频动作的兴趣点,并形成相应的局部时空特征,具体是:1.1)对每个视频分别用二维高斯光滑核与一维高波滤波器从空间维度和时间维度生成n个兴趣点,并采用立方体描述子表示这些局部时空兴趣点;1.2)单个视频的所有兴趣点表示组成的集合记为其中每个兴趣点表示Ii(i=1,2,…,n)为长度为80维的具有局部时空特性的列向量,这些列向量组成该视频对应的特征矩阵3.如权利要求1所述的基于稀疏低秩编码的视频动作识别方法,其特征在于:所述的步骤2)中的利用稀疏低秩矩阵分解对局部时空特征做编码,形成对应兴趣点的稀疏低秩编码表示,并采用改进的平均池化技术获得全局时空特征向量作为一个视频的数据表示,具体是:2.1)视频的特征矩阵X分解为两部分,一部分为从数据字典重构获得的低秩矩阵另一部分为噪声矩阵并对低秩矩阵Z添加l1范式约束||Z||1,使得重构矩阵Z尽可能逼近视频中兴趣点的局部时空特性结构;2.2)数据字典A通过对视频的特征矩阵X运用k均值聚类算法获得,即将视频的所有兴趣点表示聚为500个簇,而簇中心以列向量的形式组成数据字典A;2.3)根据视频的特征矩阵及其数据字典,计算最优稀疏低秩编码矩阵Z的目标函数为 m i n Z , E | | Z | | ...

【专利技术属性】
技术研发人员:李平彭勇计忠平徐向华
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1