当前位置: 首页 > 专利查询>天津大学专利>正文

基于张量量化的动作识别方法技术

技术编号:14874437 阅读:119 留言:0更新日期:2017-03-23 22:04
一种基于张量量化的动作识别方法:将原始的视频序列表征为一个三阶视频序列张量A;对视频序列张量A进行Tucker‑2分解获得空域维度减少的核张量:将视频序列张量A,表示成一个低阶的核张量G,找到两个映射矩阵U(1)和U(2),将最初的视频序列张量A展开为用Tucker‑2分解的视频序列张量A,核张量G也就是所要求的新张量,最小化目标函数,求解出所要寻找的维度减少的核张量G和映射矩阵U(1)和U(2);应用张量量化技术将空域维度减少的核张量编码到统一的长度;动态学习以上的步骤更新结果直到算法收敛结果达到最优。本发明专利技术能够将视频序列处理为统一的长度,通过在张量分解的框架中适应性挑选出信息量最多的帧去构建出具有统一视频序列长度的新的视频序列。

【技术实现步骤摘要】

本专利技术涉及一种动作识别方法。特别是涉及一种基于张量量化技术的动作识别方法.
技术介绍
随着可以获得的视频数量的急剧增加,基于内容的视频分析已经在视频检索、动作识别、视频摘要等领域引起了极大的关注。与其他人体部位相比较,由于手势其手和手指具有很高的灵巧度,因此它是最有效的和通用的与外界交互的方式。作为人类动作语义分析中的重要组成部分,手势识别已经获得了广泛的应用。例如在医院就诊中一个手势识别系统可以使医生通过手势去操纵数字图像。手势识别的目的可以看做是对视频序列进行分类。在最近几年,出现了一些有关于手势识别的工作,但是对于现实的应用领域设计一个强有力的手势识别算法仍然是一个极具挑战性的问题,尤其是对于那些非常复杂的动作。为了去更好的解决这个问题,多重线性代数作为分析多维数据类型(张量)的一个强有力的工具已经应用到了手势识别问题当中。既然人体动作随时间的变化可以表示为一个视频帧序列,那么张量就可以很自然的将动作序列表征为一个三阶张量的形式。基于张量分解的技术,已经提出了许多的手势识别算法;他们都是通过将视频序列转化为张量的形式而不是传统的向量或者矩阵的形式去测量视频序列之间的相似度。将视频转换为向量或矩阵的形式不仅会造成视频中所包含的原始数据信息丢失,而且还会破坏视频帧与帧之间的相关性。同时原始视频序列中会伴有各种各样的噪声,传统的将其转换为向量或矩阵的方式并不能够去除冗余。因此本专利技术提出了用张量去建模视频序列,并且用张量分解技术对建模后的张量视频序列进行处理。两种非常值得注意的张量分解方式为CP分解和Tucker分解。这两种分解方式的主要不同点在于CP分解是将一个张量分解为许多的一秩张量之和的形式,Tucker是主成分分析的一种高阶的形式。然而在这些基于张量分解去对视频进行分类的方法中,存在一个基本的然而却被忽视的问题:所有的视频序列在时间维度上都需要有统一的视频序列长度。当前用一个确定时间轴长度去标准化视频序列的最普遍的方式是从视频序列中挑选中间的一些帧去建立一个新的视频序列,使这些视频序列的的长度统一。然而这种操作方式会导致以下的不足之处:1)新构建的视频序列不能够全面的表征手势;2)不能够依靠手势动作中速度的变化去自动的捕获视频序列中的关键帧。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够将视频序列处理为统一的长度-时空域迭代张量的基于张量量化的动作识别方法。本专利技术所采用的技术方案是:一种基于张量量化的动作识别方法,包括如下步骤:1)将原始的视频序列表征为一个三阶视频序列张量其中I1,I2和K分别表示为一个视频序列的宽度、高度和时间轴的长度;2)对视频序列张量A进行Tucker-2分解获得空域维度减少的核张量,包括:将视频序列张量表示成一个低阶的核张量J1<I1,J2<I2,找到两个映射矩阵和将最初的视频序列张量A展开为用Tucker-2分解的视频序列张量A=G×1U(1)×2U(2)+ε,G是核张量也就是所要求的新张量,ε是误差,最小化以下的目标函数,求解出所要寻找的维度减少的核张量G和映射矩阵U(1)和U(2):3)应用张量量化技术将空域维度减少的核张量编码到统一的长度;4)动态学习以上的步骤更新结果直到算法收敛结果达到最优。步骤2)具体包括:(1)输入最初的视频序列张量和新的视频序列核张量G在空域上的维度J1和J2,需满足J1<I1,J2<I2;(2)将视频序列张量Α按时间维度展开为时间切片的形式,计算出所有的时间切片的平均矩阵式中,K为视频序列张量的时间维度,也就是视频序列张量时间切片的个数,Ai表示第i个时间切片;(3)求解平均矩阵第一阶和第二阶的协方差矩阵C1和C2,求解方式如下:是转置矩阵;(4)将得到的两个协方差矩阵C1和C2进行特征值分解得到对应的映射矩阵U(1)和U(2):λ1,λ2是分解后所得到的特征值,LM'是固定的参数用来选择分解的最大维度,经过特征值分解得到的映射矩阵U(1)和U(2)分别包含了协方差矩阵的J1和J2维主要信息,去除了不重要的信息。(5)将视频序列张量A结合得到的映射矩阵U(1)和U(2)进行Tucker-2分解得到维数减少的核张量:式中,J1<I1,J2<I2。步骤3)包括:将任意长度K的核张量G都编码为一个统一的长度为的新的视频序列张量同时满足对于一个给定的核张量G产生一个大小为的码书;假设核张量G被分割为w个子张量其中i=1,2,…,w,式中gi是第i个子张量,l是码字的长度;在张量量化中一个码字用来表示一些相似的子张量,一个张量量化器Q就是一个从欧几里得空间的子张量到一个有限集的映射:H是一个含有长度为的码书叫做码字,与一个含有长度为的码字的张量量化器相联系,最初的空间被分割成长度为个子空间该式中为了得到最主要的子张量去建立码书,引入了两个限制条件:最近邻条件和重心条件,首先用一个随机的码书进行初始化,然后根据最近邻条件找到最佳的分割空间最后依据重心条件循环的更新码书,其中,最近邻条件对于一个给定的码书,最佳的分割应满足:该式中d(·)是欧几里得测度;重心条件对一个给定的分割区域其中最佳的重构码字意味着hi=Cent(Ci),式中Cent(·)定义为:除此之外,我们也引入了平均扭曲度去测量重构的码字的质量,平均扭曲度定义如下:步骤4)包括:动态的循环迭代步骤2)和步骤3)直到算法收敛,每循环迭代一次会更新一次映射矩阵U1、映射矩阵U2和新的视频序列张量经过动态的循环迭代过程,最终得到的新的视频序列张量是在空域上对最初的视频序列张量A进行了空间降维去噪处理获得的,在时域上进行降维后仍然可以体现最初的视频序列张量A的时序信息同时保留了新的视频序列张量在时域上的连续性;在得到新的视频序列张量后,采用积流行的方法对最初的视频序列张量A进行分类,是每一个张量在积流行中映射为一个点,计算每两个点的测地线距离来对最初的视频序列张量A进行分类。本专利技术的基于张量量化的动作识别方法,能够将视频序列处理为统一的长度,通过在张量分解的框架中适应性挑选出信息量最多的帧去构建出具有统一视频序列长度的新的视频序列。本专利技术的方法降低手势识别的难度,提高了手势识别的准确性,为后续的视频序列分类提供了良好的条件,提升视频序列分类的准确率。附图说明图1是本专利技术基于张量量化的动作识别方法的流程图。具体实施方式下面结合实施例和附图对本专利技术的基于张量量化的动作识别方法做出详细说明。如图1所示,本专利技术的基于张量量化的动作识别方法,包括如下步骤:1)将原始的视频序列表征为一个三阶视频序列张量其中I1,I2和K分别表示为一个视频序列的宽度、高度和时间轴的长度;相对于传统的将视频中的每一帧提取特征然后用这些特征去进行识别分类的方法相比,将一个视频序列整体构建为一个三阶张量的形式可以保留视频中的全部信息不造成信息的丢失,而且张量及张量分解技术当今已非常成熟,也为后续的算法设计奠定了良好的基础。2)对视频序列张量A进行Tucker-2分解获得空域维度减少的核张量,在对三阶视频序列张量A进行Tucker-2过程中我们要得到一个经过提炼的新张量,该张量在空域上的方差最大,同时在空域上对原始的视频序列张量进行了降维去噪处理消除了大部分的冗余信息。包括本文档来自技高网
...
基于张量量化的动作识别方法

【技术保护点】
一种基于张量量化的动作识别方法,其特征在于,包括如下步骤:1)将原始的视频序列表征为一个三阶视频序列张量其中I1,I2和K分别表示为一个视频序列的宽度、高度和时间轴的长度;2)对视频序列张量A进行Tucker‑2分解获得空域维度减少的核张量,包括:将视频序列张量表示成一个低阶的核张量J1<I1,J2<I2,找到两个映射矩阵和将最初的视频序列张量A展开为用Tucker‑2分解的视频序列张量A=G×1U(1)×2U(2)+ε,G是核张量也就是所要求的新张量,ε是误差,最小化以下的目标函数,求解出所要寻找的维度减少的核张量G和映射矩阵U(1)和U(2):minG,U(1),U(2)||A-G×1U(1)×2U(2)||2s.t.U(1)TU(1)=I,U(2)TU(2)=I---(1);]]>3)应用张量量化技术将空域维度减少的核张量编码到统一的长度;4)动态学习以上的步骤更新结果直到算法收敛结果达到最优。

【技术特征摘要】
1.一种基于张量量化的动作识别方法,其特征在于,包括如下步骤:1)将原始的视频序列表征为一个三阶视频序列张量其中I1,I2和K分别表示为一个视频序列的宽度、高度和时间轴的长度;2)对视频序列张量A进行Tucker-2分解获得空域维度减少的核张量,包括:将视频序列张量表示成一个低阶的核张量J1<I1,J2<I2,找到两个映射矩阵和将最初的视频序列张量A展开为用Tucker-2分解的视频序列张量A=G×1U(1)×2U(2)+ε,G是核张量也就是所要求的新张量,ε是误差,最小化以下的目标函数,求解出所要寻找的维度减少的核张量G和映射矩阵U(1)和U(2):minG,U(1),U(2)||A-G×1U(1)×2U(2)||2s.t.U(1)TU(1)=I,U(2)TU(2)=I---(1);]]>3)应用张量量化技术将空域维度减少的核张量编码到统一的长度;4)动态学习以上的步骤更新结果直到算法收敛结果达到最优。2.根据权利要求1所述的基于张量量化的动作识别方法,其特征在于,步骤2)具体包括:(1)输入最初的视频序列张量和新的视频序列核张量G在空域上的维度J1和J2,需满足J1<I1,J2<I2;(2)将视频序列张量Α按时间维度展开为时间切片的形式,计算出所有的时间切片的平均矩阵A‾=1KΣi=1KAi---(2)]]>式中,K为视频序列张量的时间维度,也就是视频序列张量时间切片的个数,Ai表示第i个时间切片;(3)求解平均矩阵第一阶和第二阶的协方差矩阵C1和C2,求解方式如下:C1=Σi=1K(Ai-A‾)(Ai-A‾)TC2=Σi=1K(Ai-A‾)T(Ai-A‾)---(3)]...

【专利技术属性】
技术研发人员:苏育挺徐传忠张静
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1