一种基于自动编码器和DTW的手绘图人体运动检索方法技术

技术编号:16216581 阅读:64 留言:0更新日期:2017-09-15 22:47
本发明专利技术公开的一种基于自动编码器和DTW的手绘图人体运动检索方法,包括:使用相应设备拍摄单目视频,构建N个类别的动态人体运动序列数据库及M个类别人体运动骨架手绘图序列数据库;提取视频V

A freehand figure human motion retrieval method based on automatic encoder and DTW

The invention discloses an automatic DTW encoder and hand drawing based human motion retrieval method, including: the use of the corresponding equipment was monocular video, constructing N classes of dynamic human motion sequence database and M categories of human skeleton sketch extraction of video sequence database; V

【技术实现步骤摘要】
一种基于自动编码器和DTW的手绘图人体运动检索方法
本专利技术属于运动捕捉动画
,具体涉及一种基于自动编码器和DTW的手绘图人体运动检索方法。
技术介绍
近年来,计算机动画在各种应用中日益普及。计算机动画对人体运动的应用尤为重要。这已经导致了一个高的需求对于制作非常逼真的人类运动表征。已经形成了多种方法来产生人体运动数据。运动捕获(MoCap)是一种众所周知的方法。运动捕获设备的可用性越来越多,驱动了大规模的人体和物体运动数据库的发展。然而,随着各种运动数据的增长,搜索满足特定要求的合适的运动是一件困难的事情。因此,运动检索最近成为在运动捕捉动画领域的主要研究重点。在文献中已经提出了一些运动检索方法,其中许多是由现有的音频检索方法修改,如动态时间规整(DTW)方法。为了支持索引和提高DTW的检索性能,基于均匀缩放(US)的算法已被提出。一种基于DTW和典型相关分析(CCA)扩展的方法,被称为广义的典型时间规整(GCTW),已被提出用于调整多模态序列。除了基于DTW的方法,其它方法寻求逻辑上类似的运动匹配。例如,已经开发了用于呈现运动的模板,以及提出使用模板匹配的运动搜索。此外,几何特征已被用来构建索引树,使用聚类和分割,然后提出根据峰值点进行动作匹配。但上述运动检索方法有以下不足:(1)动态时间规整(DTW)方法,由于这种类型的数据的属性和参数数量大,通常证明了DTW对运动捕获数据的应用有效率低的表现。(2)均匀缩放(US)的算法,基于均匀缩放的方法通常具有较高的计算成本。(3)使用模板匹配的运动搜索和聚类和分割等方法来根据峰值点进行动作匹配,但是不能区分紧密匹配的运动。
技术实现思路
本专利技术的目的是提供一种基于自动编码器和DTW的手绘图人体运动检索方法,克服了现有方法较高的计算成本,运动捕获数据较低的应用效率和对紧密匹配的运动的检索不能区分到位的问题。本专利技术采用的技术方案是,一种基于自动编码器和DTW的手绘图人体运动检索方法,具体按照以下步骤实施:步骤1:使用相应设备拍摄单目视频,拍摄速度为30帧每秒,构建有N个类别的动态人体运动序列数据库V(1)=(V1(1),…,VN(1))及M个类别人体运动骨架手绘图序列数据库V(2)=(V1(2),…,VM(2));步骤2:提取视频V(1)的每帧图像,得到帧图像Fi=(fi1,...,fin),其中n表示视频V(1)的帧数,对fij进行预处理,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;步骤3:通过系统学习获取基于模糊c-均值聚类的代表性帧图像数据库DRF;步骤4:代表性的帧图像数据库DRF通过使用自动编码器提取人体骨胳运动图像特征;步骤5:应用画板手绘预查询的人体运动序列,首先应用自动编码器提取手绘图序列特征,进而应用模糊聚类获取手绘图运动序列代表帧应用DTW算法计算RFX和代表帧图像数据库DRF距离,根据相似距离顺序排序,输出最优运动检索结果。本专利技术的特点还在于,步骤2具体按照以下步骤实施:(21)使用Kinect获取人体运动的RGB彩色与深度图像,去除RGB彩色与深度图像噪声,并对其进行图像校正处理;(22)根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像;(23)基于前景彩色图像且依据肤色模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点;(24)基于学习得到的贝叶斯分类器对彩色图像前景中的运动人体进行部件分类识别;(25)依据分类识别结果判定肢体各刚体结构部位类别,再根据各刚体部件的链接关系确定出各关节点,依次联接各关节点形成平面人体骨架,结合各个关节点深度数据将平面骨架变换成三维立体骨架。步骤3具体按照以下步骤实施:(31)给定运动序列{Fi}i=1:n,其中n是帧数,使用模糊c-均值FCM聚类方法生成代表性帧;(32)基于帧图像Fi=(fi1,...,fin)聚类获取运动序列代表性的帧RF(1)i=(rf1(1),…,rfk(1)),并对V(2)手绘图数据库进行聚类处理,获得手绘图关键帧图像RF(2)j=(rf1(2),…,rfk(2)),然后总的代表帧可以表示为RF={rfk}k=1:c,其中rfk对应于第k个聚类中心;(33)所有视频运动类别及手绘图所对应的代表性帧图像共同组成人体运动代表帧图像数据库DRF={RF(1)i,RF(2)j}。步骤4具体按照以下步骤实施:(41)假设自动编码器的输入为x,首先,该编码器将原始信号x映射到特征信号z中:z(e)=h(e)(W(e)x+b(e))其中“(e)”是指神经网络编码层,h(e)是传递函数,W(e)是加权矩阵,b(e)是偏置向量;(42)解码器将特征信号z映射返回到估计中:其中“(d)”表示第d网络层,h(d)是解码器的传递函数,W(d)是权重矩阵,b(d)是偏置向量;(43)建立一个代价函数来描述输入,表示为x,与其重建之间的误差输出,表示为并需要控制误差的值最小其中代价函数E由3部分组成,第1部分是均方误差,第2部分l*Wweights是L2正则化,第3部分b*Wsparsity是稀疏正则化,L2正则化系数为l,稀疏正则化系数为b,如果让L2正则化是:其中L,n,k分别是训练数据中的隐层数,观测数和变量数,添加一个正则化来激励稀疏项,将第i个神经元激活措施定义为:其中n是训练样本数,xj是第j个训练样本,wi(1)T和bi(1)分别是W(1)的第i行,偏移向量,接下来,利用KullbackLeibler发散呈现稀疏正则化:当ri和相等,KullbackLeibler发散是0,否则,由于它们彼此偏离,发散是较大的。步骤5具体按照以下步骤实施:(51)DTW的目的是比较两个序列RFX=(rf1X,…,rfcX)和RFY=(rf1Y,…,rfcY)之间的相似性,让整体匹配代价为Cp(RFX,RFY):CP(RFX,RFY)=[dDTW(rfiX,rfjY)]c×c在RFX和RFY之间的一个规整路径p,被定义为本地代价度量,而dDTW(rfiX,rfjY)是与(i,j=1,…,c)之间的DTW,设定和是t维向量,并且rfiX=(x1,…,xt)和和之间的DTW是:(52)RFX和RFY之间的最佳规整路径是在所有可能的规整路径中具有最小总成本的规整路径p*,然后定义RFX和RFY之间的距离是p*的总成本:dDTW(RFX,RFY)=Cp*(RFX,RFY);(53)为了确定最优路径p*,使用动态规划获得最优路径,累积成本矩阵D满足以下等式:且n∈[1:c],D(1,m)=∑mk=1dDTW(rf1X,rfkY)有m∈[1:c],和:D(n,m)=min{D(n-1,m-1),D(n-1,m),D(n,m-1)}+dDTW(rfnX,rfmY),最终优化DTW的距离是:本专利技术的有益效果是,本专利技术从运动数据库检索与给定查询运动非常相似的运动,提出将基于DTW的匹配与统计运动匹配相结合以提高运动匹配的性能和效率。基于优化的代表性识别特征通常比原始无序描述符具有更好的性能,使用模糊聚类将冗余姿态描述符转换成判别描述符。多变量统计学习和贝叶斯融合方法用于将运动匹配转换为运输问题以适应旋转,局部或全局缩放,将提出的算法的性能与DTW本文档来自技高网
...
一种基于自动编码器和DTW的手绘图人体运动检索方法

【技术保护点】
一种基于自动编码器和DTW的手绘图人体运动检索方法,其特征在于,具体按照以下步骤实施:步骤1:使用相应设备拍摄单目视频,拍摄速度为30帧每秒,构建有N个类别的动态人体运动序列数据库

【技术特征摘要】
1.一种基于自动编码器和DTW的手绘图人体运动检索方法,其特征在于,具体按照以下步骤实施:步骤1:使用相应设备拍摄单目视频,拍摄速度为30帧每秒,构建有N个类别的动态人体运动序列数据库及M个类别人体运动骨架手绘图序列数据库步骤2:提取视频V(1)的每帧图像,得到帧图像Fi=(fi1,...,fin),其中n表示视频V(1)的帧数,对fij进行预处理,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;步骤3:通过系统学习获取基于模糊c-均值聚类的代表性帧图像数据库DRF;步骤4:代表性的帧图像数据库DRF通过使用自动编码器提取人体骨胳运动图像特征;步骤5:应用画板手绘预查询的人体运动序列,首先应用自动编码器提取手绘图序列特征,进而应用模糊聚类获取手绘图运动序列代表帧应用DTW算法计算RFX和代表帧图像数据库DRF距离,根据相似距离顺序排序,输出最优运动检索结果。2.根据权利要求1所述的一种基于自动编码器和DTW的手绘图人体运动检索方法,其特征在于,所述的步骤2具体按照以下步骤实施:(21)使用Kinect获取人体运动的RGB彩色与深度图像,去除RGB彩色与深度图像噪声,并对其进行图像校正处理;(22)根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像;(23)基于前景彩色图像且依据肤色模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点;(24)基于学习得到的贝叶斯分类器对彩色图像前景中的运动人体进行部件分类识别;(25)依据分类识别结果判定肢体各刚体结构部位类别,再根据各刚体部件的链接关系确定出各关节点,依次联接各关节点形成平面人体骨架,结合各个关节点深度数据将平面骨架变换成三维立体骨架。3.根据权利要求1所述的一种基于自动编码器和DTW的手绘图人体运动检索方法,其特征在于,所述的步骤3具体按照以下步骤实施:(31)给定运动序列{Fi}i=1:n,其中n是帧数,使用模糊c-均值FCM聚类方法生成代表性帧;(32)基于帧图像Fi=(fi1,...,fin)聚类获取运动序列代表性的帧并对V(2)手绘图数据库进行聚类处理,获得手绘图关键帧图像然后总的代表帧可以表示为RF={rfk}k=1:c,其中rfk对应于第k个聚类中心;(33)所有视频运动类别及手绘图所对应的代表性帧图像共同组成人体运动代表帧图像数据库4.根据权利要求1所述的一种基于自动编码器和DTW的手绘图人体运动检索方法,其特征在于,所述的步骤4具体按照以下步骤实施:...

【专利技术属性】
技术研发人员:肖秦琨楚超勤高嵩
申请(专利权)人:西安工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1