一种基于多仿射变换表征实现复杂动作迁移的方法技术

技术编号:29405892 阅读:28 留言:0更新日期:2021-07-23 22:44
本发明专利技术公开了一种基于多仿射变换表征的复杂动作迁移方法,该方法将同一对象两个动作状态间的运动变化表征为多个与对象形貌无关的图像仿射变换,使得这种动作的变化得以在不同的对象间迁移。一方面,仿射变换这一简单的信息表征便于计算,因此提高了模型的推理速度。另一方面,多仿射变换的表征方式极大的保留了动作信息,提高了图像的生成质量。

【技术实现步骤摘要】
一种基于多仿射变换表征实现复杂动作迁移的方法
本专利技术涉及计算机视觉中图像生成领域,提出了一种基于多仿射变换表征实现复杂动作迁移的方法。
技术介绍
动作迁移方法的目的是将一段视频中的动作信息迁移到一张静态的图像上,从而生成一段新的视频片段,该视频片段具有静态图像所包含的对象外貌和输入视频中对象所做动作。该技术广泛用于影视制作,换脸,视频会议,电子商务等领域。此外,随着短视频领域的爆发从而产生的对视频特效方面的需求,使得动作迁移方法吸引了越来越多的关注。目前的动作迁移方法为了产生良好的图像生成质量,大多是采用了基于深度学习的有监督方法。有监督方法需要昂贵的人工标注数据,这对于该技术的广泛应用产生了阻碍。此外,基于无监督方法的动作迁移研究主要面临着生成质量不高,推理速度较慢的挑战。Chan等人在论文《EverybodyDanceNow》中提出了从人体的关键点信息生成真实的人体图像的方法,通过输入不同的关键点信息,生成对应姿态的人,以实现动作迁移。然而该方法不仅借助于一个有监督方法训练的检测模型,而且对于每一个不同的人都要去训练一个新的动作迁移模型,如此巨大的开销限制了该方法的实用性。Siarohin等人在论文《FirstOrderMotionModelforImageAnimation》中提出了自监督的动作迁移方法,然而该方法计算复杂,模型臃肿,需要两次计算才能表征动作信息。这些缺陷影响了动作迁移的实时性。
技术实现思路
本专利技术的目的在于提供一种基于多仿射变换表征实现复杂动作迁移的方法,避免了对昂贵标注数据的需求,降低动作迁移模型的计算量,提高模型的推理速度,并且提高生成图像的准确性。实现本专利技术目的的技术解决方案为:一种基于多仿射变换表征实现复杂动作迁移的方法,该方法包括以下步骤:步骤A.针对同一类目标对象,采集若干条视频序列构成数据集,用于训练动作迁移模型,转入步骤B。步骤B.加载数据集中的第一条视频序列,转入步骤C。步骤C.从加载的视频序列中任意挑选两帧图像,分别称为源图像与目标图像,构成训练数据对;通过动作迁移模型中的回归模块从上述两帧图像中估计得到n组仿射变换矩阵,n≥1,转入步骤D。步骤D.将源图像和上述全部仿射变换矩阵作为蒙版生成器的输入,蒙版生成器生成等量的指示每个简单仿射变换发生位置的蒙版,结合所有仿射变换矩阵与其对应蒙版,生成全局采样网格,转入步骤E。步骤E.动作迁移模型中的生成模块通过全局采样网格和源图像重构虚假目标图像,并计算动作迁移模型的损失和,结合反向传播算法,训练一次模型,转入步骤F。步骤F.重新加载下一条视频序列,返回步骤C,直至动作迁移模型收敛到具有良好的生成效果,得到训练好的动作迁移模型,转入步骤G。步骤G.针对同一类目标对象,采集一段视频P和一张静态图像S,利用训练好的动作迁移模型,将视频P中的动作迁移到静态图像S上,生成具有静态图像S中对象的形貌和视频P中所含动作的新视频,以实现目标对象的复杂动作迁移。与现有技术相比,本专利技术的优点在于:(1)本专利技术是基于自监督深度学习的方法,在便宜易得的视频数据上进行模型的训练,无需昂贵的人工标注数据,可以大大节省部署成本。(2)本专利技术使用多仿射变换去表征图像中与外貌无关的动作信息。这使得动作信息可以任意的迁移到同一类的对象上,而不需要去为每一个人训练对应的动作迁移模型,从而节省了模型部署成本,使得模型可以应用于实际场景。(3)本专利技术从输入的两张图像中直接输出多仿射变换矩阵,这一性质使得编码的动作信息更准确,编码速度更快,提高了模型的计算速度,提升了动作迁移的效果。附图说明图1是本专利技术所述的基于多仿射变换表征实现复杂动作迁移的方法流程图。具体实施方式所述本专利技术所设计的动作迁移模型包括回归模块Eregress、蒙版生成器Ggrid、生成模块G。其中回归模块的目的是从两张图像中估计出多组仿射变换矩阵,以将复杂的动作变化分解到多个简单的图像仿射变换。蒙版生成器的目的是生成用以指示仿射变换发生位置的蒙版,并生成最终的描述对象动作变化的全局采样网格。生成模块的作用是将编码得到的全局采样网格应用于给定的静态图像上以得到改变动作的虚假的目标图像。下面结合附图对本专利技术进行进一步详细的说明:结合图1,一种基于多仿射变换表征的复杂动作迁移方法,该方法包括以下步骤:步骤A.针对同一类目标对象,采集若干条视频序列构成数据集,用于训练动作迁移模型。同一类目标对象是指所采集的对象是属于同一属性范围。举例说明,若是做人脸的动作迁移任务,那么所采集的视频应当全部为记录人的面部动作变化的视频,而不应该引入记录人的身体动作变化的视频,更不应该引入非人的其他类型的视频。所采集的同一类的目标对象并不限定采集同一个人的视频数据,为了使得训练完成的模型具有泛化性,应当尽量采集多个人的视频数据。步骤B.加载数据集中的第一条视频序列。步骤C.从加载的视频序列中任意挑选两帧图像,分别称为源图像与目标图像,构成训练数据对;通过动作迁移模型中的回归模块从上述两帧图像中估计得到n组仿射变换矩阵,n≥1,具体步骤如下:步骤C01.从一段视频序列V中任意挑选两帧图像,记作源图像I与目标图像T,构成训练数据对。步骤C02.将源图像I与目标图像T,在图像的通道维连接,得到输入张量,将输入张量作为动作迁移模型中回归模块Eregress的输入,回归模块输出n组仿射变换矩阵:[A1,A2,...Ai...,An]=Eregress(concat(I,T))其中concat()表示通道维连接操作,Ai表示第i个仿射变换矩阵,An表示第n个仿射变换矩阵。仿射变换矩阵可以用来描述图像的仿射变换。图像的仿射变换是指对图像做翻转,缩放,斜切,旋转这些操作。我们将一个对象的复杂动作变化看作是发生在局部上的简单仿射变换的组合。因此使用多个图像仿射变换可以表示一个复杂的动作变化。我们将来自视频序列的两帧图像,即源图像与目标图像,在通道维连接后作为回归模块的输入。这使得模型可以关注到两帧图像间像素位置的变化,而降低模型对像素值变化的关注。这样使得回归模块预测更加准确的仿射变换矩阵。步骤D.将源图像和上述全部仿射变换矩阵作为蒙版生成器的输入,蒙版生成器生成等量的指示每个简单仿射变换发生位置的蒙版,结合所有仿射变换矩阵与其对应蒙版,生成全局采样网格,具体步骤如下:步骤D01.n组仿射变换矩阵分别对应构建n个局部采样网格,再加上恒等变换(identitytransformation)所对应的局部采样网格,共得到n+1个局部采样网格。采样网格是用以指示采样函数对输入图像如何进行采样的一个张量。使用构建的局部采样网格所采样生成的图像,实际上即为对输入图像作仿射变换矩阵所表示的图像仿射变换。使用构建采样网格的方法变换图像是为了使得该步骤在反向传播训练中是可传播梯度的。此处本文档来自技高网...

【技术保护点】
1.一种基于多仿射变换表征实现复杂动作迁移的方法,其特征在于,包括以下步骤:/n步骤A.针对同一类目标对象,采集若干条视频序列构成数据集,用于训练动作迁移模型,转入步骤B;/n步骤B.加载数据集中的第一条视频序列,转入步骤C;/n步骤C.从加载的视频序列中任意挑选两帧图像,分别称为源图像与目标图像,构成训练数据对;通过动作迁移模型中的回归模块从上述两帧图像中估计得到n组仿射变换矩阵,n≥1,转入步骤D;/n步骤D.将源图像和上述全部仿射变换矩阵作为蒙版生成器的输入,蒙版生成器生成等量的指示每个简单仿射变换发生位置的蒙版,结合所有仿射变换矩阵与其对应蒙版,生成全局采样网格,转入步骤E;/n步骤E.动作迁移模型中的生成模块通过全局采样网格和源图像重构虚假目标图像,并计算动作迁移模型的损失和,结合反向传播算法,训练一次模型,转入步骤F;/n步骤F.重新加载下一条视频序列,返回步骤C,直至动作迁移模型收敛到具有良好的生成效果,得到训练好的动作迁移模型,转入步骤G;/n步骤G.针对同一类目标对象,采集一段视频P和一张静态图像S,利用训练好的动作迁移模型,将视频P中的动作迁移到静态图像S上,生成具有静态图像S中对象的形貌和视频P中所含动作的新视频,以实现目标对象的复杂动作迁移。/n...

【技术特征摘要】
1.一种基于多仿射变换表征实现复杂动作迁移的方法,其特征在于,包括以下步骤:
步骤A.针对同一类目标对象,采集若干条视频序列构成数据集,用于训练动作迁移模型,转入步骤B;
步骤B.加载数据集中的第一条视频序列,转入步骤C;
步骤C.从加载的视频序列中任意挑选两帧图像,分别称为源图像与目标图像,构成训练数据对;通过动作迁移模型中的回归模块从上述两帧图像中估计得到n组仿射变换矩阵,n≥1,转入步骤D;
步骤D.将源图像和上述全部仿射变换矩阵作为蒙版生成器的输入,蒙版生成器生成等量的指示每个简单仿射变换发生位置的蒙版,结合所有仿射变换矩阵与其对应蒙版,生成全局采样网格,转入步骤E;
步骤E.动作迁移模型中的生成模块通过全局采样网格和源图像重构虚假目标图像,并计算动作迁移模型的损失和,结合反向传播算法,训练一次模型,转入步骤F;
步骤F.重新加载下一条视频序列,返回步骤C,直至动作迁移模型收敛到具有良好的生成效果,得到训练好的动作迁移模型,转入步骤G;
步骤G.针对同一类目标对象,采集一段视频P和一张静态图像S,利用训练好的动作迁移模型,将视频P中的动作迁移到静态图像S上,生成具有静态图像S中对象的形貌和视频P中所含动作的新视频,以实现目标对象的复杂动作迁移。


2.根据权利要求1所述的基于多仿射变换表征实现复杂动作迁移的方法,其特征在于:步骤C,从加载的视频序列中任意挑选两帧图像,分别称为源图像与目标图像,构成训练数据对;通过动作迁移模型中的回归模块从上述两帧图像中估计得到多组仿射变换矩阵,具体包括以下步骤:
步骤C01.从一段视频序列V中任意挑选两帧图像,记作源图像I与目标图像T,构成训练数据对;
步骤C02.将源图像I与目标图像T,在图像的通道维连接,得到输入张量,将输入张量作为动作迁移模型中回归模块Eregress的输入,回归模块输出n组仿射变换矩阵:
[A1,A2,...Ai...,An]=Eregress(concat(I,T))
其中concat()表示通道维连接操作,Ai表示第i个仿射变换矩阵,An表示第n个仿射变换矩阵。


3.根据权利要求1所述的基于多仿射变换表征实现复杂动作迁移的方法,其特征在于:步骤D,将源图像和上述全部仿射变换矩阵作为蒙版生成器的输入,蒙版生成器生成等量的指示每个简单仿射变换发生位置的蒙版,结合所有仿射变换矩阵与其对应蒙版,生成全局采样网格,具体包括如下步骤:
步骤D01.n组仿射变换矩阵分别对应构建n个局部采...

【专利技术属性】
技术研发人员:代龙泉刘敬威
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1