一种基于生成模型的新视角人手图像合成方法技术

技术编号：40231372 阅读：7 留言：0更新日期：2024-02-02 22:33

本发明专利技术提出了一种基于生成模型的新视角人手图像合成方法，用于从输入的单视角图像中合成其他视角的人手图像。该方法首先准备成对的训练数据，再设计用于估计法线图的法线图估计网络，并估计与目标图像对应的法线图；然后预训练一个基于扩散模型的网络，用于合成低分辨率的新视角人手图像：预训练一个基于生成对抗网络的超分辨率模块，使得该模块具备提升低分辨率图像的分辨率和质量的能力，最后联合训练扩散模型和生成对抗网络，并将生成对抗网络级联到扩散模型之后：通过联合训练上述两个不同的模块，使其能够应用于人手图像合成任务。本发明专利技术只需要输入单张单视角人手图像，便可以得到一系列逼真的新视角，有助于推动基于多视角的三维重建。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，具体地，涉及一种基于生成模型的新视角人手图像合成方法。

技术介绍

1、从单目图像中合成稠密的新视角图像对于降低数字人的重建成本至关重要，尤其是在基于nerf的多视图重建任务中，对于合成逼真的新视角图像的需求尤为突出。现有的大多数视角合成方法都专注于对称或刚性对象的视角合成，这些方法应用在人体和人手等多关节对象上往往表现不佳。其中，由于人手具有难以区分的外观纹理，限制了从输入图像中所提取特征的表达能力。此外，人手比人体更加灵活，关节自由度也更高，这种高度复杂性不可避免地导致了人手的自遮挡，增加了合成图像中出现伪影或失真的风险。

2、一般来说，人手图像合成本质上是一项生成任务，而生成任务一般基于两种主流的方法实现：生成对抗网络和扩散模型。前者通过单次前向推理完成整个合成过程，虽然有着较快的采样特性，但这种单次推理的方式对于有着复杂关节的人手是不适用的。最近流行的扩散模型通过利用一系列的正向-反向过程合成图像，并遵循一种迭代去噪的方式。虽然扩散模型的可行性在人体图像合成任务中已经得到证实，但是当使用扩散模型合成图像，尤其是合成超分辨率的图像时，无论是计算成本还是时间成本都是昂贵的。因此，如何有效地结合生成对抗网络和扩散模型，从而在保证计算成本可接受的前提下合成逼真的人手新视角图像是该领域亟待解决的问题。

技术实现思路

1、专利技术所要解决的主要问题是通过一种新的方法从单视角输入图像中合成逼真的新视角人手图像，并能保证视角之间有着一致的人手结构和外观纹理。

2、为了解决上述技术问题，本专利技术提出一种基于生成模型的新视角人手图像合成方法，其技术方案包括如下步骤：

3、步骤1，准备成对的训练数据，所述成对的训练数据包括输入图像和目标图像；

4、步骤2，设计用于估计法线图的法线图估计网络，并利用步骤1中准备好的成对的训练数据，使用所设计的法线图估计网络，估计与目标图像对应的法线图，该法线图估计网络采用端到端的方式进行训练，并将作为法线图估计器，离线地应用于视角合成的全过程；

5、步骤3，预训练一个基于扩散模型的网络，用于合成低分辨率的新视角人手图像：将步骤2中估计得到的与目标图像对应的法线图作为条件，并根据给定的输入图像，使用扩散模型合成目标视角，为了保证视角合成的效率，该网络用于合成低分辨率图像；

6、步骤4，预训练一个基于生成对抗网络的超分辨率模块，使得该模块具备提升低分辨率图像的分辨率和质量的能力；

7、步骤5，联合训练扩散模型和生成对抗网络，并将生成对抗网络级联到扩散模型之后：通过联合训练上述两个不同的模块，使其能够应用于人手图像合成任务，具体来说，对于步骤3得到的低分辨率图像，将其送到步骤4所预训练的超分辨率模块中，从而提升所合成的低分辨率图像的分辨率和质量，并最终得到期望的目标图像。

8、进一步地，步骤1所述准备成对的训练数据，从开源的多视角人手数据集interhand2.6m和hand4k中整理并挑选出成对的数据，包括输入图像和目标图像。

9、进一步地，步骤2中所述的法线图估计网络，由一个编码器和解码器组成，用于估计与目标图像对应的法线图，对于编码器和解码器之间有着相同尺度的特征图，采用残差连接的方式进行拼接，编码器和解码器均由5个残差块组成，并在每层之后采用leakyrelu作为激活函数，所设计的法线图估计网络，其输入输出都是低分辨率图像，即64×64，并通过下面的损失函数对训练过程进行监督：

10、

11、其中，lnor表示训练法线图估计网络所用的损失函数，表示预测的法线图，上标l表示低分辨率图像，表示法线图的真值。

12、进一步地，步骤3中所采用的扩散模型，其生成过程包括加噪过程和去噪过程两部分，其中加噪过程是指将高斯噪声加到图像上，而去噪过程则是以迭代的方式逐渐地去噪，从而合成目标图像。

13、进一步地，步骤3的具体过程是，对于法线图估计网络所估计的与目标图像一致的法线图，将其作为生成过程的条件之一；并将高斯噪声加到目标图像上，得到噪声图；对于成对训练数据中的输入图像，通过一个特征编码器网络提取对应的特征信息，并作为生成过程中的另外一个条件；接下来，利用上述获得的两个条件，通过一个unet结构的神经网络，迭代地从噪声图中不断去噪，从而合成低分辨率的新视角人手图像；该过程可通过下面的损失函数进行监督：

14、

15、其中，表示合成过程中所需要的条件，预测的法线图用于控制视角间人手结构的一致性，输入的低分辨率图像xl用于控制视角间人手外观的一致性；是能量函数的统称，在这里用于指示扩散模型的训练过程；t表示步长；wt表示以时间步长为条件的权重并设为1；∈表示噪声；而∈φ则表示噪声预测器，即unet结构的网络，用于去噪过程；表示噪声图；l表示低分辨率图像，即64×64；

16、具体来说，对于从输入图像中提取到的特征信息，将其作用于unet中分辨率为16和8的自注意力模块中，令unet前一层的输出为f，输入图像经过特征编码器网络后所得到的特征信息为fm，自注意力层的输出通过下面的公式表示：

17、q＝con(nor(f))，k＝con(fm)，v＝con(fm)

18、fo＝con(softmax(fattn)v)+f

19、其中q表示自注意力层中的查询值，k表示自注意力层中的键值，v表示自注意力层中的输入的特征值，fattn表示自注意力层的中间结果，fo表示自注意力层的输出结果，c表示常数并设为softmax(·)表示softmax函数，con(·)表示1d卷积层，nor(·)表示归一化层，并选择groupnorm。

20、进一步地，步骤4的具体方法是，设计了一个基于生成对抗网络的超分辨率模块，该模块由生成器和鉴别器组成，其中生成器由残差连接的卷积层组成，并分别将instancenorm2d和relu作为归一化函数和激活函数；鉴别器也由卷积层组成，但使用leakyrelu作为激活函数，在鉴别器的最后一层，串联了一个sigmoid层，来预测一个0～1之间的概率，用于鉴别所输入的图像是真实的、还是合成的；另外，所设计的超分辨率模块同样以预测的法线图为条件，一方面有利于纠正合成过程中不合理的图像，另一方面使得该模块能够通过预测的法线图与扩散模型级联在一起；所设计的生成对抗网络通过下面的损失函数进行监督：

21、

22、其中，和yh分别表示目标图像所对应的法线图和高分辨率的目标图像；表示预测的法线图；表示扩散模型所合成的低分辨率图像；表示生成器；而表示鉴别器；表示训练生成器和鉴别器用到损失函数；e是能量函数的统称，其中和都被用于指示鉴别器的训练过程，但前者用于鉴别真值结果，后者用于鉴别合成结果；

23、除了上面的损失函数外，重建损失函数也被用来监督这一过程，也就是说生成器的合成结果还要与真值保持一致，即其中表示此过程用的损失函本文档来自技高网...

【技术保护点】

1.一种基于生成模型的新视角人手图像合成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于生成模型的新视角人手图像合成方法，其特征在于：步骤1所述准备成对的训练数据，从开源的多视角人手数据集Interhand2.6M和Hand4K中整理并挑选出成对的数据，包括输入图像和目标图像。

3.根据权利要求1所述的基于生成模型的新视角人手图像合成方法，其特征在于：步骤2中所述的法线图估计网络，由一个编码器和解码器组成，用于估计与目标图像对应的法线图，对于编码器和解码器之间有着相同尺度的特征图，采用残差连接的方式进行拼接，编码器和解码器均由5个残差块组成，并在每层之后采用LeakyReLU作为激活函数，所设计的法线图估计网络，其输入输出都是低分辨率图像，即64×64，并通过下面的损失函数对训练过程进行监督：

4.根据权利要求1所述的基于生成模型的新视角人手图像合成方法，其特征在于：步骤3中所采用的扩散模型，其生成过程包括加噪过程和去噪过程两部分，其中加噪过程是指将高斯噪声加到图像上，而去噪过程则是以迭代的方式逐渐地去噪，从而合成目标图像。>

5.根据权利要求1所述的基于生成模型的新视角人手图像合成方法，其特征在于：步骤3的具体过程是，对于法线图估计网络所估计的与目标图像一致的法线图，将其作为生成过程的条件之一；并将高斯噪声加到目标图像上，得到噪声图；对于成对训练数据中的输入图像，通过一个特征编码器网络提取对应的特征信息，并作为生成过程中的另外一个条件；接下来，利用上述获得的两个条件，通过一个UNet结构的神经网络，迭代地从噪声图中不断去噪，从而合成低分辨率的新视角人手图像；该过程可通过下面的损失函数进行监督：

6.根据权利要求1所述的基于生成模型的新视角人手图像合成方法，其特征在于：步骤4的具体方法是，设计了一个基于生成对抗网络的超分辨率模块，该模块由生成器和鉴别器组成，其中生成器由残差连接的卷积层组成，并分别将InstanceNorm2d和ReLU作为归一化函数和激活函数；鉴别器也由卷积层组成，但使用LeakyReLU作为激活函数，在鉴别器的最后一层，串联了一个Sigmoid层，来预测一个0～1之间的概率，用于鉴别所输入的图像是真实的、还是合成的；另外，所设计的超分辨率模块同样以预测的法线图为条件，一方面有利于纠正合成过程中不合理的图像，另一方面使得该模块能够通过预测的法线图与扩散模型级联在一起；所设计的生成对抗网络通过下面的损失函数进行监督：

...

【技术特征摘要】

1.一种基于生成模型的新视角人手图像合成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于生成模型的新视角人手图像合成方法，其特征在于：步骤1所述准备成对的训练数据，从开源的多视角人手数据集interhand2.6m和hand4k中整理并挑选出成对的数据，包括输入图像和目标图像。

3.根据权利要求1所述的基于生成模型的新视角人手图像合成方法，其特征在于：步骤2中所述的法线图估计网络，由一个编码器和解码器组成，用于估计与目标图像对应的法线图，对于编码器和解码器之间有着相同尺度的特征图，采用残差连接的方式进行拼接，编码器和解码器均由5个残差块组成，并在每层之后采用leakyrelu作为激活函数，所设计的法线图估计网络，其输入输出都是低分辨率图像，即64×64，并通过下面的损失函数对训练过程进行监督：

4.根据权利要求1所述的基于生成模型的新视角人手图像合成方法，其特征在于：步骤3中所采用的扩散模型，其生成过程包括加噪过程和去噪过程两部分，其中加噪过程是指将高斯噪声加到图像上，而去噪过程则是以迭代的方式逐渐地去噪，从而合成目标图像。

5.根据权利要求1所述的基于生成模型的新视角人手图像合成方法，其特征...

【专利技术属性】
技术研发人员：王雁刚，左炳辉，孙雯倩，袁小涵，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人