System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于扩散模型和ControlNet的姿态生成方法技术_技高网

基于扩散模型和ControlNet的姿态生成方法技术

技术编号:40438744 阅读:5 留言:0更新日期:2024-02-22 23:02
本发明专利技术公开了一种基于扩散模型和ControlNet的图像姿态生成方法,该方法通过添加扩散模型进行数据增强,解决了由于复杂姿态数据不足导致的过拟合问题,通过改进ControlNet的框架和权重,使得改进后的ControlNet能有效检测复杂的人体姿态,并通过添加损失函数约束,使用深度数据集,有效提高了检测异常姿态时的精确度,使得姿态估计更具有鲁棒性。同时,本发明专利技术改进了整个扩散模型的总体学习目标,强化了识别深度内容的能力,改进了ControlNet模块中的编码块和分辨率设置,使其能适用于非典型的U‑net结构。

【技术实现步骤摘要】

本专利技术属于图像生成和姿态估计,具体涉及一种基于扩散模型和controlnet的图像姿态生成方法。


技术介绍

1、图像生成是计算机视觉里面一个非常重要的
,其目的在于通过计算机技术生成人类可以识别的真实度高的图像。图像生成技术可以帮助计算机视觉领域的其他任务方便的扩充数据集,也能够对缺失的数据进行预测,还能够对不同情景下可能存在的内容进行联想。目前主流的图像生成技术主要分为gan和扩散模型两种,gan即生成对抗网络,是图像生成领域的一项重要技术,它由生成器和判别器两个网络组成,通过对抗训练的方式实现图像的生成。扩散模型相比gan可以取得更好的图片生成效果,然而该模型是一种自回归模型,需要反复迭代计算,因此训练和推理代价都很高。文献[rombach r,blattmanna,lorenz d,et al.high-resolution image synthesis with latent diffusion models[j].2021.doi:10.48550/arxiv.2112.10752]提出了一种在潜在表示空间(latent space)上进行diffusion过程的方法,从而能够大大减少计算复杂度,同时也能达到十分不错的图片生成效果。

2、扩散模型同样学习拟合训练集分布,并能够生成与训练集分布相似的输出结果,但与gan相比,扩散模型训练过程更稳定,而且具备更强的泛化性能,这些都归功于扩散模型中核心的前向扩散过程和反向生成过程。在前向扩散过程中,扩散模型持续对一张图像添加高斯噪声直至变成随机噪声矩阵,而在反向生成过程中,扩散模型进行去噪声过程,将一个随机噪声矩阵逐渐去噪声直至生成一张图像。

3、姿态估计是计算机视觉里面一个非常重要的
,早期的人体姿态估计算法性能较差,他们将人体定义为多个结构,在结构之间添加空间变量的关系,并手动选择相应的结构提取关键点进行检测,这些算法泛化能力差,无法处理遮挡和模糊等常见问题。深度学习出现以后,人体姿态估计方法发展为直接回归方法和基于热力图的方法,其中文献[zhang,lvmin,and maneesh agrawala."adding conditional control to text-to-image diffusion models."arxiv preprint arxiv:2302.05543(2023)]提出了一种基于扩散模型的controlnet,该网络试图控制预训练大型扩散模型,以支持额外的输入条件,以端到端方式学习特定任务的条件输入,并作为主干网络被广泛使用。基于回归的方法虽然能准确预测正常姿态,但是无法预测复杂姿态,使用关键点热图的自下而上的方法则更具有鲁棒性,文献[cao z,simon t,wei s e,et al.realtime multi-person 2d poseestimation using part affinity fields[j].arxiv e-prints,2016]提出了openpose,该网络通过得到所有关键点和所有的连接后,将其整合起来,最后输出就成为了一个完整的人体骨架。

4、目前,关于图像生成中姿态生成的研究很多,然而由于人类姿态数据集相比于图像生成数据集容量更小,精度更低,复杂结构的人体姿态生成的精确率和鲁棒性还有很大提升空间,将controlnet直接应用于复杂的人体姿态生成并不能取得理想的效果。


技术实现思路

1、鉴于上述,本专利技术提供了一种基于扩散模型和controlnet的图像姿态生成方法,该方法通过添加扩散模型进行数据增强,解决了由于复杂姿态数据不足导致的过拟合问题,进而通过改进controlnet的框架和权重,使得改进后的controlnet能有效检测复杂的人体姿态,并通过添加损失函数约束,使用深度数据集,有效提高检测异常姿态时的精确度,使得姿态估计更具有鲁棒性。

2、一种基于扩散模型和controlnet的图像姿态生成方法,包括如下步骤:

3、(1)构建包含人体姿态的图像数据集,并将其划分为训练集和测试集;

4、(2)构建扩散概率模型,其在前向扩散过程中持续对输入图像添加高斯噪声直至变成随机噪声矩阵,其在反向生成过程中进行去噪声处理,将随机噪声矩阵逐渐去噪直至生成一张图像;

5、(3)构建基于controlnet的姿态生成模型,该模型使用controlnet创建扩散概率模型中12个编码块和1个中间块的可训练副本;

6、(4)利用训练集图像对扩散概率模型和姿态生成模型联合进行训练;

7、(5)将测试集图像输入至训练好的联合模型中,即可预测出图像中各关键点的位置坐标,生成具有复杂姿态的图像。

8、进一步地,所述步骤(1)的具体实现方式如下:

9、1.1使用midas从互联网上获取足够多且含有深度信息的人体图像,这些图像包含了人体的普通姿态和复杂姿态;

10、1.2对获取到的人体图像进行筛选,要求图像必须有至少30%的全身关键点被检测到;

11、1.3对筛选保存下来的图像进行关键点标注,直接使用人体骨骼的可视化姿态图像作为标签,并按8:2的比例将这些图像划分为训练集和测试集。

12、进一步地,所述步骤1.1中获取到的人体图像以深度-图像-caption的数据对形式存储。

13、进一步地,所述步骤(2)中对于任一输入图像x0,扩散概率模型逐步向该图像中添加噪声,并产生一个噪声图像zt,下标t表示噪声添加的步长,当t足够大时,图像zt近似于纯噪声,具体表达式如下:

14、zt=αtzt-1+βtε

15、其中:zt表示步长为t时的噪声图像,αt表示步长为t时的扩散权重参数,βt表示步长为t时的加噪程度参数,αt和βt均大于0,ε表示标准高斯分布的噪声。

16、进一步地,所述姿态生成模型创建了扩散概率模型中12个编码块和1个中间块的可训练副本,并在每个编码块的可训练副本基础上添加零卷积层连接,最后将每个块的可训练副本输出与扩散概率模型中对应的块残差连接。

17、进一步地,所述零卷积层为1×1内核的卷积层,其权重和偏差均用0初始化。

18、进一步地,所述扩散概率模型中12个编码块具有4种分辨率,分别为64×64、32×32、16×16和8×8,每种分辨率对应有3个编码块,依次级联后再连接一个8×8的中间块。

19、进一步地,所述扩散概率模型的输出需进行转换,具体可采用四个4×4内核步长为2的卷积层来实现转换,卷积层通过relu激活,通道数分别为16、32、64、128,以高斯权重初始化,与整个模型联合进行训练。

20、进一步地,所述步骤(4)中利用训练集图像对扩散概率模型和姿态生成模型进行训练过程中,随机将图像50%的深度信息替换为空信息,并通过以下损失函数进行约束;

21、

22、其中:l为整个联合模型的总本文档来自技高网...

【技术保护点】

1.一种基于扩散模型和ControlNet的图像姿态生成方法,包括如下步骤:

2.根据权利要求1所述的图像姿态生成方法,其特征在于:所述步骤(1)的具体实现方式如下:

3.根据权利要求2所述的图像姿态生成方法,其特征在于:所述步骤1.1中获取到的人体图像以深度-图像-caption的数据对形式存储。

4.根据权利要求1所述的图像姿态生成方法,其特征在于:所述步骤(2)中对于任一输入图像x0,扩散概率模型逐步向该图像中添加噪声,并产生一个噪声图像zt,下标t表示噪声添加的步长,当t足够大时,图像zt近似于纯噪声,具体表达式如下:

5.根据权利要求1所述的图像姿态生成方法,其特征在于:所述姿态生成模型创建了扩散概率模型中12个编码块和1个中间块的可训练副本,并在每个编码块的可训练副本基础上添加零卷积层连接,最后将每个块的可训练副本输出与扩散概率模型中对应的块残差连接。

6.根据权利要求5所述的图像姿态生成方法,其特征在于:所述零卷积层为1×1内核的卷积层,其权重和偏差均用0初始化。

7.根据权利要求5所述的图像姿态生成方法,其特征在于:所述扩散概率模型中12个编码块具有4种分辨率,分别为64×64、32×32、16×16和8×8,每种分辨率对应有3个编码块,依次级联后再连接一个8×8的中间块。

8.根据权利要求1所述的图像姿态生成方法,其特征在于:所述扩散概率模型的输出需进行转换,具体可采用四个4×4内核步长为2的卷积层来实现转换,卷积层通过ReLU激活,通道数分别为16、32、64、128,以高斯权重初始化,与整个模型联合进行训练。

9.根据权利要求1所述的图像姿态生成方法,其特征在于:所述步骤(4)中利用训练集图像对扩散概率模型和姿态生成模型进行训练过程中,随机将图像50%的深度信息替换为空信息,并通过以下损失函数进行约束;

...

【技术特征摘要】

1.一种基于扩散模型和controlnet的图像姿态生成方法,包括如下步骤:

2.根据权利要求1所述的图像姿态生成方法,其特征在于:所述步骤(1)的具体实现方式如下:

3.根据权利要求2所述的图像姿态生成方法,其特征在于:所述步骤1.1中获取到的人体图像以深度-图像-caption的数据对形式存储。

4.根据权利要求1所述的图像姿态生成方法,其特征在于:所述步骤(2)中对于任一输入图像x0,扩散概率模型逐步向该图像中添加噪声,并产生一个噪声图像zt,下标t表示噪声添加的步长,当t足够大时,图像zt近似于纯噪声,具体表达式如下:

5.根据权利要求1所述的图像姿态生成方法,其特征在于:所述姿态生成模型创建了扩散概率模型中12个编码块和1个中间块的可训练副本,并在每个编码块的可训练副本基础上添加零卷积层连接,最后将每个块的可训练副本输出与扩散概率模型中对应的块残差连接。<...

【专利技术属性】
技术研发人员:陈心宇李万清
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1