一种基于适配网络增强扩散模型的人体姿态场景恢复方法技术

技术编号：40125597 阅读：7 留言：0更新日期：2024-01-23 21:20

本发明专利技术公开了一种基于适配网络增强扩散模型的人体姿态场景恢复方法，属于计算机视觉的图像生成领域，该方法首先每一组训练用的数据表示为一个五元组(A<supgt;(N)</supgt;,B<supgt;(N)</supgt;,y,Z<subgt;A</subgt;,Z<subgt;B</subgt;)，并用点阵A<supgt;(N)</supgt;,B<supgt;(N)</supgt;分别制作灰度图A<subgt;0</subgt;,B<subgt;0</subgt;。其次由扩散模型得到扩散模型中主副适配器的差异，并根据差异计算出损失函数，并计算结余损失。最后根据损失函数和结余损失函数得到全局优化函数，对输出的人物姿态图进行优化。本发明专利技术消除了通过试探方法训练寻找损失函数间权值时所需的计算开销，实现了预训练模型功能细分的训练方式，使得输出的人物姿态图更为准确稳定。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉的图像生成领域，具体涉及一种基于适配网络增强扩散模型的人体姿态场景恢复方法。

技术介绍

1、计算机视觉领域的图像生成任务最早由生成对抗网络(gan)完成，但近年来其逐渐被效果不断提高稳定扩散模型(stable-diffusion)取代，能够通过输入的文本信息产生与之对应的图片。但以上两种框架下的模型都还无法根据给定输入生成特定场景、特定对象、以及特定轮廓中下人物或物体。传统模式下直接生成人像或物像的模型大都专注于如何通过准确理解文本提示，从而在更精确的文本提示下实现图像操作(例如对输入文本生成图像以及按照文本要求对图像进行修改)。

2、稳定生成图像的关键就在于通过将需要表达的要求信息通过合理形式传递给机器，并使其得到编码产生输出。究其根本，这是因为人类语言描述在机器视角下存在非常大的不确定因素，实际存在的模糊语义远超想象。在controlnet架构以及t2i-adapter架构提供了使用诸如语义分割、关键姿态识别等小模型提供扩散模型以图像约束并给出了将额外约束条件注入到扩散模型中的适配器(adapter)模型；但此类模型在注入时会与文本引导产生混淆。具体表现为：在使用相同文字引导时使用同一小模型给出不同图像约束时，最终生成内容的场景乃至风格模式会产生极大的漂移，表现出低鲁棒性。

技术实现思路

1、针对上述问题，本专利技术提出了一种基于适配网络增强扩散模型的人体姿态场景恢复方法，该方法基于t2i-adapter的架构进行主、副适配器(primary

2、本专利技术主要通过引入副适配器(secondary-adapter，简写为s-ad)，在固定stable-diffusion权重和预训练主适配器(primary-adapter，简写为p-ad)的权重条件下，微调副适配器，从而达到副适配器针对主适配器输出稳定的效果。同时，经过微调的副适配器拥有针对文本的稳定性；配合google-dreambooth在生成方面的特征提取模型，能够轻松实现：任意指定场景(文本描述)、任意指定人物(图片特征输入)、任意指定姿势(关键姿态)的图像生成。

3、本专利技术中先构建出两个局部优化目标，再通过变换将两个目标映射到相同尺度进行联合训练；同时对该方在搭配stable-diffusion的主、副适配器模型中进行推广，使其能够适应使用不同的小模型对stable-diffusion进行驱动的功能。

4、本专利技术提供如下技术方案：

5、步骤1.每一组训练用的数据表示为一个五元组(a(n)，b(n)，y，za，zb)，其中y为文本描述标注，a(n)，b(n)是两个元素个数均为的点阵，为图像数据，其中数字3意味着图像按照rgb格式存储，w，h分别表示图像的宽度和高度；用ψδ(·)表示输入图像产生图像中人物关节基点坐标点点集的模型，以δ为权重。

6、作为补充说明，文本描述标注y∈{ya，yb}，这里ya，yb分别表示图像za，zb中图像内容对应的英文文本描述(因此这里实际上会产生两个五元组)。

7、通过模型ψδ(·)计算输入图像y中的关节基点点集的过程描述为：

8、

9、之后用表示第i个基点在w×h大小的坐标系中的坐标位置，并用ya，i表示图像a中第i个基点的纵坐标位置，yb，i同理，类似定义xa，i，xb，i；通过这个模型得到一个有个点组成的点阵(点集)。使用如下定义的归一化函数对点阵中的点进行归一化(即压缩)，具体来说，对某个点的归一化表示为：

10、

11、这里bw＝w，bh＝h，为可调偏置(超参数之一)。

12、对整个点阵，归一化(压缩)过程表示为：

13、

14、结合式(1)，(3)，用复合函数的形式可以表示为：

15、

16、根据以上定义，数据五元组中两个元素个数均为的点阵a(n)，b(n)根据如下方式计算得到：

17、

18、

19、其中

20、根据图像za，zb分别得到的点阵在后续的步骤中分别渲染成灰度图像。

21、步骤2.将步骤1.中获得的两个点阵分别制作灰度图a0，b0：将压缩后的点阵等比扩展到[0，u]×[0，u]，这里u＝min{w，h}；另外，将点阵中出现过的点对应的坐标位置的灰度值设为0，其余位置设为255，分别获得两张灰度图a0，b0。

22、分别将原始图像za，zb传入文本转换模型(将文本内容转化为向量编码)，获得的文本的向量编码为τ(y)，每一条数据的五元组变为：

23、(a0，b0，τ(y)，za，zb) (7)

24、同时设置可调参数表示扩散模型的扩散总步长；这里分别取y＝ya或者y＝yb，可得到两条数据。

25、实际上，在这个过程中使用原始图像制作出的灰度图a0，b0为最终训练时所需的图像数据。将实际训练时用到的数据集记train，对所有的灰度图组合a0，b0：

26、

27、步骤3.将扩散模型的去噪过程(采样过程，或推理过程)描述为：

28、

29、上式中且αt∈[0，1]为扩散模型中的可调参数。

30、在整个扩散模型中，t遍历t，t-1，...，2，1(扩散模型中的可调参数为αt，σt∈[0，1])，共t个等式，按照t的取值分别叫做“第t个等式”；式中∈θ为扩散模型中预训练的u-net模型，以θ为权重。表示去噪过程在第t步采样得到生成图像在隐空间中的表示，且在t＝t时取

31、进一步的，这里表示服从各维度均值均为0，协方差矩阵为单位矩阵i，即一个高维正态分布；本专利技术中所有i的维数相同。

32、将隐空间图像表示解码成真实图片，需要使用变分自编码器(vae)的解码器，这个模型记为de(·)，时间t下的真实图像zt表示为：

33、

34、在使用适配器的扩散模型的去噪过程中，隐空间中的图像表示为：

35、

36、其中x0表示图像条件输入，y表示文本输入，fφ表示以φ为权重的适配器模型。

37、在上述扩散模型中，分别将步骤2.中得到的灰度图a0传入主适配器(primary-adapter)获得向量将灰度图b0传入副适配器(secondary-adapter)获得向量本文档来自技高网...

【技术保护点】

1.一种基于适配网络增强扩散模型的人体姿态场景恢复方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于适配网络增强扩散模型的人体姿态场景恢复方法，其特征在于，在步骤1中，得到所述点阵A(N)，B(N)的具体过程为：

3.根据权利要求2所述的基于适配网络增强扩散模型的人体姿态场景恢复方法，其特征在于，步骤2具体过程如下：

4.根据权利要求3所述的基于适配网络增强扩散模型的人体姿态场景恢复方法，其特征在于，步骤2还包括，分别将原始图像ZA，ZB传入文本转换模型，获得的文本的向量编码为τ(y)，每一条数据的五元组变为：(A0，B0，τ(y)，ZA，ZB)，同时设置可调参数表示扩散模型的扩散总步长；分别取y＝yA或者y＝yB，得到两条数据；

5.根据权利要求4所述的基于适配网络增强扩散模型的人体姿态场景恢复方法，其特征在于，步骤3具体过程如下：

6.根据权利要求5所述的基于适配网络增强扩散模型的人体姿态场景恢复方法，其特征在于，步骤4所述全局优化函数如下：

7.根据权利要求6所述的基于适配网络增强扩散模型的

...

【技术特征摘要】

1.一种基于适配网络增强扩散模型的人体姿态场景恢复方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于适配网络增强扩散模型的人体姿态场景恢复方法，其特征在于，在步骤1中，得到所述点阵a(n)，b(n)的具体过程为：

3.根据权利要求2所述的基于适配网络增强扩散模型的人体姿态场景恢复方法，其特征在于，步骤2具体过程如下：

4.根据权利要求3所述的基于适配网络增强扩散模型的人体姿态场景恢复方法，其特征在于，步骤2还包括，分别将原始图像za，zb传入文本转换模型，获得的文本的向量编码为τ(...

【专利技术属性】
技术研发人员：陈鼎，王可逸，余宙，俞俊，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人