一种基于双模式潜变量扩散的文本到三维物体生成方法技术

技术编号：41196565 阅读：3 留言：0更新日期：2024-05-07 22:24

本发明专利技术提供了计算机视觉技术领域的一种基于双模式潜变量扩散的文本到三维物体生成方法，包括如下步骤：步骤S10、利用二维隐变量扩散模型联合训练一个双模式多视图隐变量扩散模型；步骤S20、获取待生成三维物体的文本，基于效率与一致性权衡策略，利用所述双模式多视图隐变量扩散模型对文本进行推理，生成第一三维物体；步骤S30、对所述第一三维物体的曲面纹理进行优化，生成第二三维物体。本发明专利技术的优点在于：极大的提升了三维物体生成的质量以及速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，特别指一种基于双模式潜变量扩散的文本到三维物体生成方法。

技术介绍

1、三维物体生成是计算机视觉和图形学交叉领域中应用最广的课题之一，其在游戏、电影、机器人学、虚拟人、数字孪生中具有极大的潜力。随着二维扩散模型的发展，sds（分数蒸馏抽样）系列方法将开放文本引入到三维物体生成里，二维扩散模型的零样本能力带来了巨大的潜力。然而，受限于二维扩散模型欠缺的三维先验和sds的不稳定性，这些方法的成功率较低，容易出现多头问题。同时发展的还有三维扩散模型，三维扩散模型往往依赖于独立的三维重建过程和生成模型训练，或者严重依赖于大规模的三维数据，其视觉质量往往较差，特别表现在生成的三维物体会出现残缺的几何和模糊的纹理。

2、经检索，申请日为2023.03.22，申请号为cn202310285348.9的中国专利技术专利公开了一种基于扩散模型和语义引导的三维物体生成方法，该方法利用clip（对比语言-图像预训练模型）模型的文本编码器，根据文本数据生成语义向量；利用条件流模型根据语义向量和第一随机噪声生成形状向量，并将该形状向量与时间步向量拼接作为引导条件；将第二随机噪声作为初始逆扩散向量，利用扩散模型基于引导条件和初始逆扩散向量经过逆扩散生成低维点云向量；利用点云解码器对低维点云向量进行解码得到高维点云，依据高维点云生成三维物体。但是，该方法存在训练慢、推理慢、只能生成单一类别物体等缺陷，不适用于开放世界场景且快速的目标生成。

3、因此，如何提供一种基于双模式潜变量扩散的文本到三维物体生成方法，实

技术实现思路

1、本专利技术要解决的技术问题，在于提供一种基于双模式潜变量扩散的文本到三维物体生成方法，实现提升三维物体生成的质量以及速度。

2、本专利技术是这样实现的：一种基于双模式潜变量扩散的文本到三维物体生成方法，包括如下步骤：

3、步骤s10、利用二维隐变量扩散模型联合训练一个双模式多视图隐变量扩散模型；

4、步骤s20、获取待生成三维物体的文本，基于效率与一致性权衡策略，利用所述双模式多视图隐变量扩散模型对文本进行推理，生成第一三维物体；

5、步骤s30、对所述第一三维物体的曲面纹理进行优化，生成第二三维物体。

6、进一步的，所述步骤s10具体包括：

7、步骤s11、获取多视图图像，,表示从分布中采样，表示多视图图像集合，表示每次去噪使用的多视图图像数量，3表示图像的rgb三维度，表示图像高度，表示图像宽度；

8、将所述多视图图像输入二维隐变量扩散模型的冻结图像编码器e中，获取潜变量，，表示特征通道数，表示特征高度，表示特征宽度；

9、步骤s12、向所述潜变量中添加噪声，获取多视图潜变量：

10、；

11、其中，表示单调递增的噪声进度；表示从高斯分布中采样的噪声；t表示随机时间步；

12、步骤s13、初始化三个可学习的潜变量，，将所述潜变量作为三维物体的三平面的噪声潜变量；

13、步骤s14、通过潜变量去噪声网络对所述多视图潜变量和噪声潜变量进行去噪，得到三平面潜变量：

14、；

15、其中，y表示控制条件；

16、步骤s15、通过transformer编码器对所述三平面潜变量进行编码以增强多视图潜变量和噪声潜变量的交互；

17、步骤s16、将编码后的所述三平面潜变量输入潜变量解码器d进行解码，并重新初始化所述潜变量解码器d的最后一个卷积层，以增加三平面通道的数量；

18、步骤s17、对解码后的所述三平面潜变量进行渲染；

19、步骤s18、使用mse损失和lpips的组合重建等重损失，使用eikonal损失和最小曲面损失，作为三维物体的采样点的法向量和sdf值的约束；

20、步骤s19、通过渲染后的所述三平面潜变量对预先创建的双模式多视图隐变量扩散模型进行训练，联合训练直至所述等重损失收敛。

21、进一步的，所述步骤s17具体包括：

22、步骤s171、在三维物体的场景包围盒内部，对解码后的所述三平面潜变量均匀采样预设分辨率的点，并通过三平面的双线性采样和2层多层感知机得到第一sdf值；

23、步骤s172、基于所述第一sdf值的绝对值与预设分辨率下最小体素的根号三倍边长的大小关系，得到一个稠密的占用格，根据所述占用格的网格中心的第二sdf值判断占用格内是否存在曲面，并将存在所述曲面的占用格标记为占用；

24、步骤s173、对相机的每一个射线，对在标记为占用的所述占用格进行光线追踪并采样，将采样出的深度及第三sdf值转换为pdf值，并将所述pdf值转换为cdf值进行特定数目的上采样，将双线性采样和上采样的点进行神经表面体渲染；

25、步骤s174、通过连接边界框内的均匀采样点对未被占用的所述占用格进行探索，通过体渲染计算得到的颜色对所述射线进行渲染：

26、；

27、；

28、其中，n表示沿射线采样的点数；i表示每个采样点的标号；表示射线所有点不透明度的连乘；表示采样点的透明度；表示采样点的颜色；j表示每个采样点的标号；表示连乘。

29、进一步的，所述步骤s20中，所述推理过程中，以预设频率在二维去噪模式和三维去噪模式之间切换：

30、；

31、其中，表示去噪后的多视图浅变量；表示二维去噪模式去噪后的多视图浅变量；表示三维去噪模式去噪后的多视图浅变量；表示当前时间步长；mod表示取模运算符；m表示三维去噪模式使用的频率。

32、进一步的，所述步骤s30具体包括：

33、步骤s31、把所述第一三维物体提取为曲面并进行几何固定，将所述第一三维物体的纹理转换为albedo mipmap；

34、步骤s32、用可微曲面渲染将提取的所述曲面渲染为随机视角图像，对所述随机视角图像以一定强度进行加噪，并通过二维扩散模型进行去噪得到去噪图像；

35、步骤s33、构造所述第一三维物体的原始渲染图像和去噪图像的重构损失，通过所述重构损失优化albedo mipmap，进而对所述第一三维物体的曲面纹理进行优化，生成第二三维物体。

36、本专利技术的优点在于：

37、通过二维隐变量扩散模型联合训练一个双模式多视图隐变量扩散模型；接着获取待生成三维物体的文本，基于效率与一致性权衡策略，利用双模式多视图隐变量扩散模型对文本进行推理，生成第一三维物体，最后对第一三维物体的曲面纹理进行优化，生成第二三维物体；即给定有噪声的多视图潜变量，二维去噪模式使用单个潜变量的去噪声网络有效去噪，而三维去噪模式生成一个三平面潜变量，用于基于一致渲染的去噪，这两种去噪模式的大多数模块，都是从预训练的文本-图像潜变量扩散模型中调整的，以避免从头开始训练的昂贵本文档来自技高网...

【技术保护点】

1.一种基于双模式潜变量扩散的文本到三维物体生成方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于双模式潜变量扩散的文本到三维物体生成方法，其特征在于：所述步骤S10具体包括：

3.如权利要求2所述的一种基于双模式潜变量扩散的文本到三维物体生成方法，其特征在于：所述步骤S17具体包括：

4.如权利要求1所述的一种基于双模式潜变量扩散的文本到三维物体生成方法，其特征在于：所述步骤S20中，所述推理过程中，以预设频率在二维去噪模式和三维去噪模式之间切换：

【技术特征摘要】

1.一种基于双模式潜变量扩散的文本到三维物体生成方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于双模式潜变量扩散的文本到三维物体生成方法，其特征在于：所述步骤s10具体包括：

3.如权利要求2所述的一种基于双模式...

【专利技术属性】
技术研发人员：曹刘娟，李新阳，赖章宇，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人