基于Parti扩散模型的文本生成3D模型方法及装置制造方法及图纸

技术编号：40188038 阅读：5 留言：0更新日期：2024-01-26 23:51

本发明专利技术涉及一种基于Parti扩散模型的文本生成3D模型方法及装置，采用Dreambooth预训练基于Parti的2D扩散模型；对于给定的Prompt文本输入，得到包含输入文本描述下所有可能3D物体的3D概率分布；基于3D概率分布，对每一个3D物体通过相机与Parti扩散模型渲染到2D，得到2D图像的概率分布；计算2D渲染图像的概率分布与预训练Parti扩散模型的概率分布之间的距离，并使用优化器更新3D物体。本发明专利技术重新形式化了文本生成3D问题，把3D参数建模为一个概率分布，将优化3D分布等效地转换为优化其渲染的二维图片分布和预训练2D扩散模型分布间的距离，解决了现有技术缺少多样性等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本生成3d模型生成，尤其是涉及一种基于parti扩散模型prompt文本生成3d模型方法及装置。

技术介绍

1、在计算机视觉中，生成模型是一类能够生成合成图像的模型。例如，一个被训练来生成人脸的模型，每次都会生成一张从未被该模型或任何人看到过的人脸。生成模型最著名的例子是gan(生成对抗网络)。它有生成器和鉴别器，它们相互对抗，然后生成图像。由于模型本身具有对抗性，因此很难进行训练。这使得很难达到一个最优的平衡。利用扩散模型可以解决这个问题。

2、扩散模型也是生成模型，扩散模型背后的直觉来源于物理学。在物理学中气体分子从高浓度区域扩散到低浓度区域，这与由于噪声的干扰而导致的信息丢失是相似的。所以通过引入噪声，然后尝试通过去噪来生成图像。在一段时间内通过多次迭代，模型每次在给定一些噪声输入的情况下学习生成新图像。

3、在数字创作和虚拟现实等领域，从文本到三维模型(text-to-3d)的技术具有重要的价值和广泛的应用潜力。这种技术可以从简单的文本描述中生成具体的3d模型，为设计师、游戏开发者和数字艺术家提供强大的工具。然而，为了根据文本生成准确的3d模型，传统方法需要大量的标记3d模型数据集。这些数据集需要包含多种不同类型和风格的3d模型，并且每个模型都需要与相应的文本描述相关联。创建这样的数据集需要大量的时间和人力资源，目前还没有现成的大规模数据集可供使用。

4、由谷歌提出的dreamfusion利用预训练的文本到图像扩散模型，首次在无需3d数据的情况下完成开放域的文本到3d的

技术实现思路

1、本专利技术的目的是克服上述现有技术存在的缺陷而提供一种基于parti扩散模型的文本生成3d模型方法及装置。

2、本专利技术的目的可以通过以下技术方案来实现：

3、作为本专利技术的第一方面，提供一种基于parti扩散模型的文本生成3d模型方法，所述方法步骤包括：

4、采用dreambooth预训练基于parti的2d扩散模型；

5、对于给定的prompt文本输入，得到包含该输入文本描述下所有可能3d物体的3d概率分布；

6、基于输入文本的3d概率分布，对3d概率分布中每一个3d物体通过相机与parti扩散模型渲染到2d，得到2d图像的概率分布；

7、计算2d渲染图像的概率分布与预训练parti扩散模型的概率分布之间的距离，并使用优化器更新3d物体。

8、进一步的，得到所述2d图像的概率分布的具体步骤如下：

9、随机采样相机和灯光；

10、在设置的相机和灯光下，考虑相机的姿势和光线的位置渲染parti扩散模型，得到2d图像。

11、进一步的，在每次迭代中，所述相机的位置在球面坐标中从设定的俯视角范围、方位角以及原点的距离中通过插值采样得到。

12、进一步的，所述2d渲染图像的渲染方式包括：照明的彩色渲染和无纹理渲染。

13、进一步的，渲染结束后计算损失函数相对于parti参数的梯度；所述损失函数采用huber。

14、进一步的，所述更新3d物体的具体步骤如下：

15、计算当前3d物体引导渲染得到的2d图像的概率分布的得分函数；

16、使用优化器更新3d物体，使得收敛得到的概率分布与预训练的parti扩散模型的kl散度最小。

17、进一步的，所述得分函数采用二元交叉熵。

18、进一步的，所述3d物体采用adadelta优化器进行更新。

19、作为本专利技术的第二方面，提供一种基于parti扩散模型的文本生成3d模型装置，包括存储器、处理器，以及存储于所述存储器中的程序，所述处理器执行所述程序时实现如上所述的方法。

20、作为本专利技术的第三方面，提供一种存储介质，其上存储有程序，所述程序被执行时实现如上所述的基于parti扩散模型的文本生成3d模型方法。

21、与现有技术相比，本专利技术具有以下有益效果：

22、1)本专利技术提出了基于parti扩散模型prompt文本生成3d模型方法，从parti扩散模型的高斯混合建模和dreambooth的角度重新形式化了text-to-3d问题，把3d参数建模为一个概率分布，并优化其渲染的二维图片的分布和预训练2d扩散模型的分布间的距离。本专利技术通过3d参数近似了从3d分布中采样的过程，解决了dreamfusion缺少多样性等问题。

23、2)本专利技术采用dreambooth提供了比高斯噪声更精细的更新方向，可以得到远超传统算法的精细结果。由dreambooth定义的更复杂的概率分布，因此可以得到更好的结果。生成质量良好，解决了传统算法的过饱和、过平滑、缺少多样性等问题。

本文档来自技高网...

【技术保护点】

1.一种基于Parti扩散模型的文本生成3D模型方法，其特征在于，所述方法步骤包括：

2.根据权利要求1所述的一种基于Parti扩散模型的文本生成3D模型方法，其特征在于，得到所述2D图像的概率分布的具体步骤如下：

3.根据权利要求2所述的一种基于Parti扩散模型的文本生成3D模型方法，其特征在于，在每次迭代中，所述相机的位置在球面坐标中从设定的俯视角范围、方位角以及原点的距离中通过插值采样得到。

4.根据权利要求2所述的一种基于Parti扩散模型的文本生成3D模型方法，其特征在于，所述2D渲染图像的渲染方式包括：照明的彩色渲染和无纹理渲染。

5.根据权利要求2所述的一种基于Parti扩散模型的文本生成3D模型方法，其特征在于，渲染结束后计算损失函数相对于Parti参数的梯度；所述损失函数采用Huber。

6.根据权利要求1所述的一种基于Parti扩散模型的文本生成3D模型方法，其特征在于，所述更新3D物体的具体步骤如下：

7.根据权利要求6所述的一种基于Parti扩散模型的文本生成3D模型方法，其特征在于

8.根据权利要求6所述的一种基于Parti扩散模型的文本生成3D模型方法，其特征在于，所述3D物体采用Adadelta优化器进行更新。

9.一种基于Parti扩散模型的文本生成3D模型装置，包括存储器、处理器，以及存储于所述存储器中的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。

10.一种存储介质，其上存储有程序，其特征在于，所述程序被执行时实现如权利要求1-8中任一所述的基于Parti扩散模型的文本生成3D模型方法。

...

【技术特征摘要】

1.一种基于parti扩散模型的文本生成3d模型方法，其特征在于，所述方法步骤包括：

2.根据权利要求1所述的一种基于parti扩散模型的文本生成3d模型方法，其特征在于，得到所述2d图像的概率分布的具体步骤如下：

3.根据权利要求2所述的一种基于parti扩散模型的文本生成3d模型方法，其特征在于，在每次迭代中，所述相机的位置在球面坐标中从设定的俯视角范围、方位角以及原点的距离中通过插值采样得到。

4.根据权利要求2所述的一种基于parti扩散模型的文本生成3d模型方法，其特征在于，所述2d渲染图像的渲染方式包括：照明的彩色渲染和无纹理渲染。

5.根据权利要求2所述的一种基于parti扩散模型的文本生成3d模型方法，其特征在于，渲染结束后计算损失函数相对于parti参数的梯度；所述损失函数采用hube...

【专利技术属性】
技术研发人员：吴强，唐昊，孙淼越，
申请(专利权)人：上海幻维数码创意科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人