System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于Parti扩散模型的文本生成3D模型方法及装置制造方法及图纸_技高网

基于Parti扩散模型的文本生成3D模型方法及装置制造方法及图纸

技术编号:40188038 阅读:5 留言:0更新日期:2024-01-26 23:51
本发明专利技术涉及一种基于Parti扩散模型的文本生成3D模型方法及装置,采用Dreambooth预训练基于Parti的2D扩散模型;对于给定的Prompt文本输入,得到包含输入文本描述下所有可能3D物体的3D概率分布;基于3D概率分布,对每一个3D物体通过相机与Parti扩散模型渲染到2D,得到2D图像的概率分布;计算2D渲染图像的概率分布与预训练Parti扩散模型的概率分布之间的距离,并使用优化器更新3D物体。本发明专利技术重新形式化了文本生成3D问题,把3D参数建模为一个概率分布,将优化3D分布等效地转换为优化其渲染的二维图片分布和预训练2D扩散模型分布间的距离,解决了现有技术缺少多样性等问题。

【技术实现步骤摘要】

本专利技术涉及文本生成3d模型生成,尤其是涉及一种基于parti扩散模型prompt文本生成3d模型方法及装置。


技术介绍

1、在计算机视觉中,生成模型是一类能够生成合成图像的模型。例如,一个被训练来生成人脸的模型,每次都会生成一张从未被该模型或任何人看到过的人脸。生成模型最著名的例子是gan(生成对抗网络)。它有生成器和鉴别器,它们相互对抗,然后生成图像。由于模型本身具有对抗性,因此很难进行训练。这使得很难达到一个最优的平衡。利用扩散模型可以解决这个问题。

2、扩散模型也是生成模型,扩散模型背后的直觉来源于物理学。在物理学中气体分子从高浓度区域扩散到低浓度区域,这与由于噪声的干扰而导致的信息丢失是相似的。所以通过引入噪声,然后尝试通过去噪来生成图像。在一段时间内通过多次迭代,模型每次在给定一些噪声输入的情况下学习生成新图像。

3、在数字创作和虚拟现实等领域,从文本到三维模型(text-to-3d)的技术具有重要的价值和广泛的应用潜力。这种技术可以从简单的文本描述中生成具体的3d模型,为设计师、游戏开发者和数字艺术家提供强大的工具。然而,为了根据文本生成准确的3d模型,传统方法需要大量的标记3d模型数据集。这些数据集需要包含多种不同类型和风格的3d模型,并且每个模型都需要与相应的文本描述相关联。创建这样的数据集需要大量的时间和人力资源,目前还没有现成的大规模数据集可供使用。

4、由谷歌提出的dreamfusion利用预训练的文本到图像扩散模型,首次在无需3d数据的情况下完成开放域的文本到3d的合成。但是dreamfusion生成结果面临严重的过饱和、缺少细节等问题。高质量3d模型生成目前仍然是非常困难的前沿难题。


技术实现思路

1、本专利技术的目的是克服上述现有技术存在的缺陷而提供一种基于parti扩散模型的文本生成3d模型方法及装置。

2、本专利技术的目的可以通过以下技术方案来实现:

3、作为本专利技术的第一方面,提供一种基于parti扩散模型的文本生成3d模型方法,所述方法步骤包括:

4、采用dreambooth预训练基于parti的2d扩散模型;

5、对于给定的prompt文本输入,得到包含该输入文本描述下所有可能3d物体的3d概率分布;

6、基于输入文本的3d概率分布,对3d概率分布中每一个3d物体通过相机与parti扩散模型渲染到2d,得到2d图像的概率分布;

7、计算2d渲染图像的概率分布与预训练parti扩散模型的概率分布之间的距离,并使用优化器更新3d物体。

8、进一步的,得到所述2d图像的概率分布的具体步骤如下:

9、随机采样相机和灯光;

10、在设置的相机和灯光下,考虑相机的姿势和光线的位置渲染parti扩散模型,得到2d图像。

11、进一步的,在每次迭代中,所述相机的位置在球面坐标中从设定的俯视角范围、方位角以及原点的距离中通过插值采样得到。

12、进一步的,所述2d渲染图像的渲染方式包括:照明的彩色渲染和无纹理渲染。

13、进一步的,渲染结束后计算损失函数相对于parti参数的梯度;所述损失函数采用huber。

14、进一步的,所述更新3d物体的具体步骤如下:

15、计算当前3d物体引导渲染得到的2d图像的概率分布的得分函数;

16、使用优化器更新3d物体,使得收敛得到的概率分布与预训练的parti扩散模型的kl散度最小。

17、进一步的,所述得分函数采用二元交叉熵。

18、进一步的,所述3d物体采用adadelta优化器进行更新。

19、作为本专利技术的第二方面,提供一种基于parti扩散模型的文本生成3d模型装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上所述的方法。

20、作为本专利技术的第三方面,提供一种存储介质,其上存储有程序,所述程序被执行时实现如上所述的基于parti扩散模型的文本生成3d模型方法。

21、与现有技术相比,本专利技术具有以下有益效果:

22、1)本专利技术提出了基于parti扩散模型prompt文本生成3d模型方法,从parti扩散模型的高斯混合建模和dreambooth的角度重新形式化了text-to-3d问题,把3d参数建模为一个概率分布,并优化其渲染的二维图片的分布和预训练2d扩散模型的分布间的距离。本专利技术通过3d参数近似了从3d分布中采样的过程,解决了dreamfusion缺少多样性等问题。

23、2)本专利技术采用dreambooth提供了比高斯噪声更精细的更新方向,可以得到远超传统算法的精细结果。由dreambooth定义的更复杂的概率分布,因此可以得到更好的结果。生成质量良好,解决了传统算法的过饱和、过平滑、缺少多样性等问题。

本文档来自技高网...

【技术保护点】

1.一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,所述方法步骤包括:

2.根据权利要求1所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,得到所述2D图像的概率分布的具体步骤如下:

3.根据权利要求2所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,在每次迭代中,所述相机的位置在球面坐标中从设定的俯视角范围、方位角以及原点的距离中通过插值采样得到。

4.根据权利要求2所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,所述2D渲染图像的渲染方式包括:照明的彩色渲染和无纹理渲染。

5.根据权利要求2所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,渲染结束后计算损失函数相对于Parti参数的梯度;所述损失函数采用Huber。

6.根据权利要求1所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,所述更新3D物体的具体步骤如下:

7.根据权利要求6所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,所述得分函数采用二元交叉熵。

8.根据权利要求6所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,所述3D物体采用Adadelta优化器进行更新。

9.一种基于Parti扩散模型的文本生成3D模型装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。

10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-8中任一所述的基于Parti扩散模型的文本生成3D模型方法。

...

【技术特征摘要】

1.一种基于parti扩散模型的文本生成3d模型方法,其特征在于,所述方法步骤包括:

2.根据权利要求1所述的一种基于parti扩散模型的文本生成3d模型方法,其特征在于,得到所述2d图像的概率分布的具体步骤如下:

3.根据权利要求2所述的一种基于parti扩散模型的文本生成3d模型方法,其特征在于,在每次迭代中,所述相机的位置在球面坐标中从设定的俯视角范围、方位角以及原点的距离中通过插值采样得到。

4.根据权利要求2所述的一种基于parti扩散模型的文本生成3d模型方法,其特征在于,所述2d渲染图像的渲染方式包括:照明的彩色渲染和无纹理渲染。

5.根据权利要求2所述的一种基于parti扩散模型的文本生成3d模型方法,其特征在于,渲染结束后计算损失函数相对于parti参数的梯度;所述损失函数采用hube...

【专利技术属性】
技术研发人员:吴强唐昊孙淼越
申请(专利权)人:上海幻维数码创意科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1