System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本生成3d模型生成,尤其是涉及一种基于parti扩散模型prompt文本生成3d模型方法及装置。
技术介绍
1、在计算机视觉中,生成模型是一类能够生成合成图像的模型。例如,一个被训练来生成人脸的模型,每次都会生成一张从未被该模型或任何人看到过的人脸。生成模型最著名的例子是gan(生成对抗网络)。它有生成器和鉴别器,它们相互对抗,然后生成图像。由于模型本身具有对抗性,因此很难进行训练。这使得很难达到一个最优的平衡。利用扩散模型可以解决这个问题。
2、扩散模型也是生成模型,扩散模型背后的直觉来源于物理学。在物理学中气体分子从高浓度区域扩散到低浓度区域,这与由于噪声的干扰而导致的信息丢失是相似的。所以通过引入噪声,然后尝试通过去噪来生成图像。在一段时间内通过多次迭代,模型每次在给定一些噪声输入的情况下学习生成新图像。
3、在数字创作和虚拟现实等领域,从文本到三维模型(text-to-3d)的技术具有重要的价值和广泛的应用潜力。这种技术可以从简单的文本描述中生成具体的3d模型,为设计师、游戏开发者和数字艺术家提供强大的工具。然而,为了根据文本生成准确的3d模型,传统方法需要大量的标记3d模型数据集。这些数据集需要包含多种不同类型和风格的3d模型,并且每个模型都需要与相应的文本描述相关联。创建这样的数据集需要大量的时间和人力资源,目前还没有现成的大规模数据集可供使用。
4、由谷歌提出的dreamfusion利用预训练的文本到图像扩散模型,首次在无需3d数据的情况下完成开放域的文本到3d的
技术实现思路
1、本专利技术的目的是克服上述现有技术存在的缺陷而提供一种基于parti扩散模型的文本生成3d模型方法及装置。
2、本专利技术的目的可以通过以下技术方案来实现:
3、作为本专利技术的第一方面,提供一种基于parti扩散模型的文本生成3d模型方法,所述方法步骤包括:
4、采用dreambooth预训练基于parti的2d扩散模型;
5、对于给定的prompt文本输入,得到包含该输入文本描述下所有可能3d物体的3d概率分布;
6、基于输入文本的3d概率分布,对3d概率分布中每一个3d物体通过相机与parti扩散模型渲染到2d,得到2d图像的概率分布;
7、计算2d渲染图像的概率分布与预训练parti扩散模型的概率分布之间的距离,并使用优化器更新3d物体。
8、进一步的,得到所述2d图像的概率分布的具体步骤如下:
9、随机采样相机和灯光;
10、在设置的相机和灯光下,考虑相机的姿势和光线的位置渲染parti扩散模型,得到2d图像。
11、进一步的,在每次迭代中,所述相机的位置在球面坐标中从设定的俯视角范围、方位角以及原点的距离中通过插值采样得到。
12、进一步的,所述2d渲染图像的渲染方式包括:照明的彩色渲染和无纹理渲染。
13、进一步的,渲染结束后计算损失函数相对于parti参数的梯度;所述损失函数采用huber。
14、进一步的,所述更新3d物体的具体步骤如下:
15、计算当前3d物体引导渲染得到的2d图像的概率分布的得分函数;
16、使用优化器更新3d物体,使得收敛得到的概率分布与预训练的parti扩散模型的kl散度最小。
17、进一步的,所述得分函数采用二元交叉熵。
18、进一步的,所述3d物体采用adadelta优化器进行更新。
19、作为本专利技术的第二方面,提供一种基于parti扩散模型的文本生成3d模型装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上所述的方法。
20、作为本专利技术的第三方面,提供一种存储介质,其上存储有程序,所述程序被执行时实现如上所述的基于parti扩散模型的文本生成3d模型方法。
21、与现有技术相比,本专利技术具有以下有益效果:
22、1)本专利技术提出了基于parti扩散模型prompt文本生成3d模型方法,从parti扩散模型的高斯混合建模和dreambooth的角度重新形式化了text-to-3d问题,把3d参数建模为一个概率分布,并优化其渲染的二维图片的分布和预训练2d扩散模型的分布间的距离。本专利技术通过3d参数近似了从3d分布中采样的过程,解决了dreamfusion缺少多样性等问题。
23、2)本专利技术采用dreambooth提供了比高斯噪声更精细的更新方向,可以得到远超传统算法的精细结果。由dreambooth定义的更复杂的概率分布,因此可以得到更好的结果。生成质量良好,解决了传统算法的过饱和、过平滑、缺少多样性等问题。
本文档来自技高网...【技术保护点】
1.一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,所述方法步骤包括:
2.根据权利要求1所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,得到所述2D图像的概率分布的具体步骤如下:
3.根据权利要求2所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,在每次迭代中,所述相机的位置在球面坐标中从设定的俯视角范围、方位角以及原点的距离中通过插值采样得到。
4.根据权利要求2所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,所述2D渲染图像的渲染方式包括:照明的彩色渲染和无纹理渲染。
5.根据权利要求2所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,渲染结束后计算损失函数相对于Parti参数的梯度;所述损失函数采用Huber。
6.根据权利要求1所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,所述更新3D物体的具体步骤如下:
7.根据权利要求6所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于
8.根据权利要求6所述的一种基于Parti扩散模型的文本生成3D模型方法,其特征在于,所述3D物体采用Adadelta优化器进行更新。
9.一种基于Parti扩散模型的文本生成3D模型装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。
10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-8中任一所述的基于Parti扩散模型的文本生成3D模型方法。
...【技术特征摘要】
1.一种基于parti扩散模型的文本生成3d模型方法,其特征在于,所述方法步骤包括:
2.根据权利要求1所述的一种基于parti扩散模型的文本生成3d模型方法,其特征在于,得到所述2d图像的概率分布的具体步骤如下:
3.根据权利要求2所述的一种基于parti扩散模型的文本生成3d模型方法,其特征在于,在每次迭代中,所述相机的位置在球面坐标中从设定的俯视角范围、方位角以及原点的距离中通过插值采样得到。
4.根据权利要求2所述的一种基于parti扩散模型的文本生成3d模型方法,其特征在于,所述2d渲染图像的渲染方式包括:照明的彩色渲染和无纹理渲染。
5.根据权利要求2所述的一种基于parti扩散模型的文本生成3d模型方法,其特征在于,渲染结束后计算损失函数相对于parti参数的梯度;所述损失函数采用hube...
【专利技术属性】
技术研发人员:吴强,唐昊,孙淼越,
申请(专利权)人:上海幻维数码创意科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。