一种由文本生成3D场景的方法、系统、介质及程序产品技术方案

技术编号：43495414 阅读：31 留言：0更新日期：2024-11-29 17:03

本发明专利技术涉及一种由文本生成3D场景的方法，其首先使用一个轨迹扩散变换器作为摄影指导，根据文本描述来建模相机轨迹的分布；接下来，一个由高斯驱动的多视图潜变量扩散模型作为装饰者，根据相机轨迹和文本来建模图像序列分布。这个模型是从一个2D扩散模型微调而来，可以直接生成与像素对齐的3D高斯，作为直接的3D场景表现形式，用于三维一致的去噪；最后，这些3D高斯通过一种新颖的融合了2D扩散模型的先验知识的SDS++损失，作为细节优化者进一步细化得到真实的3D场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉、图形学，具体涉及一种由文本生成3d场景的方法、系统、介质及程序产品。

技术介绍

1、从文本生成3d场景的技术在游戏、机器人和vr/ar等领域具有巨大的潜力。早期的方法通过分数蒸馏采样来优化3d表示，但这一过程冗长且不稳定。相比之下，较新的方法利用前馈网络、扩散模型和重建模型，直接从文本或文本引导的多视图图像中生成3d表示，显著提高了生成速度。此外，3d高斯技术进一步加快了训练和渲染速度，推动了文本到3d生成的下一波进展。然而，目前大多数方法仅关注对象级的3d生成。尽管最近的一些研究着手解决场景级的3d生成问题，然而由于只依赖于2d先验或有限的几种3d数据集，现有方法在视觉质量、生成速度和泛化能力方面仍然存在不足。

2、公开号为cn117953180a的中国专利申请提出高效一致的文本到3d双模式多视图潜变量扩散生成方法，方法利用二维隐变量扩散模型联合训练一个双模式多视图隐变量扩散模型；获取待生成三维物体的文本，基于效率与一致性权衡策略，利用双模式多视图隐变量扩散模型对文本进行推理，生成第一三维物体；最...

【技术保护点】

1.一种由文本生成3D场景的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种由文本生成3D场景的方法，其特征在于，所述步骤S1中，训练轨迹扩散转换器的步骤具体包括：

3.根据权利要求2所述的一种由文本生成3D场景的方法，其特征在于，所述步骤S2中，高斯驱动的多视图潜变量扩散模型训练步骤具体包括：

4.根据权利要求3所述的一种由文本生成3D场景的方法，其特征在于，所述步骤S3中，SDS++优化3D高斯图像的步骤具体包括：

5.一种由文本生成3D场景的系统，其特征在于，包括存储器、处理器及存储在存储器上的计算机程序，所述处...

【技术特征摘要】

1.一种由文本生成3d场景的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种由文本生成3d场景的方法，其特征在于，所述步骤s1中，训练轨迹扩散转换器的步骤具体包括：

3.根据权利要求2所述的一种由文本生成3d场景的方法，其特征在于，所述步骤s2中，高斯驱动的多视图潜变量扩散模型训练步骤具体包括：

4.根据权利要求3所述的一种由文本生成3d场景的方法，其特征在于，所述步骤s3中，sds++优化3d高斯图像的步骤具体包括：

5.一种由文本生成3d场景...

【专利技术属性】
技术研发人员：纪荣嵘，赖章宇，李新阳，曹刘娟，张声传，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人