基于大语言模型的可控布局三维场景表征与生成方法技术

技术编号：40143205 阅读：45 留言：0更新日期：2024-01-23 23:56

本发明专利技术公开了一种基于大语言模型的可控布局三维场景表征与生成方法，利用文本和图像提示条件下的3D Layout作为三维多物体场景的空间状态表征，经过大语言模型和3D感知模型对指定的文本或图像进行三维空间状态抽取，并利用抽取得到的类别和空间位置状态信息生成3D Layout空间状态表征，之后利用神经辐射场和扩散模型在生成的3D Layout基础上进一步生成得到逼真的三维实景，从而实现高保真、多样化、高可控的三维场景生成。该方法打破了常规手动3D场景建模的思路，不依赖特定的大语言模型和扩散生成模型，且能够应用在复杂多样的三维场景生成中，包括但不限于多物体组合场景、室内场景、室外场景等，生成的场景几何形状精准、渲染质量高，简单高效，可控性强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，涉及利用计算机视觉、计算机图形学及深度学习技术生成大量可控的、逼真的、多样化的三维场景，尤其涉及一种基于大语言模型的可控布局表征技术和三维场景生成方法，可用于实现通用的、多样化的三维场景表征与生成。

技术介绍

1、近年来，随着大语言模型、扩散模型、多模态生成算法等技术的积累和交叉融合，生成式人工智能(aigc)取得了巨大突破，并逐渐应用于人机对话、2d图像生成等多个领域任务。大语言模型提供了一种更加方便快捷的人机交互方式，能够利用指令调优和推理能力来解决涉及多个推理步骤的复杂微小任务。与大语言模型结合的生成式建模进一步将模态的类型拓展到了2d图像甚至是图像-文本对的多模态数据格式。其中，扩散模型被广泛应用于以文本为条件的图像生成模型。扩散模型利用正向的扩散过程来系统地扰动数据分布，然后通过学习反向扩散过程恢复数据的分布，从而构建一个高度灵活的图像生成模型。

2、生成式人工智能的成功很大程度上归功于其能够在较低人力物力的条件下大规模生成符合一定要求，满足一定标准的多样化内容(如文本、图像等)。尽管生成...

【技术保护点】

1.一种可控布局三维场景表征与生成方法，包括如下步骤：

2.如权利要求1所述的可控布局三维场景表征与生成方法，其特征在于，步骤1)中首先将要输入的文本和2D图像预处理为统一的文本格式和图像格式；对于输入的文本T，通过大语言模型进行语义抽取，得到文本对应的3D Layout空间位置描述Ti，其中Ti代表第i个局部文本提示对象；对于输入的2D图像I，通过3D感知模型对输入的2D图像特征进行识别、检测、分割，得到2D图像对应的3D Layout空间位置信息Ii，其中Ii代表第i个局部图像指示对象。

3.如权利要求2所述的可控布局三维场景表征与生成方法，其特征在于，在步骤...

【技术特征摘要】

1.一种可控布局三维场景表征与生成方法，包括如下步骤：

2.如权利要求1所述的可控布局三维场景表征与生成方法，其特征在于，步骤1)中首先将要输入的文本和2d图像预处理为统一的文本格式和图像格式；对于输入的文本t，通过大语言模型进行语义抽取，得到文本对应的3d layout空间位置描述ti，其中ti代表第i个局部文本提示对象；对于输入的2d图像i，通过3d感知模型对输入的2d图像特征进行识别、检测、分割，得到2d图像对应的3d layout空间位置信息ii，其中ii代表第i个局部图像指示对象。

3.如权利要求2所述的可控布局三维场景表征与生成方法，其特征在于，在步骤1)通过手动编辑调整3d layout空间布局。

4.如权利要求2所述的可控布局三维场景表征与生成方法，其特征在于，步骤2)中所述3d布局先验记为ψ(clsi，xi，yi，zi，l，h，w，φ，θ)，其中，clsi表示从文本或2d图像中提取的第i个局部对象物体的类别编码，(xi，yi，zi)表示第i个局部对象物体中心点的三维空间位置坐标，(l，h，w)表示该位置物体包围框的长宽高参数，(φ，θ)表...

【专利技术属性】
技术研发人员：王勇涛，周啸宇，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人