【技术实现步骤摘要】
本专利技术属于计算机视觉,涉及利用计算机视觉、计算机图形学及深度学习技术生成大量可控的、逼真的、多样化的三维场景,尤其涉及一种基于大语言模型的可控布局表征技术和三维场景生成方法,可用于实现通用的、多样化的三维场景表征与生成。
技术介绍
1、近年来,随着大语言模型、扩散模型、多模态生成算法等技术的积累和交叉融合,生成式人工智能(aigc)取得了巨大突破,并逐渐应用于人机对话、2d图像生成等多个领域任务。大语言模型提供了一种更加方便快捷的人机交互方式,能够利用指令调优和推理能力来解决涉及多个推理步骤的复杂微小任务。与大语言模型结合的生成式建模进一步将模态的类型拓展到了2d图像甚至是图像-文本对的多模态数据格式。其中,扩散模型被广泛应用于以文本为条件的图像生成模型。扩散模型利用正向的扩散过程来系统地扰动数据分布,然后通过学习反向扩散过程恢复数据的分布,从而构建一个高度灵活的图像生成模型。
2、生成式人工智能的成功很大程度上归功于其能够在较低人力物力的条件下大规模生成符合一定要求,满足一定标准的多样化内容(如文本、图像等)。尽管生成
...【技术保护点】
1.一种可控布局三维场景表征与生成方法,包括如下步骤:
2.如权利要求1所述的可控布局三维场景表征与生成方法,其特征在于,步骤1)中首先将要输入的文本和2D图像预处理为统一的文本格式和图像格式;对于输入的文本T,通过大语言模型进行语义抽取,得到文本对应的3D Layout空间位置描述Ti,其中Ti代表第i个局部文本提示对象;对于输入的2D图像I,通过3D感知模型对输入的2D图像特征进行识别、检测、分割,得到2D图像对应的3D Layout空间位置信息Ii,其中Ii代表第i个局部图像指示对象。
3.如权利要求2所述的可控布局三维场景表征与生成方法
...【技术特征摘要】
1.一种可控布局三维场景表征与生成方法,包括如下步骤:
2.如权利要求1所述的可控布局三维场景表征与生成方法,其特征在于,步骤1)中首先将要输入的文本和2d图像预处理为统一的文本格式和图像格式;对于输入的文本t,通过大语言模型进行语义抽取,得到文本对应的3d layout空间位置描述ti,其中ti代表第i个局部文本提示对象;对于输入的2d图像i,通过3d感知模型对输入的2d图像特征进行识别、检测、分割,得到2d图像对应的3d layout空间位置信息ii,其中ii代表第i个局部图像指示对象。
3.如权利要求2所述的可控布局三维场景表征与生成方法,其特征在于,在步骤1)通过手动编辑调整3d layout空间布局。
4.如权利要求2所述的可控布局三维场景表征与生成方法,其特征在于,步骤2)中所述3d布局先验记为ψ(clsi,xi,yi,zi,l,h,w,φ,θ),其中,clsi表示从文本或2d图像中提取的第i个局部对象物体的类别编码,(xi,yi,zi)表示第i个局部对象物体中心点的三维空间位置坐标,(l,h,w)表示该位置物体包围框的长宽高参数,(φ,θ)表...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。