一种基于关系和风格感知的多模态场景生成方法技术

技术编号：40317961 阅读：33 留言：0更新日期：2024-02-07 21:00

本发明专利技术公开了一种基于关系和风格感知的多模态场景生成方法，应用于计算机视觉及3D多模态技术领域。使用多模态大模型‑CLIP增强场景图数据的上下文关系信息，同时采用基于图卷积神经网络的双流结构，分别预测场景布局和相应的3D形状。其中在形状支路中，选择隐式扩散模型作为生成模型，解码器解码出关系形状嵌入作为其隐式条件。用户可输入风格文本，例如：中国风，中世纪风，欧洲风格等，然后利用生成的形状先验与神经辐射场，以CLIP作为优化时的指导，最后得到细粒度的3D场景。本发明专利技术可以通过场景图及用户输入的风格文本，实现可控的场景生成及风格感知，解决了目前现有的场景生成方法的不足。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉及3d多模态，更具体的说是涉及一种基于关系和风格感知的多模态场景生成方法。

技术介绍

1、3d场景生成主要是指利用计算机技术以及相应的算法生成真实的3d场景，这项技术在电影、视频、游戏产业、增强和虚拟现实技术和机器人等领域有着巨大应用潜力。其中，可控制的场景合成是指以一种允许控制或操纵场景生成的过程，用户可以指定他们想要在生成的场景中出现的3d物体。现有的可控场景生成方法常用的控制机制主要有文本描述、语义映射和场景图。其中，场景图提供了一个强大的工具来抽象场景内容，包括场景上下文和对象关系，同时场景图可以为用户提供一个更适合的操作界面。

2、目前的场景图主要分为两种：第一种方法只学习生成场景布局，3d物体则是从给定的数据库中检索，例如graph-to-box；第二种方法同时学习生成场景布局和3d物体形状，例如：graph-to-3d。但是这两种方法都有明显的不足及缺陷：第一种基于检索的方法生成的物体形状受到检索的数据库的大小的限制；第二种方法，形状的生成依赖于预先训练好的形状编码，这些编码来自具有类别...

【技术保护点】

1.一种基于关系和风格感知的多模态场景生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S1中使用嵌入层初始化节点的边的特征，两个相邻的节点的特征分别记为oi和oj，连接它们的边的特征记为qi→j，编码后的语义标签为pi，编码后的关系信息文本为pi→j：

3.根据权利要求2所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，S2中的形状编码器Es和布局编码器El均由图卷积神经网络组成，形状编码器Es输出每个节点的特征为fs，i，布局编码器El输出每个节点的特征为fl，i：

4...

【技术特征摘要】

1.一种基于关系和风格感知的多模态场景生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，s1中使用嵌入层初始化节点的边的特征，两个相邻的节点的特征分别记为oi和oj，连接它们的边的特征记为qi→j，编码后的语义标签为pi，编码后的关系信息文本为pi→j：

3.根据权利要求2所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，s2中的形状编码器es和布局编码器el均由图卷积神经网络组成，形状编码器es输出每个节点的特征为fs，i，布局编码器el输出每个节点的特征为fl，i：

4.根据权利要求3所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，s3中的特征交互模块ec的输入为形状编码器es和布局编码器el输出的串联，主体结构为图神经卷积网络，输出为fc：

5.根据权利要求4所述的一种基于关系和风格感知的多模态场景生成方法，其特征在于，s4中形状解码器ds和布局解码器dl的输入均为更新后的场景图(zi，fs，i，fl，i)，布局解码器d...

【专利技术属性】
技术研发人员：雷印杰，冯俊球，李鹏，刘春黔，刘杰，林浩然，周礼亮，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人