【技术实现步骤摘要】
本专利技术涉及计算机视觉及3d多模态,更具体的说是涉及一种基于关系和风格感知的多模态场景生成方法。
技术介绍
1、3d场景生成主要是指利用计算机技术以及相应的算法生成真实的3d场景,这项技术在电影、视频、游戏产业、增强和虚拟现实技术和机器人等领域有着巨大应用潜力。其中,可控制的场景合成是指以一种允许控制或操纵场景生成的过程,用户可以指定他们想要在生成的场景中出现的3d物体。现有的可控场景生成方法常用的控制机制主要有文本描述、语义映射和场景图。其中,场景图提供了一个强大的工具来抽象场景内容,包括场景上下文和对象关系,同时场景图可以为用户提供一个更适合的操作界面。
2、目前的场景图主要分为两种:第一种方法只学习生成场景布局,3d物体则是从给定的数据库中检索,例如graph-to-box;第二种方法同时学习生成场景布局和3d物体形状,例如:graph-to-3d。但是这两种方法都有明显的不足及缺陷:第一种基于检索的方法生成的物体形状受到检索的数据库的大小的限制;第二种方法,形状的生成依赖于预先训练好的形状编码,这些编码来自具有类别
...【技术保护点】
1.一种基于关系和风格感知的多模态场景生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,S1中使用嵌入层初始化节点的边的特征,两个相邻的节点的特征分别记为oi和oj,连接它们的边的特征记为qi→j,编码后的语义标签为pi,编码后的关系信息文本为pi→j:
3.根据权利要求2所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,S2中的形状编码器Es和布局编码器El均由图卷积神经网络组成,形状编码器Es输出每个节点的特征为fs,i,布局编码器El输出每个节点的特征为fl,
4...
【技术特征摘要】
1.一种基于关系和风格感知的多模态场景生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,s1中使用嵌入层初始化节点的边的特征,两个相邻的节点的特征分别记为oi和oj,连接它们的边的特征记为qi→j,编码后的语义标签为pi,编码后的关系信息文本为pi→j:
3.根据权利要求2所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,s2中的形状编码器es和布局编码器el均由图卷积神经网络组成,形状编码器es输出每个节点的特征为fs,i,布局编码器el输出每个节点的特征为fl,i:
4.根据权利要求3所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,s3中的特征交互模块ec的输入为形状编码器es和布局编码器el输出的串联,主体结构为图神经卷积网络,输出为fc:
5.根据权利要求4所述的一种基于关系和风格感知的多模态场景生成方法,其特征在于,s4中形状解码器ds和布局解码器dl的输入均为更新后的场景图(zi,fs,i,fl,i),布局解码器d...
【专利技术属性】
技术研发人员:雷印杰,冯俊球,李鹏,刘春黔,刘杰,林浩然,周礼亮,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。