一种细粒度语义操控的场景渲染方法和装置制造方法及图纸

技术编号:38436165 阅读:32 留言:0更新日期:2023-08-11 14:21
本发明专利技术涉及场景渲染技术领域,公开了一种细粒度语义操控的场景渲染方法,通过在语义理解单元构建依存句法树,能够描述需求文本细粒度语义,进而识别需求文本中细粒度信息,从而准确定位图片区域,实现渲染结果和需求文本的高匹配。此外,将需求文本转为依存句法树,并在树上装配推理模块,加强了场景图特征和文本特征的关联,定位更加准确。本发明专利技术还设计了一个正则器来约束场景生成模型,能够准确对目标区域的视觉信息进行修改,而不会影响其它无关区域。本发明专利技术无需人工圈定编辑区域,可以直接理解文本的需求,能够对原始场景图进行细粒度的局部编辑。用户可以以文本形式提出编辑需求,对场景图进行增加,删除和修改,实现便捷可操控的渲染。控的渲染。控的渲染。

【技术实现步骤摘要】
一种细粒度语义操控的场景渲染方法和装置


[0001]本专利技术涉及场景渲染
,特别是涉及一种细粒度语义操控的场景渲染方法和装置。

技术介绍

[0002]随着人工智能的快速发展和人民生活水平的不断提高,室内室外场景等空间设计的需求在不断变大。可视化的场景设计已经成为重要的应用场景,对应的渲染技术也逐步获得研究者的广泛关注。无论是艺术领域、科研领域还是工程领域,将计算机技术应用到场景设计的研究日益火热。传统的场景设计流程一般先做用户的需求分析,并由设计师根据需求组装场景的组建,最后通过渲染给用户展示可视化的结果。其中渲染涉及大量的计算步骤,需要使用高性能的机器和花费大量的运行时间,部分复杂的场景甚至需要数天时间。而且在空间设计领域,用户的设计通常还是模糊的。部分用户甚至不能确定具体的设计需求。他们倾向于观看效果图并做修改来确认设计方案。例如,在室内场景设计中,用户对某块墙不满意,要求修改为窗来增加光线。对于这种需求,设计师需要手工圈定要修改的区域,并调整相关的场景图组件,譬如找一个窗的小图块替换墙的区域,然后重新渲染全局的场景来输出。针对用户本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种细粒度语义操控的场景渲染方法,其特征在于,包括如下步骤:S1:将场景图I输入目标检测单元,目标检测单元对场景图I中各实体对象进行定位,并对实体所处区域的视觉信息进行编码,输出区域特征编码集合V={v1,

,v
M
},其中M为检测到的区域数量,V中元素描述了第i个区域中实体目标的视觉信息以及所属的实体类别,其中d
v
为区域特征编码维度;S2:将需求文本Q={q1,

,q
m
}输入语义理解单元,语义理解单元利用语法解析器将需求文本Q={q1,

,q
m
}转换为依存句法树,对应的树节点的特征集合为它用于描述需求文本细粒度语义;在此基础上,获取需求文本全局特征编码理解用户意图来生成相应的操控指令编码其中,m为需求文本长度,d
q
为需求文本特征编码维度,op维度与场景图目标检测单元输出的区域特征编码维度d
v
一致,依存句法树节点特征集合H作为参考信息来辅助后置的定位单元来准确定位出待更新的区域;S3:将来自目标检测单元的区域特征编码集合V={v1,

,v
M
}和来自语义理解单元的需求文本的依存句法树节点特征编码集合输入定位推理单元,定位推理单元计算每个图像区域i关于的定位评分S(v
i
,H),从而确定得分最高的一项作为编辑区域,并且定位推理单元采用树形模块化网络,将视觉定位过程规范至依存句法树中,为树中每个节点装配一个计算区域临时定位评分的神经模块网络,通过自底向上整合这些临时评分来最终获得每个区域的定位评分,选取定位评分最高的区域l作为待编辑区域,待编辑区域l的特征编码为v
l
;S4:将来自语义理解单元的文本中识别编辑操作op和来自定位推理单元确定的待编辑区域l的特征编码v
l
输入内容渲染单元,内容渲染单元根据从文本中识别的编辑操作op来对待编辑区域l的特征编码v
l
进行修改,并将修改后的特征输入到生成器中进行渲染;内容渲染单元以GAN网络作为生成器,并设计一个正则化器来对生成器进行训练,即将操控指令编码op添加进待编辑区域的特征编码v
l
中,并将修改后的区域特征编码集合输入到GAN网络中输出渲染后的场景其中α为预设参数,2.根据权利要求1所述的一种细粒度语义操控的场景渲染方法,其特征在于,在步骤S1中,目标检测单元包括主干特征提取网络、高阶特征建模网络和目标检测器,主干特征提取网络,由CSPNet网络和DarkNet53全卷积神经网络组合而成;CSPNet将原始输入特征V0划分为两部分V0′
和V0″
,并输入到具有双通路的跨阶段层次结构进行合并;DarkNet53全卷积神经网络包含53个卷积层,每个卷积层后面跟随着批量正则化层和激活层;DarkNet53全卷积神经网络没有池化层,使用步幅为2的卷积层替代池化层进行特征图的降采样过程;DarkNet53全卷积神经网络还包含5个CSPNet模块;高阶特征建模网络,由SPP网络和PANet网络两部分组成;SPP网络对特征映射图实行多
尺度下的最大池化操作,提高网络的感受野,发掘场景图中重要的上下文信息;PANet网络在特征金字塔网络FPN的基础上添加了一条自下而上的捷径,使得细粒度的局部信息可以直接用于顶层;目标检测器,采用锚框检测算法来预测目标实体,由三个YOLO head组成,使用K

means算法对样本目标聚类得出先验框大小,进而利用相对偏移量计算出目标对象所处预测框的大小及位置;并改用CIOU误差,设目标对象所处真实框为a、计算得到的预测框为b,CIOU误差的计算如下所示:差的计算如下所示:差的计算如下所示:其中IOU
(a,b)
为真实框和预测框的交并比、ρ2(a,b)是真实框和预测框中心点间的欧氏距离、d为包含真实框和预测框的最小框的对角线距离、(gw,gh)和(pw,ph)分别为真实框和预测框的宽和高。3.根据权利要求2所述的一种细粒度语义操控的场景渲染方法,其特征在于,使用深度可分离卷积网络替换CSPNet模块中3
×
3、步长为1的标准卷积层,深度可分离卷积由逐深度卷积和逐点卷积组成,其中,逐深度卷积采用大小为k
×
k的卷积核处理输入特征映射图,卷积核个数与特征映射图通道数c1保持一致;逐点卷积则是利用大小为1
×
1的c2个卷积核来整合逐深度卷积后的结果,并改变最终输出特征映射图的通道数。4.根据权利要求2所述的一种细粒度语义操控的场景渲染方法,其特征在于,在SPP网络中,把SPP通道数为c的输入特征映射图分两部分输入到优化后的网络中,其中一部分特征经过跳跃连接与多尺度特征拼接;在PANet网络中,通过跳跃连接将将两个连续的残差块包围起来,以替代原网络中5个连续的卷积层。5.根据权利要求1所述的一种细粒度语义操控的场景渲染方法,其特征在于,在步骤S2中,语义理解单元使用一款开源的依存语法解析器来得到需求文本的语法树,然后利用双向树形LSTM神经网络来表示树中节点的特征,双向树形LSTM网络可以捕捉书中节点的关联依赖关系,编码出父节点与子节点的上下文语义信息,具体地,对于树中节点t,本单元将其对应词q
t
的表示向量W
emb
e
t
输入到双向树形LSTM网络中,最终获取该节点的特征编码其中W
emb
为可训练的词嵌入矩阵、e
t
为对应词的独热编码、分别为自底向上和自顶向下方向树形LSTM网络的输出结果,最终取树中所有节点特征编码的平均值作为需求文本的全局特征编码q,并将其映射为相应的操控指令编码均值作为需求文本的全局特征编码q,并将其映射为相应的操控指令编码其中分别为可训练的权重和偏置项。6.根据权利要求2所述的一种细粒度语义操控的场景渲染方法,其特征在于,在步骤S3中,定位推理单元包括评分模块、整合模块以及关系推理模块,每个模块在对应节点t上更新关于场景图各区域的临时定位评分其中,评分模块:用于评估每个场景图的区域特征编码和树中目标节点特征编码的相似度,
仅装配至叶节点和根节点;首先计算每个区域的特征编码v
i
与该节点特征编码h
t
相似度S

【专利技术属性】
技术研发人员:余建兴王世祺董晓张宇锋崔岩印鉴
申请(专利权)人:珠海市四维时代网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1