当前位置: 首页 > 专利查询>厦门大学专利>正文

基于动态文本引导的文本驱动3D风格化方法技术

技术编号:38759057 阅读:14 留言:0更新日期:2023-09-10 09:44
基于动态文本引导的文本驱动3D风格化方法,涉及3D风格化方法。1)用文本引导的动态注意力模块来提高文本提示对目标纹理的引导效果;2)用动态通道和空间注意力获得对目标文本敏感的顶点特征;3)使用两个多层感知机分别提取颜色和位置特征,并使用可微渲染器对mesh进行渲染;4)提出标准的文本到mesh的数据集MIT

【技术实现步骤摘要】
基于动态文本引导的文本驱动3D风格化方法


[0001]本专利技术涉及3D风格化方法,尤其是涉及一种基于动态文本引导的快速精准的文本驱动的3D风格化方法。

技术介绍

[0002]使用自然语言指导对给定的3D mesh渲染的任务是计算机视觉和计算机图形学的一个长期目标。传统的风格化主要是通过劳动密集型生产方式,通过专业人员使用专业的软件对给定的3D表示进行操作,从而生成想要的风格化产品。传统的创造是资源消耗和人力消耗型工作,但3D风格化产品有一系列实际应用,如游戏、虚拟现实和电影。在可用的风格化技术中,文本驱动的3D风格化是用户友好型的技术,因为文本提示比图像或3D形状更容易获得。然而,由于视觉信息和语言信息之间的显著差异,通过文本输入创建风格化的3D产品是一个重大挑战。视觉语言预训练模型(CLIP)
[1]的出现使实现文本驱动的3D风格化成为可能。
[0003]最近,Text2Mesh
[2]和TANGO
[3]基于CLIP语义损失通过预测mesh上每个顶点的属性,在3D风格化任务中取得了不错的进展。具体来说,Text2Mesh预测每个mesh顶点的颜色和位移,以生成与目标文本提示对齐的风格化mesh。类似地,TANGO使用神经场来预测漫反射、粗糙度、镜面反射和法线贴图,以按照类似的方法创建真实感3D产品。另一方面,当前的3D风格化渲染工作没有统一的数据集和标准的指标对不同工作进行衡量的,在不同的数据集上进行测试,产生的结果没有办法横向比较,由于人工评价比较主观,可能导致文章优劣没有办法客观比较。
[0004]现有的文本驱动的3D风格化方法存在限制,阻碍了模型的效率和有效性。一个主要缺点是它们在预测mesh顶点属性时未能充分考虑输入文本的语义。当前的方法
[2][3][4][5][6]完全依赖于CLIP损失将风格化mesh中的渲染图像与文本提示对齐,而在预测顶点属性时没有任何额外的文本语义指导。这种方法导致了风格化效果较差和收敛速度较慢的问题。传统的神经风格网络在属性预测期间不使用文本指导,导致预测的顶点属性可能与输入文本的语义上下文不一致,产生了风格化上下文不一致的3D产品。此外,由于缺乏额外的文本指导,以前的方法很难迅速收敛到可接受的结果。
[0005]此外,对现有文本驱动的3D风格化方法的风格化结果的质量评估提出了重大挑战。这一挑战主要体现在两个方面。首先,缺乏文本驱动的3D风格化问题的标准基准对评估现有方法的有效性提出了挑战。如果没有固定的文本提示和mesh,从以前的方法获得的结果是无法比拟的。这反过来阻碍了进展和制定更有效的解决方案。其次,当前对风格化3D产品的评估严重依赖于用户研究,这是一个耗时且昂贵的过程。此外,这种评估方法还受到个人解释的制约,这进一步阻碍了结果的再现性和一致性。
[0006]为了解决传统神经风格网络中的不一致性和缓慢收敛问题,本专利技术提出X

Mesh一个利用文本语义指导来预测mesh顶点属性的方法。该方法生成与输入文本一致的高质量风格化结果。此外,顶点属性预测期间加入文本指导,X

Mesh通常只需200次迭代即可获得稳
定的结果。本专利技术基于一种新颖的文本驱动动态注意力模块(TDAM)
[7],增强模型的文本感知能力从而实现更精准的文本驱动3D风格化mesh。TDAM中的注意模块参数是由文本特征动态生成的,这使顶点特征具有提示意识,并有助于生成与提示相关的顶点属性。本专利技术提出了第一个基准数据集和两个自动评估指标,用于对文本驱动的3D风格化方法进行公平、客观和可重复的比较。基准数据集MIT

30
[8][9][10][11][12]包含30类未风格化的mesh,每一类都带有5个文本提示,用于不同的风格化。此外,本专利技术引入两个评估指标,以克服先前工作中使用的主观和不可再现用户研究的局限性。基于基准数据集和评估指标就有可能对文本驱动的3D风格化方法进行公平和全面的比较。
[0007]参考文献:
[0008][1].Radford A,Kim J W,Hallacy C,et al.Learning Transferable Visual Models From Natural Language Supervision[J].2021.
[0009][2].Michel O,Bar

On R,Liu R,et al.Text2Mesh:Text

Driven Neural Stylization for Meshes[J].2021.
[0010][3].Chen Y,Chen R,Lei J,et al.Tango:Text

driven photo

realistic and robust 3d stylization via lighting decomposition[J].arXivpreprint arXiv:2210.11277,2022.
[0011][4].Mohammad Khalid N,Xie T,Belilovsky E,et al.CLIP

Mesh:Generating textured meshes from text using pretrained image

text models[C]//SIGGRAPH Asia 2022Conference Papers.2022:1

8.
[0012][5].Sanghi A,Chu H,Lambourne J G,et al.Clip

forge:Towards zero

shot text

to

shape generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:18603

18613.
[0013][6].Hong F,Zhang M,Pan L,et al.Avatarclip:Zero

shot text

driven generation and animation of3d avatars[J].arXiv preprint arXiv:2205.08535,2022.
[0014][7].Ye J,Tian J,Yan M,et al.Shifting more attention to visual backbone:Query

modulated refinement networks for end

to

end visual groundi本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于动态文本引导的文本驱动3D风格化方法,其特征在于包括以下步骤:1)用文本引导的动态注意力模块来提高文本提示对目标纹理的引导效果;2)用动态通道和空间注意力获得对目标文本敏感的顶点特征;3)使用两个多层感知机分别提取颜色和位置特征,并使用可微渲染器对mesh进行渲染;4)提出标准的文本到mesh的基准数据集MIT

30;5)提出两个自动评估指标以提供模型间更公平的对比标准。2.如权利要求1所述基于动态文本引导的文本驱动3D风格化方法,其特征在于在步骤1)中,所述用文本引导的动态注意力模块来提高文本提示对目标纹理的引导效果的具体方法为:将输入的文本提示经由CLIPTextEncoder编码,以及输入mesh的位置编码同时喂入动态线性层中,从而增强文本对目标纹理的引导作用。3.如权利要求1所述基于动态文本引导的文本驱动3D风格化方法,其特征在于在步骤2)中,所述用动态通道和空间注意力获得对目标文本敏感的顶点特征,具体步骤包括:(1)动态通道关注的目标是仅激活与目标文本相关的顶点特征的通道,给定顶点特征
·
N
v
是顶点数,D
v
是该输入mesh的通道维度,将其传递给动态MLP,通过平均池聚合空间维度;为了获得通道关注图,使用Sigmoid激活函数将值归一化到0到1的范围,如下:其中,表示通道注意力映射,σ(
·
)表示Sigmoid函数,η1(
·
)表示动态MLP;获得通道激活的顶点特征如下所示:如下所示:表示元素乘积;(2)空间注意力的目标是激活与目标文本相关的顶点;将通道激活的顶点特征F送到另一个动态MLP中,并使用平均函数聚合通道维度;使用Sigmoid激活函数对输出进行归一化,如下:其中,表示通道注意力映射,η2(
·
)表示动态MLP不与η1(
·
)共享参数;获得空间激活的顶点特征如下:4.如权利要求1所述基于动态文本引导的文本驱动3D风格化方法,其特征在于在步骤3)中,所述使用两个多层感知机分别提取颜色和位置特...

【专利技术属性】
技术研发人员:纪荣嵘孙晓帅马祎炜张晓庆
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1