基于扩散模型的风格化图像生成方法技术

技术编号:39752508 阅读:8 留言:0更新日期:2023-12-17 23:50
本发明专利技术提供了一种基于扩散模型的风格化图像生成方法

【技术实现步骤摘要】
基于扩散模型的风格化图像生成方法、介质和设备


[0001]本专利技术涉及图像处理领域,尤其涉及一种基于扩散模型的风格化图像生成方法

存储介质

电子设备


技术介绍

[0002]图像

文本引导特定风格的图像生成是计算机视觉中重要的研究领域

指定风格的图像的引导生成技术可以在低成本前提下获取丰富的元素,但
2D
图像的指定风格生成技术难以被用于扩展现实
(XR)
中,因此发展三维模型的引导生成技术十分必要

实现这一目标通常有两个途径,其一是针对三维网格模型进行特定风格引导生成,另一种方法针对场景和物体的多视角图片进行风格化图像的引导生成,并且保证生成风格化图像之间的几何一致性

目前基本以第一种方法为主,可以简单地分为以下几种方案:
[0003]第一,纹理生成方法

纹理生成方法旨在生成多种纹理贴图,通过将不同的纹理贴图贴在原始的三维网格模型上从而得到具有不同外观的三维模型

但这一方法往往存在以下缺点:
(1)
由于纹理生成方法仅仅生成纹理贴图,而三维网格模型保持不变,通过将纹理贴图贴在模型表面所呈现出的效果通常不佳,与原始网格模型的外观区别较小,难以满足实际应用需求;
(2)
多数纹理生成方法仅在较为简单的网格模型
(
如斯坦福兔子模型
)
上所生成纹理贴图质量较好,而在生成复杂网格模型
(
如乐高模型
)
的纹理贴图时,通常生成质量较低

甚至是不完整的纹理贴图

[0004]第二,网格生成方法

网格生成方法直接或者通过添加其他语义引导信息来生成三维网格模型,目前常用的是
Clip2Mesh
方案

这一方法通常存在以下缺点:
(1)
网格生成方法所生成的网格复杂度十分受限,生成复杂网格模型的能力相对较弱,生成的网格模型的结构通常较为简单;
(2)
网格生成方法通常也会面临多视图不一致性问题;
(3)
在三维网格模型生成之后同样需要生成相对应的纹理贴图,因此网格生成方法同样面临着纹理生成方法所存在的问题

[0005]第三,
StylizedNeRF(Stylized Nerual Radiance Field,
风格化的神经辐射场
)。StylizedNeRF
的思想是通过加入目标图像或者文本引导信息微调已经经过训练后的神经辐射场,使其能够渲染生成多视图一致性的风格化图像,这类方法一定程度上解决了上述方法难以风格化复杂场景的缺点,但同样存在着不容忽视的短板,具体如下:
(1)
这类方法通常保持场景的几何形状,仅仅改变
NeRF
预测的纹理信息,存在一定程度上的风格化程度受限问题
。(2)NeRF
的渲染速度过慢,即使能够渲染生成相对高质量的风格化图像,但长时间的渲染速度是该类犯法的致命缺点,导致其无法被应用于扩展领域行业

[0006]总之,虽然目前已经存在多种技术来实现源图像的风格化处理,但实际上现有的诸多方法中无法保证风格化的效果,也无法很好地保存源图像的语义信息以及多视图之间的一致性


技术实现思路

[0007]为此,需要提供一种基于扩散模型的风格化图像生成的技术方案,用以解决目前的图像风格化处理技术无法保证图像风格化效果以及很好地保存源图像的语义信息以及多视图之间的一致性等问题

[0008]为解决以上问题,本申请提出了以下方案:
[0009]在第一方面,本专利技术提供了一种基于扩散模型的风格化图像生成方法,所述方法包括以下步骤:
[0010]获取源图像集合

各个源图像对应的深度图集合以及目标图像,将所述源图像集合中的多张所述源图像在颜色通道上进行拼接,得到第一矩阵,以及对所述深度图集合中的多张深度图进行拼接,得到第二矩阵,所述目标图像包括风格化特征;
[0011]将所述第一矩阵

第二矩阵和所述目标图像输入至训练完成的神经网络扩散模型,根据所述风格化特征输出各个源图像对应的风格化图像;
[0012]所述神经网络扩散模型在训练时,通过损失函数计算损失值,并根据所述损失值来调节所述风格化图像的图像参数

[0013]作为一种可选的实施例,所述损失函数包括风格损失函数和相似度损失函数,所述损失值包括风格损失和相似度损失,所述损失值的计算公式如下:
[0014]Loss

λ1*Loss
style
+
λ2*Loss
sim
[0015]其中,
Loss
为所述损失值,
Loss
style
为风格损失,
Loss
sim
为相似度损失,
λ1和
λ2为设定好的权重参数

[0016]作为一种可选的实施例,所述图像参数包括风格化程度,所述风格损失函数包括第一风格损失函数和第二风格损失函数,所述第一风格损失函数用于计算所述源图像与所述风格化图像之间的第一损失值
Loss1,所述第二风格损失函数用于计算所述目标图像与所述风格化图像之间的第二损失值
Loss2;
[0017]所述风格损失根据以下公式进行计算:
[0018]Loss
style

α
*Loss1+
β
*Loss2[0019]其中,
α

β
为设定的参数值,
α

β
根据所述风格化程度确定

[0020]作为一种可选的实施例,所述源图像集合记为所述源图像对应的风格化图像集合记为从所述源图像集合中提取各个源图像的特征图,记为以及从所述风格化图像集合中提取各个风格化图像对应的特征图,记为
[0021]所述第一损失值
Loss1的计算公式如下:
[0022][0023]其中,
l2表示均方误差函数

[0024]作为一种可选的实施例,所述第二损失值
Loss2根据以下方式计算:
[0025]Loss2=
a*Loss
NNFM
+b*Loss
color
[0026]其中,
Loss
NNFM
表示目标图像
I
t
的特征图
F
t
和每一个所述风格化图像的特征图之
间的
NNFM
损失,...

【技术保护点】

【技术特征摘要】
1.
一种基于扩散模型的风格化图像生成方法,其特征在于,所述方法包括以下步骤:获取源图像集合

各个源图像对应的深度图集合以及目标图像,将所述源图像集合中的多张所述源图像在颜色通道上进行拼接,得到第一矩阵,以及对所述深度图集合中的多张深度图进行拼接,得到第二矩阵,所述目标图像包括风格化特征;将所述第一矩阵

第二矩阵和所述目标图像输入至训练完成的神经网络扩散模型,根据所述风格化特征输出各个源图像对应的风格化图像;所述神经网络扩散模型在训练时,通过损失函数计算损失值,并根据所述损失值来调节所述风格化图像的图像参数
。2.
如权利要求1所述的基于扩散模型的风格化图像生成方法,其特征在于,所述损失函数包括风格损失函数和相似度损失函数,所述损失值包括风格损失和相似度损失,所述损失值的计算公式如下:
Loss

λ1*Loss
style
+
λ2*Loss
sim
其中,
Loss
为所述损失值,
Loss
style
为风格损失,
Loss
sim
为相似度损失,
λ1和
λ2为设定好的权重参数
。3.
如权利要求2所述的基于扩散模型的风格化图像生成方法,其特征在于,所述图像参数包括风格化程度,所述风格损失函数包括第一风格损失函数和第二风格损失函数,所述第一风格损失函数用于计算所述源图像与所述风格化图像之间的第一损失值
Loss1,所述第二风格损失函数用于计算所述目标图像与所述风格化图像之间的第二损失值
Loss2;所述风格损失根据以下公式进行计算:
Loss
style

α
*Loss1+
β
*Loss2其中,
α

β
为设定的参数值,
α

β
根据所述风格化程度确定
。4.
如权利要求3所述的基于扩散模型的风格化图像生成方法,其特征在于,所述源图像集合记为所述源图像对应的风格化图像集合记为从所述源图像集合中提取各个源图像的特征图,记为以及从所述风格化图像集合中提取各个风格化图像对应的特征图,记为所述第一损失值
Loss1的计算公式如下:其中,表示均方误差函数
。5.
如权利要求3所述的基于扩散模型的风格化图像生成方法,其特征在于,所述第二损失值
Loss2根据以下方式计算:
Loss2=
a*Loss
NNFM
+b*Loss
color
其中,
Loss
NNFM
表示目标图像
I
t
的特征图
F
t
和每一个所述风格化图像的特征图之间的
NNFM
损失,
Loss
color
表示根据所述风格化图像和所述目标图像之间的线性损失,
a

b
为设定的参数值;所述
NNFM
损失的计算公式如下:
其中,
F
t
(i


j

)
表示目标图像
I
t
的特征图
F
t
的坐标为
(i


j

)
的像素点的像素值,

【专利技术属性】
技术研发人员:林志坚王喜廖德良颜远培苏松志孙鸿儒
申请(专利权)人:蚂蚁特工厦门科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1