当前位置: 首页 > 专利查询>复旦大学专利>正文

基于生成对抗网络的跨视角图像翻译方法技术

技术编号:32455805 阅读:19 留言:0更新日期:2022-02-26 08:33
本发明专利技术公开了一种基于生成对抗网络的跨视角图像翻译方法。本发明专利技术方法包括以下步骤:1)构建图像翻译网络,图像翻译网络包括跨视角图像生成器和基于残差的级联细化模块,跨视角图像生成器选用U

【技术实现步骤摘要】
基于生成对抗网络的跨视角图像翻译方法


[0001]本专利技术属于人工智能、计算机视觉
,具体涉及一种基于生成对抗网络的跨视角图像翻译方法。

技术介绍

[0002]近年来,人工智能和深度学习技术在计算机视觉领域得到了广泛应用,生成对抗网络被广泛用于图像生成任务中。一般来说,基于生成对抗网络的技术大多专注于自然图像生成、图像超分辨率、图像风格迁移、面部图像转换等任务。尽管这些工作取得了令人印象深刻的效果,但这些工作仍未能将图像翻译任务扩展到跨视角场景。
[0003]得益于生成对抗网络的快速发展,基于生成对抗网络的图像翻译任务得到了广泛的研究。跨视角图像翻译是针对同一地点,空中和地面两个不同视角的场景图像转换,它同时涉及到语义和外观两个层面的翻译。此任务近年来受到越来越多的关注。
[0004]虽然现有工作在跨视角图像翻译任务上取得了一些成果,但目前仍存在较多问题。首先,其仅能生成小部分固定视角的地面图像,且生成的地面视角图像无法保留空中视角图像丰富的语义信息。其次,现有工作忽略的图像翻译的生成多样性,将图像翻译变成了确定性的一对一映射任务,但空中视角图像在向地面视角图像转化时,由于遮挡、噪声和旋转等因素,可能呈现出不同的外观风格。因此,从空中视角图像生成多样化的地面图像更接近真实的情况。最后,现有工作的生成结果容易产生伪影和模糊的现象,原因是地面视角图像中对物体的外观的描述比空中视角图像更加详细。

技术实现思路

[0005]针对现有技术的不足,本专利技术的目的在于提供一种基于生成对抗网络的跨视角图像翻译方法。本专利技术方法用于从单一航空图像生成多样的地面视角图像。
[0006]一种基于生成对抗网络的跨视角图像翻译方法,包括以下步骤:
[0007]1)构建图像翻译网络
[0008]图像翻译网络包括跨视角图像生成器G
coarse
、多尺度鉴别器D
s
、编码器E和残差估计网络;跨视角图像生成器G
coarse
选用U

net网络作为骨干网络,接受空中视角图像I
a
、全景语义图像S
pano
为输入,合成粗糙的地面全景图像I

pano
;残差估计网络由残差图生成器和残差图鉴别器D
r
组成,残差图生成器由多个残差细化模块R
i
依次级联而成,残差细化模块R
i
由多层卷积神经网络组成,用以预测输入图像的残差图,并通过将跨视角图像生成器G
coarse
和残差图求和,进一步合成细化精炼的地面全景图像经过残差细化模块,残差估计网络生成最终细化的地面全景图像I

pano
,残差图鉴别器D
r
用来判断各个残差细化模块R
i
生成残差图的真实性,并将结果反馈给残差细化模块R
i
;多尺度鉴别器D
s
以不同尺度图像块判断真实地面图像I
pano
和最终细化的地面全景图像I

pano
的真实性,并将结果反馈给跨视角图像生成器G
coarse
和残差估计网络;编码器E由数层基于残差的卷积神经网络组成,其作用为将输入图像编码为接近高斯分布的潜码z
rec
,以实现网络的多样化生成;
[0009]2)训练阶段
[0010]同时对图像翻译网络进行两个模式的训练;第一种训练模式中,将真实地面图像I
pan
作为编码器E的输入生成的符合高斯分布的潜码z
e
、空中视角图像I
a
、全景语义图像S
pano
输入图像翻译网络中进行训练;在第二种训练模式中,采用随机采样的潜码z
r
合并空中视角图像I
pano
、全景语义图像S
pano
输入图像翻译网络进行训练,编码器E连接在图像翻译网络的末端,从生成的图像I

pano
生成重构潜码z
rec
,以损失函数约束E将真实地面图像和生成图像的编码映射到相同的高斯分布;
[0011]3)测试阶段
[0012]以待测试空中视角图像、全景语义图像和在高斯分布上随机采样的不同的潜码输入到训练好的图像翻译网络,获得最终细化的底面全景图,得到多样化的生成结果。
[0013]本专利技术中,步骤1)中,残差估计网络中,将全景语义图像和空中视角图像与前一个残差细化模块的细化输出合并起来作为后续精炼的输入;第i阶段细化的全景图像的生成定义为:
[0014][0015]其中和表示第(i

1)和第i个残差细化模块的细化图像输出,R
i
表示第i级残差细化模块。
[0016]本专利技术中,步骤2)中,
[0017]①
第一种训练模式中,真实地面图像I
pano
与最终生成的地面全景图像I

pano
之间的重建损失设计如下:
[0018][0019]其中代表期望运算,I
a
代表了空中视角图像;
[0020]采用KL散度,通过如下的损失函数L
KL
来优化编码器:
[0021][0022]其中E()表示编码器,表示高斯分布;
[0023]②
第二种训练模式中,重构潜码z
rec
由于另一重构损失而被迫接近随机潜码z
r
,其表达式为:
[0024][0025]③
使用多尺度鉴别器D
s
鉴别残差估计网络预测的中间的残差图,将跨视角图像生成器生成的粗糙全景图像I

pano
的对抗损失公式表示为:
[0026][0027]其中,D
s
表示多尺度鉴别器;
[0028]经过多级细化后,网络生成了中间图像包括最终细化的图I

pano
,空中视角图像和生成的中间图像对的对抗性损失公式如下:
[0029][0030]由以上两式得到总的多级对抗损失为:
[0031][0032]其中λ
refine
为平衡粗糙损失和精细损失贡献的权重因子,N为级联细化的阶段总数;

估计的残差图用于填补生成的中间图像与真实地面图像之间的空白,因此,给定生成的中间图像将真实的残差图定义为则残差重构损失为:
[0033][0034]其中D
r
为残差图的鉴别器,为第i级残差细化模块生成的残差图,总残差重构损失是所有中间残差重构损失的总和:
[0035][0036]⑤
总体损失
[0037]将损失函数的加权求和作为整个图像翻译网络的总体损失,记为:
[0038][0039]其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络的跨视角图像翻译方法,其特征在于,包括以下步骤:1)构建图像翻译网络图像翻译网络包括跨视角图像生成器G
coarse
、多尺度鉴别器D
s
、编码器E和残差估计网络;跨视角图像生成器G
coarse
选用U

net网络作为骨干网络,接受空中视角图像I
a
、全景语义图像S
pano
为输入,合成粗糙的地面全景图像I

pano
;残差估计网络由残差图生成器和残差图鉴别器D
r
组成,残差图生成器由多个残差细化模块R
i
依次级联而成,残差细化模块R
i
由多层卷积神经网络组成,用以预测输入图像的残差图,并通过将跨视角图像生成器G
coarse
和残差图求和,进一步合成细化精炼的地面全景图像经过残差细化模块,残差估计网络生成最终细化的地面全景图像I

pano
,残差图鉴别器D
r
用来判断各个残差细化模块R
i
生成残差图的真实性,并将结果反馈给残差细化模块R
i
;多尺度鉴别器D
s
以不同尺度图像块判断真实地面图像I
pano
和最终细化的地面全景图像I

pano
的真实性,并将结果反馈给跨视角图像生成器G
coarse
和残差估计网络;编码器E由数层基于残差的卷积神经网络组成,其作用为将输入图像编码为接近高斯分布的潜码z
rec
,以实现网络的多样化生成;2)训练阶段同时对图像翻译网络进行两个模式的训练;第一种训练模式中,将真实地面图像I
pano
作为编码器E的输入生成的符合高斯分布的潜码z
e
、空中视角图像I
a
、全景语义图像S
pano
输入图像翻译网络中进行训练;在第二种训练模式中,采用随机采样的潜码z
r
合并空中视角图像I
pano
、全景语义图像S
pano
输入图像翻译网络进行训练,编码器E连接在图像翻译网络的末端,从生成的图像I

pano
生成重构潜码z

【专利技术属性】
技术研发人员:范佳媛陈涛吴克
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1