一种基于无监督学习和对抗生成网络的图像拼接方法技术

技术编号:37277700 阅读:16 留言:0更新日期:2023-04-20 23:44
本发明专利技术公开了一种基于无监督学习和对抗生成网络的图像拼接方法,包括以下步骤:(1)将需要拼接的两张图像作为参考图像和目标图像送入对准模型,经过计算得到网格顶点偏移量;(2)根据网格顶点偏移量对目标图像进行投影变换得到对准的目标图像;(3)将对准的目标图像和参考图像输入到拼接模型进行拼接,得到拼接图像。该方法能够准确实现对图图像的拼接。该方法能够准确实现对图图像的拼接。该方法能够准确实现对图图像的拼接。

【技术实现步骤摘要】
一种基于无监督学习和对抗生成网络的图像拼接方法


[0001]本专利技术涉及计算机视觉与人工智能领域,具体涉及一种基于无监督学习和对抗生成网络的图像拼接方法。

技术介绍

[0002]图像拼接技术是一种能够将两张存在视差但包含重叠区域的图像拼接起来获得一张无缝隙高清全景图像的技术,在自动驾驶,视频安全,虚拟现实领域中都有广泛的应用。
[0003]传统的图像拼接流程是通过手动提取两张需要拼接图像中的对应特征点,计算得到一个能够完成图像平移、旋转、缩放和理想点变换的3
×
3大小的单应性矩阵,使用单应性矩阵对一张图像进行投影变换来和另外一张图像对齐,然后将对齐后的两张图像融合得到最终的全景图。但是传统方法学习特征和融合图像的能力有限,图像对齐效果并不佳,并且通过融合阶段最终得到的图片中往往有错位和鬼影的缺陷。
[0004]得益于深度学习技术强大的自动特征学习能力,基于神经网络的图像拼接方法已经成为主流。基于深度学习的图像拼接算法主要由两阶段组成,第一阶段是图像的对准,使用卷积神经网络提取需要拼接的两张图片对应的特征点,然后通过投影变换对准图像。第二阶段是图像的融合,将对准后的两张图片作为神经网络的输入,输出得到重叠区域过渡平滑的全景拼接图像。
[0005]对于目前多数基于深度学习的拼接算法,第一阶段使用的网络结构比较简单,参数量较大,训练和推理时间都很长。并且训练都是基于监督学习的方法,使用的训练图像是通过单应性变换人工自动生成的,和真实世界图像的多景深、多平面对齐任务存在偏差,并且对准的算法往往仅使用单个单应性矩阵对目标图像进行投影变换。以上要素都会导致最后图像对齐没有达到完美的效果,存在很大改进空间。在当前主流拼接算法的第二阶段中,往往通过对输出图像添加多项人工设计的损失函数来约束拼接图像的质量,这种做法难以使得拼接图像真正达到真实图像的纹理效果,融合得到的图像存在伪影和较为明显的拼接痕迹。

技术实现思路

[0006]鉴于上述,本专利技术的目的是提供一种基于无监督学习和对抗生成网络的图像拼接方法,包括以下步骤:
[0007](1)将需要拼接的两张图像作为参考图像和目标图像送入对准模型,经过计算得到网格顶点偏移量;
[0008](2)根据网格顶点偏移量对目标图像进行投影变换得到对准的目标图像;
[0009](3)将对准的目标图像和参考图像输入到拼接模型进行拼接,得到拼接图像。
[0010]优选地,所述对准模型的构建过程包括:
[0011](a)构建对准模型;
[0012](b)选取公开图像数据集,在图像中裁剪、变换得到图像对,组成数据集A1,获取在真实世界中采集的重合区域比例不一、存在视差的图像对,组成数据集A2,其中,图像对包括参考图像和目标图像;
[0013](c)将数据集A1作为样本集,执行步骤(d)和(e);
[0014](d)将样本集中图像对输入到对准模型中提取特征,根据特征计算输出(n+1)
×
(m+1)
×
2个网格顶点偏移量;
[0015](e)依据网格顶点偏移量构建n
×
m个变换矩阵,将目标图像均匀分成n
×
m个图像块,采用n
×
m个变换矩阵分别对对应的图像块进行投影变换在拼合起来得到对准的目标图像,通过比较对准的目标图像和参考图像重合区域的相似度来调整对准模型的网络参数;
[0016](e)将数据集A2作为样本集,在步骤(e)基础上,重复执行步骤(d)和(e),以实现对对准模型的网络参数的微调,得到训练好的对准模型。
[0017]优选地,所述对准模型包括结构相同的两个分支,分别用于提取图像中参考图像和目标图像的特征图,每个分支包括卷积层和N个CSP模块,每个CSP模块输出特征图,并将特征图作输入至下一个CSP模块;
[0018]两个分支同一层CSP模块输出的特征图在通道方向上拼接后,使用若干个卷积层对拼接结果进行特征提取和优化后,再使用由平均池化层和全连接层组成的回归网络根据优化结果回归计算得到1个网格顶点偏移量。
[0019]优选地,每个CSP模块包括两个子支路,子支路一由包括卷积层、批标准化层、SiLU激活层的CBS模块、ResNet的残差单元、卷积层依次连接而成,用于提取特征图,子支路二仅有一个独立的卷积层,用于提取特征图,然后将两个子支路的特征图拼接,输入到批标准化层、Leaky ReLU激活层和CBS模块,经计算输出特征图。
[0020]优选地,所述依据网格顶点偏移量构建N个变换矩阵,包括:
[0021]当存在N个网络偏移量,表示为S
i
,i=1,2,

,N时,构建的N个变换矩阵表示为S1,S1+S2,S1+S2+S3,

,S1+S2+

+S
N
,N个变换矩阵用公式表示为
[0022]优选地,所述通过比较对准的目标图像和参考图像重合区域的相似度来调整对准模型的网络参数,包括:
[0023]构建以下损失函数L
align
,依据最小化损失函数来调整优化对准模型的网络参数:
[0024][0025]其中,I
A
表示目标图像,I
B
表示参考图像,表示变换矩阵,E表示和图像大小相同的、全为1的矩阵,λ
i
表示每个变换对应的损失权重,

表示像素级乘法,‖
·
‖1表示一范数。
[0026]优选地,所述拼接模型的构建过程包括:
[0027](i)拼接模型采用对抗生成网络,建立对抗生成网络的生成器和判别器;
[0028](ii)获取在真实世界中采集的重合区域比例不一、存在视差的图像对,组成数据集A2,将数据集A2送入到训练好的对准模型,获得对准的目标图像,将数据集A2中原始图像对设置为真实标签,将生成器生成的拼接图像设置为合成标签,将对准的目标图像和参考
图像直接堆叠,重合区域的像素值由两张图像像素的平均值替代,得到叠加图像,为叠加图像设置为合成标签,进而得到训练数据集;
[0029](iii)将训练数据集送入对抗生成网络中,使用对抗生成损失函数训练对抗生成网络,更新网络参数,参数优化的生成器作为拼接模型。
[0030]优选地,所述生成器采用encoder

decoder的结构,具体包括:生成器由多个相同数量的卷积层和反卷积层依次连接得到,并且每个卷积层和反卷积层后面都伴有一个批标准化层。
[0031]优选地,分类器网络由卷积层、平均池化层以及连接层组成。
[0032]优选地,所述对抗生成损失函数包括生成器损失和判别器损失;
[0033]其中,判别器损失表示为:
[0034][0035]生成器损失表示为:
[0036][0037]其中,a表示合成标签,b表示真本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督学习和对抗生成网络的图像拼接方法,其特征在于,包括以下步骤:(1)将需要拼接的两张图像作为参考图像和目标图像送入对准模型,经过计算得到网格顶点偏移量;(2)根据网格顶点偏移量对目标图像进行投影变换得到对准的目标图像;(3)将对准的目标图像和参考图像输入到拼接模型进行拼接,得到拼接图像。2.根据权利要求1所述的基于无监督学习和对抗生成网络的图像拼接方法,其特征在于,所述对准模型的构建过程包括:(a)构建对准模型;(b)选取公开图像数据集,在图像中裁剪、变换得到图像对,组成数据集A1,获取在真实世界中采集的重合区域比例不一、存在视差的图像对,组成数据集A2,其中,图像对包括参考图像和目标图像;(c)将数据集A1作为样本集,执行步骤(d)和(e);(d)将样本集中图像对输入到对准模型中提取特征,根据特征计算输出(n+1)
×
(m+1)
×
2个网格顶点偏移量;(e)依据网格顶点偏移量构建n
×
m个变换矩阵,将目标图像均匀分成n
×
m个图像块,采用n
×
m个变换矩阵分别对对应的图像块进行投影变换在拼合起来得到对准的目标图像,通过比较对准的目标图像和参考图像重合区域的相似度来调整对准模型的网络参数;(e)将数据集A2作为样本集,在步骤(e)基础上,重复执行步骤(d)和(e),以实现对对准模型的网络参数的微调,得到训练好的对准模型。3.根据权利要求2所述的基于无监督学习和对抗生成网络的图像拼接方法,其特征在于,所述对准模型包括结构相同的两个分支,分别用于提取图像中参考图像和目标图像的特征图,每个分支包括卷积层和N个CSP模块,每个CSP模块输出特征图,并将特征图作输入至下一个CSP模块;两个分支同一层CSP模块输出的特征图在通道方向上拼接后,使用若干个卷积层对拼接结果进行特征提取和优化后,再使用由平均池化层和全连接层组成的回归网络根据优化结果回归计算得到1个网格顶点偏移量。4.根据权利要求3所述的基于无监督学习和对抗生成网络的图像拼接方法,其特征在于,每个CSP模块包括两个子支路,子支路一由包括卷积层、批标准化层、SiLU激活层的CBS模块、ResNet的残差单元、卷积层依次连接而成,用于提取特征图,子支路二仅有一个独立的卷积层,用于提取特征图,然后将两个子支路的特征图拼接,输入到批标准化层、Leaky ReLU激活层和CBS模块,经计算输出特征图。5.根据权利要求2所述的基于无监督学习和对抗生成网络的图像拼接方法,其特征在于,所述依据网格顶点偏移量构建n
×
m个变换矩阵,包括:当存在N组网络偏移量,表示为S
i
,i=1,2,
…<...

【专利技术属性】
技术研发人员:林怡格李晓鹏许毅杰
申请(专利权)人:苏州联视泰电子信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1