System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种端到端的基于深度学习的图像拼接方法技术_技高网

一种端到端的基于深度学习的图像拼接方法技术

技术编号:40168590 阅读:6 留言:0更新日期:2024-01-26 23:39
本发明专利技术公开了一种端到端的基于深度学习的图像拼接方法,包括以下训练步骤:在第一阶段,预先训练好一个深度单应性变换网络。在第二阶段,将一组多视角图像输入到图像对齐变换模块,由深度单应性基线网络接收,并输出单应性变换矩阵;将单一性变换矩阵与输入的原始图像输入到空间转换器层中,该层允许对网络内的数据进行空间操作,从而将单应性变换后的图像进行最小空余的对齐,得到对齐后的图像;将变换后的一组图像先进行下采样,然后利用编解码器网络对拼接图像进行重构,学习图像拼接的变形规则,输出拼接图像;将对齐变换后的拼接图像输入到图像矩形化模块中,处理不规则的边界,首先通过一个编码器来提取图像特征,即堆栈简单的卷积池块,从输入中提取高级语义特征;输入到一个完全卷积结构的网格运动回归器,以基于规则网格预测每个顶点的水平和垂直运动;扭曲中间特征映射和网格运动,输入到残差渐进回归器,进而渐进地估计精确的网格运动;将最后将逐步迭代得到的精细网格运动指导原图进行扭曲,最终得到矩形图像。

【技术实现步骤摘要】

本专利技术涉及计算机视觉和模式识别,尤其是一种端到端的基于深度学习的视频修复方法。


技术介绍

1、随着智能手机、平板等移动智能设备的普及使用,图片的拍摄获取越来越便利。但是这些设备只能拍摄单幅图片,如果想要给别人展示内容更加丰富、视野更加宽广的图片,就需要使用图像拼接技术将多幅单张图片重叠拼合在一起来实现。图像拼接技术是其他很多图像处理技术的基础,是将多个存在区域重叠的图像拼接为一幅包括各个图像序列的大角度全景图像,而要拼接的图像则可以在不同的角度、不同的时刻或由不同的摄影机所拍摄。近些年来,图像处理方面的学者在图像拼接技术方面的研究也越来越深入,拼接效果和运行时间也逐渐有了改善和提升。

2、单应性变换在图像配准、图像拼接等任务中被广泛应用。随着深度学习的发展,用深度学习计算单应性变换的网络应运而生,从而实现了端到端的单应性矩阵的计算。但是经过单应性变换后的拼接图像存在不规则的图像边界,这与现实拍摄的真实图像存在差异。该问题常常通过后续的图像矩形化处理技术来解决,具体来说就是通过优化矩形化目标以扭曲拼接的图像来生成矩形图像。在图像单应性变换与图像矩形化这两步过程中,如果在前一过程中存在误差,将会造成最终的输出效果欠佳。因此提出一个端到端的基于深度学习的图像拼接框架,将图像单应性变换与矩形化两步骤进行联合训练,提高训练效率,减少训练误差,从而实现更高效、更真实的图像拼接效果。这也是图像拼接领域首个端到端的深度学习网络框架。


技术实现思路

1、本专利技术的目的是提供一种端到端的基于深度学习的图像拼接方法,通过构建一个基于深度学习的联合训练框架,将图像拼接中的单应性变换与矩形化两过程统一起来,实现端到端的图像拼接。经过训练,在给定多视角的多张图片后,该网络可以自动处理图像,最终输出拼接完成后的标准矩形图像,并在观感上取得较好的视觉效果。

2、为实现上述目的,本专利技术采用下述技术方案:

3、一种端到端的基于深度学习的图像拼接方法,包括以下步骤:

4、利用现有的数据集及图像拼接方法,收集并制作合适的图像拼接数据集,划分出训练集与测试集;

5、将训练集中的每一组多视角图像作为输入喂入网络进行训练,待损失降低到相对稳定的程度时,保存模型参数;

6、将测试集中的一组多视角图像送入训练好的模型中进行推理得出拼接结果。

7、进一步地,收集并选取合适的数据集,主要包括:

8、在先前的相关工作中,主要使用了udis-d数据集用于生成真实的拼接图像,在此数据集的基础上,又创建了用于图像矩形化的数据集dir-d。在udis-d数据集中包含了从不同间隔时间的视频中提取的帧,即不同重叠率的样本图像。在dir-d数据集中,选择了udis-d数据集中外推面积小于整个图像10%的图像,使用最先进的一个矩形化方法生成矩形图像,又经过矩形化逆操作和一系列筛选操作,最终得到三组图像:真实的矩形图像(r)、合成缝合图像(i)和扭曲矩阵(m)。

9、类似地,可以从udis-d和dir-d数据集中选择图像来制作训练模型所需要的数据集。我们的数据集需要包含几一组真实的多视角图像(i)和作为标签的真实矩形图像(r),其中多视角图像可以从udis-d进行选择,而矩形拼接图像可以通过最先进的矩形化方法进行生成,由于扭曲矩阵(m)在模型训练中隐式包含,所以数据集中无需给定。最终训练集中包含了5800张真实拼接图像及5800组共计12000余张多视角图像;测试集中则包含了约1300张多视角图像。

10、进一步地,训练模型的过程,主要包括:

11、首先,第一阶段训练,在合成数据集(缝合的ms-coco)上训练了150轮的深度单应性变换网络,从而得到预训练的深度单应性变换模型。

12、接下来,第二阶段训练,训练完整的端到端模型,每次从输入端(输入多视角图像)到输出端会得到一个预测结果(输出拼接完成图像),与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递(反向传播),每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束。训练的目标函数中包括:接缝损失、边界损失、网格损失和内容损失,其中,接缝损失主要用于指导对齐变换模块的训练,边界损失和网格损失则用于优化图像矩形化模块的参数,而内容损失同时强调了外观和语义感知的相似性。

13、进一步地,在测试集上进行评估时,包括:

14、我们选择使用平均fid、psnr和ssim三个主要指标对图像拼接的表现进行定量评估。具体来说,fid测量真实图像分布和生成图像分布之间的距离,距离越小代表生成的分布越贴近于真实分布,表示图像拼接效果越真实,此外,psnr和ssim也是面向失真的图像质量评估的常用指标。

15、本专利技术具有如下优点或有益效果:

16、本专利技术提供了一种端到端的基于深度学习的图像拼接方法,通过构建一个基于深度学习的联合训练框架,将图像拼接中的单应性变换与矩形化两过程统一起来,实现端到端的图像拼接,大大提高训练速度。从应用角度来说,用户在给定多视角的多张图片后,该网络可以自动处理图像,最终输出拼接完成后的标准矩形图像,并在图片质量上取得较好的视觉效果。

本文档来自技高网...

【技术保护点】

1.一种端到端的基于深度学习的图像拼接方法,其特征是,包括以下步骤:

2.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,选取具有重叠部分的一组多视角图像,每组包含两张。将图像输入到图像对齐变换模块,由深度单应性基线网络接收,并输出单应性变换矩阵,包括:

3.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,将单一性变换矩阵与输入的原始图像输入到空间转换器层中,该层允许对网络内的数据进行空间操作,从而将单应性变换后的图像进行最小空余的对齐,得到对齐后的图像,包括:

4.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,将变换后的一组图像先进行下采样到256*256,然后利用由3个池化层和3个反卷积层组成的编解码器网络对拼接图像进行重构,学习图像拼接的变形规则,输出拼接图像,包括:

5.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,对齐变换后的拼接图像输入到图像矩形化模块中,处理不规则的边界,首先通过一个编码器来提取图像特征,即堆栈简单的卷积池块,从输入中提取高级语义特征,包括:

6.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,输入到一个完全卷积结构的网格运动回归器,以基于规则网格预测每个顶点的水平和垂直运动,包括:

7.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,扭曲中间特征映射和网格运动,输入到残差渐进回归器,进而渐进地估计精确的网格运动,包括:

8.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,将最后将逐步迭代得到的精细网格运动指导原图进行扭曲,最终得到矩形图像,包括:

...

【技术特征摘要】

1.一种端到端的基于深度学习的图像拼接方法,其特征是,包括以下步骤:

2.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,选取具有重叠部分的一组多视角图像,每组包含两张。将图像输入到图像对齐变换模块,由深度单应性基线网络接收,并输出单应性变换矩阵,包括:

3.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,将单一性变换矩阵与输入的原始图像输入到空间转换器层中,该层允许对网络内的数据进行空间操作,从而将单应性变换后的图像进行最小空余的对齐,得到对齐后的图像,包括:

4.如权利要求1所述的一种端到端的基于深度学习的图像拼接方法,其特征是,将变换后的一组图像先进行下采样到256*256,然后利用由3个池化层和3个反卷积层组成的编解码器网络对拼接图像进行重构,学习图像拼接的变形规则,输出...

【专利技术属性】
技术研发人员:周洪飞张盛平
申请(专利权)人:哈尔滨工业大学威海
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1