基于深度学习的多摄像头视频图像拼接方法技术

技术编号:38770104 阅读:11 留言:0更新日期:2023-09-10 10:43
本发明专利技术公开了基于深度学习的多摄像头视频图像拼接方法,包括S1构建对准模型和拼接模型,S2获取训练集导入对准模型和拼接模型,对其进行训练优化;S3获取同一时刻K个摄像头的拍摄的视频帧;S4图像拼接视频帧k和视频帧k+1,获得拼接图;S5判断k+1是否等于K,若是,则拼接图作为最终图像,并输出最终图像;反之,则令k=k+1,然后令拼接图作为视频帧k,并返回S4;读取每个摄像头中的视频帧,再将图片输入对准模型中进行对准,再将对准后的结果输入拼接模型进行拼接,对准模型中引入自注意力机制显著提高参考图像和目标图像中的特征提取效率和精度,拼接模型中引入自注意力机制显著提高参考图像和目标图像中的特征检测效率和精度。图像和目标图像中的特征检测效率和精度。图像和目标图像中的特征检测效率和精度。

【技术实现步骤摘要】
基于深度学习的多摄像头视频图像拼接方法


[0001]本专利技术涉及计算
,尤其涉及一种基于深度学习的多摄像头视频图像拼接方法。

技术介绍

[0002]图像拼接是将多张连续或有重叠部分的图像拼接成为一幅无缝的全景图或高分辨率图像的技术。目标检测技术是一种基于目标集合和统计特征得图像分割。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音的数据的解释有很大的帮助。三种技术大量运用于医疗病灶诊断成像,无人机航拍,自动驾驶,军事目标检测等。
[0003]传统的图像拼接流程是通过手动提取两张需要拼接图像中的对应特征点,计算得到一个能够完成图像平移、旋转、缩放和理想点变换的3
×
3大小的单应性矩阵,使用单应性矩阵对一张图像进行投影变换来和另外一张图像对齐,然后将对齐后的两张图像融合得到最终的全景图。但是传统方法学习特征和融合图像的能力有限,图像对齐效果并不佳,并且通过融合阶段最终得到的图片中往往有错位和鬼影的缺陷。
[0004]得益于深度学习技术强大的自动特征学习能力,基于神经网络的图像拼接方法已经成为主流。基于深度学习的图像拼接算法主要由两阶段组成,第一阶段是图像的对准,使用卷积神经网络提取需要拼接的两张图片对应的特征点,然后通过投影变换对准图像。第二阶段是图像的融合,将对准后的两张图片作为神经网络的输入,输出得到重叠区域过渡平滑的全景拼接图像。
[0005]对于目前多数基于深度学习的拼接算法,第一阶段使用的网络结构比较简单,参数量较大,训练和推理时间都很长。并且训练都是基于监督学习的方法,使用的训练图像是通过单应性变换人工自动生成的,和真实世界图像的多景深、多平面对齐任务存在偏差,并且对准的算法往往仅使用单个单应性矩阵对目标图像进行投影变换。以上要素都会导致最后图像对齐没有达到完美的效果,存在很大改进空间。在当前主流拼接算法的第二阶段中,往往通过对输出图像添加多项人工设计的损失函数来约束拼接图像的质量,这种做法难以使得拼接图像真正达到真实图像的纹理效果,融合得到的图像存在伪影和较为明显的拼接痕迹。
[0006]现有的基于深度学习的拼接算法的泛用性较低,并且都是两图片输入无法做到实时调整输入图像的数量做到多头输入。因此对于实际的应用场景还有很大的距离。

技术实现思路

[0007]本专利技术的目的就在于为了解决上述问题设计了一种基于深度学习的多摄像头视频图像拼接方法。
[0008]本专利技术通过以下技术方案来实现上述目的:
[0009]基于深度学习的多摄像头视频图像拼接方法,包括:
[0010]S1、构建对准模型和拼接模型,对准模型的输出作为拼接模型的输入,对准模型包括两个分支和T个分析层,两个分支分别用于提取参考图像和目标图像的特征图,分析层用于分析网格顶点偏移量,每个分支包括第一卷积层和T个特征提取层,第一卷积层和T个特征提取层按照从输入到输出依次串联,两个分支的第t个特征提取层的输出均作为第t个分析层的输入,每个特征提取层从输入到输出依次包括第一自注意力机制模块和CPS模块,每个分析层从输入到输出依次包括若干第二卷积层和回归网络,拼接模型包括对抗神经网络,t为小于或等于T的正整数,T为大于1的正整数;S2、获取训练集导入对准模型和拼接模型,对其进行训练优化,得到优化后的对准模型和优化后的拼接模型;S3、获取同一时刻K个摄像头的拍摄的视频帧,K为大于1的正整数;S4、视频帧k和视频帧k+1导入优化后的对准模型和优化后的拼接模型进行图像拼接,获得拼接图,k为小于K的正整数;S5、判断k+1是否等于K,若是,则拼接图作为最终图像,并输出最终图像;若否,则令k=k+1,然后令拼接图作为视频帧k,并返回S4。
[0011]本专利技术的有益效果在于:读取每个摄像头中的视频帧,再将图片输入对准模型中进行对准,再将对准后的结果输入拼接模型进行拼接,在对准模型中引入了自注意力机制显著提高参考图像和目标图像中的特征提取效率和精度,为图像对准提供了更优的特征保障,在拼接模型中引入了自注意力机制显著提高参考图像和目标图像中的特征检测效率和精度,为图像拼接提供了更优的特征保障。拼接后的最终图像根据时间序列进行排序,再将这个时间序列的视频输入预训练好的目标检测神经网络模型中进行推理实现实时目标检测。
附图说明
[0012]图1是本专利技术基于深度学习的多摄像头视频图像拼接方法的流程示意图;
[0013]图2是本专利技术基于深度学习的多摄像头视频图像拼接方法的示意图;
[0014]图3是本专利技术中对准模型的示意图;
[0015]图4是本专利技术中第一自注意力机制模块的示意图;
[0016]图5是本专利技术中CPS模块的示意图;
[0017]图6是本专利技术中CBS模块的示意图;
[0018]图7是本专利技术中对抗神经网络的示意图。
具体实施方式
[0019]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0020]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范
围。
[0021]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0022]在本专利技术的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0023]此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0024]在本专利技术的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。
[0025]下面结合附图,对本专利技术的具体实施方式进行详细说明。
[0026]如图1、图2所示,基于深度学习的多摄像头视频图像拼接方法,包括:
[0027]S1、构建对准模型和拼接模型,对准模型的输出作为拼本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度学习的多摄像头视频图像拼接方法,其特征在于,包括:S1、构建对准模型和拼接模型,对准模型的输出作为拼接模型的输入,对准模型包括两个分支和T个分析层,两个分支分别用于提取参考图像和目标图像的特征图,分析层用于分析网格顶点偏移量,每个分支包括第一卷积层和T个特征提取层,第一卷积层和T个特征提取层按照从输入到输出依次串联,两个分支的第t个特征提取层的输出均作为第t个分析层的输入,每个特征提取层从输入到输出依次包括第一自注意力机制模块和CPS模块,每个分析层从输入到输出依次包括若干第二卷积层和回归网络,拼接模型包括对抗神经网络,t为小于或等于T的正整数,T为大于1的正整数;S2、获取训练集导入对准模型和拼接模型,对其进行训练优化,得到优化后的对准模型和优化后的拼接模型;S3、获取同一时刻K个摄像头拍摄的视频帧,K为大于1的正整数;S4、视频帧k和视频帧k+1导入优化后的对准模型和优化后的拼接模型进行图像拼接,获得拼接图,k为小于K的正整数;S5、判断k+1是否等于K,若是,则拼接图作为最终图像,并输出最终图像;若否,则令k=k+1,然后令拼接图作为视频帧k,并返回S4。2.根据权利要求1所述的基于深度学习的多摄像头视频图像拼接方法,其特征在于,CPS模块包括至少三个第一CBS层和第二CBS层,多个第一CBS层依次串联,第一自注意力机制模块的输出作为第一个第一CBS层和第二CBS层的输入,第一个第一CBS层和倒数第二个第一CBS层的输出均作为最后一个第一CBS层的输入。3.根据权利要求1或2所述的基于深度学习的多摄像头视频图像拼接方法,其特征在于,对抗神经网络包括生成器和判别器,生成器的输出作为判别器的输入,生成器从输入到输出依次包括两层第三卷积层、第二自注意力机制模块、第四卷积层、第三自注意力机制模块和三层第五卷积层,判别器从输入到输出依次包括第六卷积层、第一全连接层、第四自注意力机制模块和第二全连接层。4.根据权利要求1所述的基于深度学习的多摄像头视频图像拼接方法,其特征在于,在S2中,对准模型利用损失函数L进行训练优...

【专利技术属性】
技术研发人员:杨汶杨智鹏李露莹李孝杰朱辛
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1