一种基于CNN模型的多相机融合方法技术

技术编号:38528932 阅读:19 留言:0更新日期:2023-08-19 17:03
一种基于CNN模型的多相机融合方法,该方法的过程包括:S1:使用unity3D构建室内3D模型,确定所需要的相机数量、规格、部署位置以及角度,来达到大型室内空间的全覆盖。然后提取各个相机视角下的图像,完成3D和2D数据集的构造;S2:对图片进行预处理后,使用线段提取器提取图像中符合曼哈顿世界的正交线段,然后使用CNN模型提取语义信息对线段分类;S3:建立全局统一世界坐标系,利用得到的正交线段求出水平方向和竖直方向的旋转,并估计平移参数;S4:根据各个相机的空间位姿,将相机两两配对进行空间融合,根据基本矩阵画极线匹配两相机的检测结果,得到目标的空间位置。得到目标的空间位置。得到目标的空间位置。

【技术实现步骤摘要】
一种基于CNN模型的多相机融合方法


[0001]本专利技术涉及到计算机视觉、slam等
,具体涉及一种基于CNN的多相机融合技术。

技术介绍

[0002]多相机融合是一种利用多个摄像机或相机系统获取的图像或视频数据进行融合的技术。它在很多领域都有应用,如计算机视觉、虚拟现实、增强现实、机器人视觉等。以下是多相机融合的一些
技术介绍

[0003]相机标定:相机标定是多相机融合的前提和基础。通过相机标定可以得到每个相机的内参和位姿等参数,以便于将多个摄像机拍摄的图像或视频数据进行融合。
[0004]图像对齐:在进行多相机融合之前,需要将每个相机拍摄到的图像进行对齐,使得它们在相空间中处于相同的坐标系下。这可以通过计算图像之间的几何变换关系来实现,例如通过特征点匹配、光流等方法。
[0005]深度估计:深度估计是多相机融合中的关键技术之一。通过对每个相机拍摄到的图像进行深度估计,可以得到场景中物体的三维几何信息,从而更好地进行多相机融合。
[0006]光照估计:在多相机融合中,由于每个相机的光照条件可能不同,因此需要对每个相机拍摄到的图像进行光照估计和校正,以便于更好地进行图像融合。
[0007]视觉SLAM:视觉SLAM是指通过相机的视觉信息进行同时定位和地图构建的技术。在多相机融合中,视觉SLAM可以帮助确定多个相机的位置和姿态信息,从而更好地进行多相机融合。
[0008]多视角几何:多视角几何是指利用多个视角的几何信息进行三维重建和视觉分析的技术。在多相机融合中,多视角几何可以帮助确定不同视角下的三维物体信息,从而更好地进行图像融合和深度估计。
[0009]图像对齐任务是一个像素级的任务,现有的图像对齐算法大都通过特征点匹配法来进行多相机的位姿标定,但是在宽基线大视差环境下,多相机难以完美部署以覆盖整个室内空间,特征点在此环境下也难以匹配精确到像素级的特征点,因此需要设计一种新的算法可以求得大视差场景下的精确的相机位姿。

技术实现思路

[0010]为了克服现有技术的不足,本专利技术提供一种基于CNN模型的多相机融合方法,对大视差、宽基线下的多相机间的相对位姿计算有精确求解,进而解决多相机下目标匹配困难的问题,具有较强的实用性、鲁棒性。
[0011]为此,本专利技术采用如下的技术方案:
[0012]一种基于CNN模型的多相机融合方法,包括下列步骤:
[0013]S1:使用unity3D构建室内3D模型,通过模拟部署相机,观察各个相机视角所示区域范围,确定所需要的相机数量、规格、部署位置以及调整角度,来达到大型室内空间的全
覆盖与双覆盖,并提取各个相机视角下的图像。
[0014]S2:对图片进行预处理后,使用LSD线段提取器提取图像中符合曼哈顿世界的正交线段,然后使用CNN模型提取线段的特征并分类。
[0015]S3:建立全局统一世界坐标系,利用分类后的正交线段求出水平方向和竖直方向的旋转,并估计平移参数。
[0016]S4:根据各个相机的空间位姿,将相机两两配对进行空间融合,根据基本矩阵画极线匹配两相机的检测结果,得到目标的空间位置。
[0017]进一步,所述步骤S2包括以下步骤:
[0018]使用张正友标定法获取各个相机的内参以及畸变参数,然后对图片进行去畸变处理。使用LSD线段提取器提取图像中符合曼哈顿世界的正交线段。
[0019]提取后的线段长度与角度各异,需要过滤出不达标准的线段。首先对于难以去判断其垂直或水平角度的线段,将其过滤;其次在大场景里线段的长短不一,对于比较短的线段,无法确定其方向,无法保证是适合我们计算灭点的线段,所以规定一个长度阈值,只保留超过这个长度的线段;位于地面或软物体(能够活动的物体)上的线段可能位于传感器旋转估计的水平线以下,将其删除;如果线段的投影与重力方向之间的角度大于规定的阈值,则线段被删除。
[0020]对于线段的几何特征,使用图像中的位置信息和方向信息,分别表示为f
pos
和f
dir
,然后使用CNN模型从图像中提取特征图。对于某条线段,均匀采样N个点,使用双三次插值计算采样点的值,最后使用加权对特征向量求和,得到每条线段的语义特征f
con
。根据每个线段的三个特征,我们使用Modified Huber损失,对线段进行分类。
[0021]再进一步,所述步骤S3包括以下步骤:
[0022]第一阶段计算水平方向的旋转,定义一个旋转矩阵R
v
,它是竖直方向(重力方向)的旋转。首先得到图像中的主要垂直消失点,每一个垂直消失点都能由两条垂直线的投影l1和l2的齐次坐标作叉乘计算得到。内点最多的垂直消失点即占主导地位的垂直灭点p
v
。我们设定2D图像的垂直方向为z=[0 0 0]T
,对齐相机的垂直轴和2D图像的主要垂直灭点p
v
,然后计算旋转R
v

[0023]第二阶段则是求解竖直方向的旋转R
h
,在2D图像的室内墙壁立面f(若有多个立面,需要进行遍历)中抽取一条水平线l
r
和一条竖直线l
h
,求得墙壁立面f的法线n
f
,接着从法线所在立面中遍历所有水平线l(这条线要转换为世界坐标系上的三维坐标),这些水平线经R
v
进行方向校正后得到先对应的三维水平线l3=R
vT
l,将两个端点做叉乘求得此直线的表达式,就可以计算围绕垂直轴的旋转矩阵R
h

[0024]第三阶段为平移估计,摄像机在全局坐标系中的方向可以从立面上的垂直线段估计出来。在构建室内3D模型时,定义了世界坐标系的原点,那么可以从室内3D模型中得到立面中线段的坐标。我们选择三个以上的垂直线段。我们可以通过将这些垂直线与3D模型中的角点(3D坐标)对齐来估计相机的平移。
[0025]更进一步,所述步骤S4中,融合得到相机的相对空间位姿后,经计算得出基本矩阵,根据各个相机所视场景范围,设定mask区域,并设置全局编号,以mask区域作为约束条件。根据基本矩阵画极线匹配两相机的检测结果,计算得到目标的空间位置。
[0026]本专利技术与现有技术相比的有益效果是:本专利技术提供了一种基于室内3D模型的多相
机融合方法,采用unity3D对真实室内场景进行重建,确定预安装相机的数量、规模、部署位置以及角度,使得大型室内场景能被所有相机视角覆盖,无相机死角。图像预处理后,提取正交信息,并使用CNN模型进行线段方向分类,通过正交信息计算得到相机位姿,克服了特征点匹配法在大视差宽基线场景下的受限和不足,最终实现相机的两两融合,再结合mask掩膜约束以及极线匹配方法,得到目标的空间位置。下面结合附图和具体实施例对本专利技术作进一步描述。
附图说明
[0027]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于CNN模型的多相机融合方法,其特征在于,所述方法包括以下步骤:S1:使用unity3D构建包含正交线段的大型室内3D场景数据集,并部署多个具有大视差的相机,采集各个相机视角下的图像。S2:对图片进行预处理后,使用线段提取器提取图像中符合曼哈顿世界的正交线段,使用CNN模型提取语义特征并分类;S3:建立全局统一世界坐标系,利用得到的正交线段求出水平方向和竖直方向的旋转,并估计平移参数;S4:根据各个相机的空间位姿,将相机两两配对进行空间融合,根据基本矩阵画极线匹配两相机的检测结果,得到目标的空间位置。2.根据权利要求1所述的一种基于CNN模型的多相机融合方法,其特征在于,所述步骤S1中,根据现实大型室内空间场景,使用unity3D构建室内3D模型,通过观察各个相机视角所示区域范围,确定所需要的相机数量、规格、部署位置以及调整角度,来达到大型室内空间的全覆盖。最后提取各个相机视角下的图像,以完成3D和2D数据集的构造。3.根据权利要求1所述的一种基于CNN模型的多相机融合方法,其特征在于,所述步骤2中,提取正交线段后,对于几何特征,使用图像中的位置信息和方向信息,分别表示为f
pos
和f
dir
,使用CNN模型从图像中提取特征图。对于某条线段,均匀采样N个点,使用双三次插值计算采样点的值,最后使用加权对特征向量求和,得到每条线段的语义特征f
con
。线段最终表现形式是以上三个特征的串联,描述为:f
line
=[f
con f
pos f
dir
]
ꢀꢀꢀꢀ
(1)。4.根据权利要求1所述的一种基于CNN模型的多相机融合方法,其特征在于,所述步骤3中,构建所述基于CNN模型的多相机标定模型包括:第一阶段计算水平方向的旋转。首先得到图像中的主要垂直消失点,每一个垂直消失点都能由两条垂直线的投影l1和l2的齐次坐标作叉乘计算...

【专利技术属性】
技术研发人员:张剑华王东辰徐祥龙王军文夏爱灵吴子同
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1