一种基于视觉融合的场景重构方法与装置制造方法及图纸

技术编号:37429355 阅读:9 留言:0更新日期:2023-04-30 09:49
本发明专利技术提供了一种基于视觉融合的场景重构方法与装置,其中,方法包括:获取多个视觉信息,并分割为多个分块,提取目标分块进行标记,并通过二次注意力机制,以输入GAN网络模型中进行对抗训练,从而得到基于各个轴点在各个时间点的所述实际三维坐标,基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构,从而得到重构场景。本发明专利技术的有益效果:使得到训练完成后的神经网络模型可以对得到的三维坐标进行纠正,从而提高精度,降低局部区域的失真程度,提高观看人员的体验。提高观看人员的体验。提高观看人员的体验。

【技术实现步骤摘要】
一种基于视觉融合的场景重构方法与装置


[0001]本专利技术涉及场景重构
,特别涉及一种基于视觉融合的场景重构方法与装置。

技术介绍

[0002]随着科技的发展,虚拟现实或者增强现实技术已经得到了突飞猛进,其在艺术娱乐、医疗、教育等领域都有广泛的应用,然而,专利技术人意识到,由于一些采集的数据具有一定的误差,这导致重构的场景会有局部区域失真,导致重构的场景与实际场景会有比较大的出入,这给予观看人员极其不好的体验,因此,亟需一种视觉融合的场景重构方法和装置。

技术实现思路

[0003]本专利技术的主要目的为提供一种基于视觉融合的场景重构方法与装置,旨在解决重构的场景会有局部区域失真的问题。
[0004]本专利技术提供了一种基于视觉融合的场景重构方法,包括:通过预设的多个激光雷达从各自预设的角度获取目标场景的多个视觉信息;其中,一个激光雷达获取一个视觉信息,所述视觉信息包括连续多帧的视觉图片;按照时间顺序选取各个所述视觉信息的第一张视觉图片作为第一视觉图片,将其余的视觉图片记为第二视觉图片;将第一视觉图片分割为预设数量的分块;判断各个所述分块是否在第二视觉图片中存在;若存在,则根据预设的DS搜索算法搜寻每个分块在各个第二视觉图片中的位置,并计算相邻两帧视觉图片中各个分块之间的位置差值;将所述位置差值大于0的分块记为目标分块;对各个目标分块的轴点进行标记,并将各个目标分块的任意两个轴点的之间的距离作为对应任意两个轴点的第一注意力机制;其中同一分块的任意两个轴点的距离不会发生变化;获取相邻两帧视觉图片中同一轴点的位置,从而得到同一轴点的移动距离,并将所述同一轴点的距离作为对应轴点的第二注意力机制;基于所述多个视觉信息获取到各个轴点的三维坐标;将所述三维坐标输入至生成网络模型中,以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中,得到各个轴点在各个时间点的实际三维坐标;其中,所述生成网络模型和判别网络模型为GAN网络模型的两个子模型,一个时间点对应所述视觉信息中的一帧视觉图片的拍摄时间点;基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构,从而得到重构场景;其中,所述预设的三维模型为根据目标场景预先构建的虚拟模型。
[0005]进一步地,所述将所述三维坐标输入至生成网络模型中,以及将所述第一注意力
机制和所述第二注意力机制输入至判别网络模型中,得到各个轴点在各个时间点的实际三维坐标的步骤之前,还包括:获取三维重构训练样本集;其中,所述三维重构训练样本集中的一组数据包括各个轴点的实际三维位置信息、基于各个激光雷达检测得到的预计三维信息、第一注意力机制、第二注意力机制;根据所述实际三维信息得到各个轴点的实际移动距离以及分块相邻两个轴点的位置,并进行向量化,从而得到目标向量,根据各个轴点的预计三维信息得到各个轴点的预计移动距离以及分块相邻两个轴点的位置,并进行向量化,从而得到第一向量,根据所述第一注意力机制和所述第二注意力机制进行向量化,从而得到第二向量;将所述第一向量输入至初始生成模型中,得到第一预测值,将所述目标向量输入所述初始生成模型中,通过公式对所述初始生成模型进行初始训练,得到中间生成模型,并再次输入第一向量得到训练后的暂时预测值,并将所述第二向量输入至初始判别模型中,通过公式对所述初始生成模型进行初始训练,得到中间判别模型;其中,,表示生成模型的参数集,表示判别模型的参数集;根据公式对所述中间生成模型和中间判别模型进行二次训练,训练完成后得到所述生成模型和所述判别模型;其中表示在满足上述公式的前提下取的最小值以及的最大值。
[0006]进一步地,所述基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构,从而得到重构场景的步骤,包括:获取各个分块的类型和几何信息并输入至预设的支持向量机中,得到物品特征;将所述物品特征输入至预先训练好的分类器中,得到所述物品特征的分类和语义标注;将所述物品特征的分类和语义标注加入至所述重构场景中,以实现对所述重构场景的标注。
[0007]进一步地,所述基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构,从而得到重构场景的步骤之前,还包括:通过所述多个激光雷达采集所述目标场景的点云数据;对所述点云数据进行预处理,得到处理后的标准点云数据;其中,所述预处理包括坐标转换、去除不合格和不需要的点云中的任意一种或者多种方式;获取所述目标场景的全景图像,并通过所述全景图像对所述标准点云数据进行渲
染,得到所述预设的三维模型。
[0008]本专利技术还提供了一种基于视觉融合的场景重构装置,包括:第一获取模块,用于通过预设的多个激光雷达从各自预设的角度获取目标场景的多个视觉信息;其中,一个激光雷达获取一个视觉信息,所述视觉信息包括连续多帧的视觉图片;选取模块,用于按照时间顺序选取各个所述视觉信息的第一张视觉图片作为第一视觉图片,将其余的视觉图片记为第二视觉图片;分割模块,用于将第一视觉图片分割为预设数量的分块;判断模块,用于判断各个所述分块是否在第二视觉图片中存在;搜寻模块,用于若存在,则根据预设的DS搜索算法搜寻每个分块在各个第二视觉图片中的位置,并计算相邻两帧视觉图片中各个分块之间的位置差值;第一标记模块,用于将所述位置差值大于0的分块记为目标分块;第二标记模块,用于对各个目标分块的轴点进行标记,并将各个目标分块的任意两个轴点的之间的距离作为对应任意两个轴点的第一注意力机制;其中同一分块的任意两个轴点的距离不会发生变化;第二获取模块,用于获取相邻两帧视觉图片中同一轴点的位置,从而得到同一轴点的移动距离,并将所述同一轴点的距离作为对应轴点的第二注意力机制;第三获取模块,用于基于所述多个视觉信息获取到各个轴点的三维坐标;输入模块,用于将所述三维坐标输入至生成网络模型中,以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中,得到各个轴点在各个时间点的实际三维坐标;其中,所述生成网络模型和判别网络模型为GAN网络模型的两个子模型,一个时间点对应所述视觉信息中的一帧视觉图片的拍摄时间点;重构模块,用于基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构,从而得到重构场景;其中,所述预设的三维模型为根据目标场景预先构建的虚拟模型。
[0009]进一步地,所述基于视觉融合的场景重构装置,还包括:训练数据获取模块,用于获取三维重构训练样本集;其中,所述三维重构训练样本集中的一组数据包括各个轴点的实际三维位置信息、基于各个激光雷达检测得到的预计三维信息、第一注意力机制、第二注意力机制;向量化模块,用于根据所述实际三维信息得到各个轴点的实际移动距离以及分块相邻两个轴点的位置,并进行向量化,从而得到目标向量,根据各个轴点的预计三维信息得到各个轴点的预计移动距离以及分块相邻两个轴点的位置,并进行向量化,从而得到第一向量,根据所述第一注意力机制和所述第二注意力机制进行向量化,从而得到第二向量;向量输入模块,用于将所述第一向量输入至初始生成模型中,得到第一预测值,将所述目标向量输入所述初始生成模型中,通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉融合的场景重构方法,其特征在于,包括:通过预设的多个激光雷达从各自预设的角度获取目标场景的多个视觉信息;其中,一个激光雷达获取一个视觉信息,所述视觉信息包括连续多帧的视觉图片;按照时间顺序选取各个所述视觉信息的第一张视觉图片作为第一视觉图片,将其余的视觉图片记为第二视觉图片;将第一视觉图片分割为预设数量的分块;判断各个所述分块是否在第二视觉图片中存在;若存在,则根据预设的DS搜索算法搜寻每个分块在各个第二视觉图片中的位置,并计算相邻两帧视觉图片中各个分块之间的位置差值;将所述位置差值大于0的分块记为目标分块;对各个目标分块的轴点进行标记,并将各个目标分块的任意两个轴点的之间的距离作为对应任意两个轴点的第一注意力机制;其中同一分块的任意两个轴点的距离不会发生变化;获取相邻两帧视觉图片中同一轴点的位置,从而得到同一轴点的移动距离,并将所述同一轴点的距离作为对应轴点的第二注意力机制;基于所述多个视觉信息获取到各个轴点的三维坐标;将所述三维坐标输入至生成网络模型中,以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中,得到各个轴点在各个时间点的实际三维坐标;其中,所述生成网络模型和判别网络模型为GAN网络模型的两个子模型,一个时间点对应所述视觉信息中的一帧视觉图片的拍摄时间点;基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构,从而得到重构场景;其中,所述预设的三维模型为根据目标场景预先构建的虚拟模型。2.如权利要求1所述的基于视觉融合的场景重构方法,其特征在于,所述将所述三维坐标输入至生成网络模型中,以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中,得到各个轴点在各个时间点的实际三维坐标的步骤之前,还包括:获取三维重构训练样本集;其中,所述三维重构训练样本集中的一组数据包括各个轴点的实际三维位置信息、基于各个激光雷达检测得到的预计三维信息、第一注意力机制、第二注意力机制;根据所述实际三维信息得到各个轴点的实际移动距离以及分块相邻两个轴点的位置,并进行向量化,从而得到目标向量,根据各个轴点的预计三维信息得到各个轴点的预计移动距离以及分块相邻两个轴点的位置,并进行向量化,从而得到第一向量,根据所述第一注意力机制和所述第二注意力机制进行向量化,从而得到第二向量;将所述第一向量输入至初始生成模型中,得到第一预测值,将所述目标向量输入所述初始生成模型中,通过公式对所述初始生成模型进行初始训练,得到中间生成模型,并再次输入第一向量得到训练后的暂时预测值,并将所述第二向量输入至初始判别模型中,通过公式
对所述初始生成模型进行初始训练,得到中间判别模型;其中,,表示生成模型的参数集,表示判别模型的参数集;根据公式对所述中间生成模型和中间判别模型进行二次训练,训练完成后得到所述生成模型和所述判别模型;其中表示在满足上述公式的前提下取的最小值以及的最大值。3.如权利要求1所述的基于视觉融合的场景重构方法,其特征在于,所述基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构,从而得到重构场景的步骤,包括:获取各个分块的类型和几何信息并输入至预设的支持向量机中,得到物品特征;将所述物品特征输入至预先训练好的分类器中,得到所述物品特征的分类和语义标注;将所述物品特征的分类和语义标注加入至所述重构场景中,以实现对所述重构场景的标注。4.如权利要求1所述的基于视觉融合的场景重构方法,其特征在于,所述基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构,从而得到重构场景的步骤之前,还包括:通过所述多个激光雷达采集所述目标场景的点云数据;对所述点云数据进行预处理,得到处理后的标准点云数据;其中,所述预处理包括坐标转换、去除不合格和不需要的点云中的任意一种或者多种方式;获取所述目标场景的全景图像,并通过所述全景图像对所述标准点云数据进行渲染,得到所述预设的三维模型。5.一种基于视觉融合的场景重构装置,其特征在于,包...

【专利技术属性】
技术研发人员:李振波周维郭媛媛
申请(专利权)人:武汉零点视觉数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1