一种基于跨模态融合的水下去遮挡方法技术

技术编号：40778539 阅读：4 留言：0更新日期：2024-03-25 20:23

一种基于跨模态融合的水下去遮挡方法。本发明专利技术属于水下机器视觉的技术领域，具体而言，涉及事件和RGB两种数据模态深度融合方法，以及基于事件和RGB数据的水下场景去遮挡重建方法。本发明专利技术提供了一种基于跨模态融合的水下去遮挡方法，解决了现有技术中在水下去遮挡时都是先将事件序列与RGB图像各自的特征先进行编码后再融合，此种处理方式容易导致模型计算量和硬件要求翻倍，无法适配于资源受限的水下环境的问题。本发明专利技术所述方法将事件序列与RGB图像直接进行融合，然后再进行编码解码，在前融合阶段进行数据融合，减少了系统对计算量的要求，使网络更加轻量化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于水下机器视觉的，具体而言，涉及事件和rgb两种数据模态深度融合方法，以及基于事件和rgb数据的水下场景去遮挡重建方法。

技术介绍

1、利用事件和rgb数据实现水下视觉无遮挡场景的清晰重建，为水下的目标检测、识别和追踪等任务提供了高质量鲁棒的视觉表达，也是未来水下数据处理的发展趋势，但现有技术中，例如中国专利技术专利cn115761472 a《一种基于融合事件和rgb数据的水下暗光场景重建方法》和cn115661452 a《一种基于事件相机和rgb图像的图片去遮挡方法》在处理事件序列与rgb图像时，都是先将事件序列与rgb图像各自的特征先进行编码后再融合，此种处理方式容易导致模型计算量和硬件要求翻倍，无法适配于资源受限的水下环境的问题。

技术实现思路

1、为了解决这一问题，本专利技术提供了一种基于跨模态融合的水下去遮挡方法，将事件序列与rgb图像直接进行融合，然后再进行编码解码，在前融合阶段进行数据融合，减少了系统对计算量的要求，使网络更加轻量化。

2、本专利技术所述方法具体如下：所述方法包括如下步骤：

3、s1、利用事件相机采集水下场景对应的水下事件序列、遮挡rgb帧以及未遮挡rgb帧，并构建水下事件序列—遮挡rgb帧—中间视角未遮挡rgb帧为标准的基准数据集，基准数据集中包括训练集和测试集；

4、使用训练集对步骤s2—s5进行训练；

5、s2、对水下场景对应的水下事件序列采用体素网格方式进行分段化表征，并将表征后的结果作为目标事件张量图；

6、s3、利用自主设计的时序多尺度编码网络对目标事件张量图和其对应的遮挡rgb帧进行融合特征编码；

7、s4、利用基于特征金字塔的多级transformer编解码器对步骤s3得到的多尺度融合特征进行深度特征抽取；

8、s5、利用基于特征金字塔的多级transformer编解码器进行解码，得到中间视角水下重建图像；

9、s6、利用步骤s1中的测试集对步骤s2-s4中的网络进行测试，直到解码所得的中间视角水下重建图质量符合要求，否则重复步骤s1—s5；

10、s7、将中间视角水下重建图像与其他视角遮挡rgb帧一同送入到自主改进的u型编解码网络中进行融合，最终输出所有视角的水下重建图像。

11、进一步，所述中间视角具体为在所有视角中与遮挡物所在平面垂直的视角。

12、进一步，所述步骤s1具体为：

13、步骤1.1、根据所述的水下事件序列，按其微秒级的时间戳进行划分，针对每一水下场景，得到多个事件窗口；

14、步骤1.2、将所述遮挡rgb帧按其微秒级的时间戳与步骤1.1的事件窗口逐个对齐；

15、步骤1.3、采集的中间视角未遮挡rgb帧，作为参考图像，并保持与步骤1.2的所有遮挡rgb帧逐个对齐；

16、步骤1.4、根据步骤1.1、步骤1.2和步骤1.3所获得的结果，构建基准训练集和测试集，比例为9:1。

17、进一步，所述步骤s2具体为：

18、将水下事件序列的每个事件窗口执行体素网格化过程，通过：

19、；

20、实现，式中，为经过体素网格表征后的目标事件张量图，其输入为事件单元的四元组数据：，分别代表事件窗口中第个事件单元的坐标信息、时间戳和极性；其中，代表当前事件窗口中第个事件单元所在位置的亮度增加，并达到了预设增量阈值；代表相反的过程。

21、进一步，所述自主设计的时序多尺度编码网络由三个分支网络结合起来构成，所述三个分支网络存在共同的输入和输出；

22、其中，第一个分支网络从输入到输出依次包括3个相同的特征提取单元和一个多层感知机；

23、第二个分支网络从输入到输出依次包括2个相同的特征提取单元和一个多层感知机；

24、第三个分支网络从输入到输出依次包括一个特征提取单元和一个多层感知机；

25、所述特征提取单元依次包括3d卷积网络层、批量归一化层和激活层。

26、进一步，所述3d卷积网络层包括resnet3d18、resnet3d50和resnet3d101。

27、进一步，所述自主改进的u型编解码网络通过在解码和编码阶段使用深度可分离卷积构造跳跃连接，在编码器和解码器之间加入通道注意力加权，对不同视角所在的通道信息进行交互。

28、本专利技术所述方法的有益效果为：

29、（1）对于水下场景，时序上信息融合比空间上的信息融合更能适应水下环境的场景多变，但是时序上的融合意味着多尺度信息的融合，在使用transformer编码器进行编码时，由于其只能对一个尺度上的信息进行编码，所以本专利技术中，自主设计了时序多尺度编码网络，对多尺度时序信息进行融合编码，再将多尺度融合特征输入transformer编码器。

30、（2）将中间视角的无遮挡图像和所有视角的带遮挡图像输入到多视角合成u型网络中进行合成，通过在解码和编码阶段使用深度可分离卷积构造跳跃连接，相对于其他u型结构而言，以可学习的方式连接同一尺度的解码编码信息，深度可分离卷积相对于卷积而言同时拥有更大的感受野，可以有效增强融合结果；另一方面，在编码器和解码器之间加入通道注意力加权，可以有效的对不同视角所在的通道信息进行交互。

本文档来自技高网...

【技术保护点】

1.一种基于跨模态融合的水下去遮挡方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述中间视角具体为在所有视角中与遮挡物所在平面垂直的视角。

3.根据权利要求1所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述步骤S1具体为：

4.根据权利要求3所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述步骤S2具体为：

5.根据权利要求4所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述自主设计的时序多尺度编码网络由三个分支网络结合起来构成，所述三个分支网络存在共同的输入和输出；

6.根据权利要求5所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述3D卷积网络层包括ResNet3D18、ResNet3D50和ResNet3D101。

7.根据权利要求6所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述自主改进的U型编解码网络通过在解码和编码阶段使用深度可分离卷积构造跳跃连接，在编码器和解码器之间加入通道注意力加权，对不同视角所在的通道信息进行交互。

...

【技术特征摘要】

1.一种基于跨模态融合的水下去遮挡方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述中间视角具体为在所有视角中与遮挡物所在平面垂直的视角。

3.根据权利要求1所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述步骤s1具体为：

4.根据权利要求3所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述步骤s2具体为：

5.根据权利要求4所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述...

【专利技术属性】
技术研发人员：姜宇，张永霁，魏枫林，赵明浩，齐红，王跃航，郭千仞，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人