基于多源数据融合的水下目标语义分割方法及系统技术方案

技术编号：40415329 阅读：5 留言：0更新日期：2024-02-20 22:32

本申请提供了一种基于多源数据融合的水下目标语义分割方法,属于水下机器视觉语义分割技术领域。步骤1、获取水下目标事件图像与RGB图像所构建的数据集，划分训练集与验证集；步骤2、设计跨模态注意力模块及跨通道注意力模块；步骤3、将跨模态注意力模块与跨通道注意力模块嵌入到所设计的多源数据融合模块中；步骤4、将多源数据融合模块嵌入到构建的语义分割模型中，并训练及验证语义分割模型；步骤5、使用步骤4的语义分割模型对水下目标进行语义分割。利用事件相机获取水下目标事件序列和RGB图像，将水下目标事件序列和RGB图像信息进行高效充分的数据特征信息融合，为水下目标语义分割提供丰富的特征信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于水下机器视觉语义分割，具体涉及一种基于多源数据融合的水下目标语义分割方法及系统。

技术介绍

1、近年来，水下目标语义分割方法的研究对多个领域产生了深刻而广泛的影响。这一技术的进步为海洋科学研究带来了新的维度，使科学家能够更准确地探究海洋生态系统、地质结构以及气候变化对海洋的影响。在水下资源的勘探和管理方面，语义分割的精确性直接关系到资源的可持续开发。此外，水下机器人在海洋科学、探测与维护等领域的应用正逐步增加，语义分割为水下机器人提供了更智能的感知和理解水下环境的能力，提高了任务的自主性和准确性。在水下通信与导航领域，语义分割有助于水下设备更好地适应复杂环境，提高通信可靠性和导航准确性。此外，该技术还在水下文化遗产保护、突发事件搜索与救援等方面展现了重要的应用前景。因此，水下目标语义分割方法的研究不仅推动了科学的发展，也为实际应用提供了创新的解决方案，为人们更深入地理解和利用水下环境提供了有力支持。

2、水下目标语义分割作为计算机视觉领域的关键任务，面临多方面的挑战。首先，水下光照条件的复杂性导致了图像中的阴影、散射和色彩失真，进而影响了算法的稳定性和准确性。其次，水中存在多样化的物体和生物，它们的形状、纹理差异较大，给语义分割模型带来了识别和分类上的困难。此外，水下物体的运动模糊也对水下语义分割任务的准确率产生了严重干扰。这些问题综合起来阻碍了水下目标语义分割技术的进一步发展和实际应用。因此，解决这些挑战对于提升水下目标语义分割的性能和实用性至关重要。

3、在水下目标中，事件相机的应用可以

4、首先，事件相机的高灵敏度和快速响应特性使其更适用于复杂水下环境，尤其是在光照较差、能见度有限的情况下。事件相机可以实时地捕捉到场景中发生的事件，高效准确的获取目标的纹理形态信息，无需依赖传统摄像机的帧间差异，从而更好地应对例如水下光照不稳定等一系列水下复杂环境所带来的挑战。其次，事件相机对于小目标和快速运动的响应更为灵敏，这在水下目标中尤为关键。水下可能存在快速移动的生物或目标，传统相机可能由于运动模糊而失去细节，而事件相机能够捕捉到每一个事件，为语义分割提供更准确的特征信息。此外，事件相机还具有较低的功耗和高带宽的优势，这对于潜水器等资源受限的水下设备尤为重要。它能够以更高的效率进行数据采集，为语义分割算法提供更丰富的数据输入，同时减小对设备能源和存储资源的需求。

5、因此，事件相机在水下目标语义分割中具备更好的适应性，能够克服传统相机在水下环境中的诸多限制，提供更可靠和实时的感知信息，为水下任务的成功实施提供有力支持。

技术实现思路

1、本专利技术提供一种基于多源数据融合的水下目标语义分割方法，利用事件相机获取水下目标事件序列和rgb图像，将水下目标事件序列和rgb图像信息进行高效充分的数据特征信息融合，为水下目标语义分割提供丰富的特征信息。

2、本专利技术还提供一种基于多源数据融合的水下目标语义分割系统，用以实现基于多源数据融合的水下目标语义分割方法。

3、本专利技术通过以下技术方案实现：

4、一种基于多源数据融合的水下目标语义分割方法，所述水下目标语义分割方法包括以下步骤：

5、步骤1、获取水下目标事件图像与rgb图像所构建的数据集，按照8：2的比例划分训练集与验证集；

6、步骤2、设计跨模态注意力模块及跨通道注意力模块；

7、步骤3、将跨模态注意力模块与跨通道注意力模块嵌入到所设计的多源数据融合模块中；

8、步骤4、将多源数据融合模块嵌入到构建的语义分割模型中，并使用步骤1的训练集训练语义分割模型，使用验证集验证训练后的语义分割模型；

9、步骤5、使用步骤4的语义分割模型对水下目标进行语义分割。

10、进一步的，所述步骤1具体为，利用事件相机采集水下目标事件序列和rgb图像；对采集的水下目标事件序列采用固定时间间隔法表征为事件图像。

11、进一步的，所述步骤2设计跨模态注意力模块具体为，由双分支架构构成，其中一个分支为cbr模块，cbr模块由卷积、批量标准化和relu激活函数构成，能够序列化地在模态维度产生注意力特征图信息，然后模态注意力特征图与原输入特征图进行相乘并进行自适应的模态特征筛选，产生最后的特征图。

12、进一步的，所述步骤2设计跨通道注意力模块具体为，由三分支架构构成，其中一个分支由一个cbr模块组成，另一个分支由两个cbr模块串联构成，两个分支同时作为残差边最后与跨通道注意力机制输出相加。能够序列化地在通道维度产生注意力特征图信息，然后通道注意力特征图与原输入特征图进行相乘并进行自适应的通道特征筛选，产生最后的特征图。

13、进一步的，所述步骤3多源数据融合模块具体为，多源数据融合模块包括两条cbr分支、一条跨模态注意力模块分支与一条跨通道注意力模块分支；

14、cbr分支件分支由两个cbr模块串联构成，

15、跨模态注意力模块分支由一个跨模态注意力模块与一个cbr模块串联构成，

16、跨通道注意力模块分支由一个跨通道注意力模块与一个cbr模块串联构成；

17、其中一条cbr分支的输出与跨模态注意力模块的输出进行相加，

18、一条cbr分支的输出与跨通道注意力模块的输出进行相加；

19、两种分支相加后的特征图按照通道维度拼接，然后进入到一个cbr模块，获得一个3 x 640 x 640的融合特征图，实现最终的多源数据特征融合。

20、进一步的，对于跨模态融合注意力模块操作，其计算公式为：

21、

22、

23、

24、

25、对于跨通道融合注意力模块操作，其计算公式为：

26、

27、

28、

29、

30、其中，代表输入特征图， conv代表卷积操作， dwconv代表深度可分离卷积操作， cbr代表cbr模块操作， norm代表层标准化操作，

31、 r代表对特征向量进行形态转变，、、代表基于模态维度的查询向量、模态键向量、模态值向量，、、代表基于通道维度的查询向量、通道键向量、通道值向量，、代表对当前模态键向量进行转置操作，代表由模态注意力得到的特征向量，代表由通道注意力得到的特征向量，

3本文档来自技高网...

【技术保护点】

1.一种基于多源数据融合的水下目标语义分割方法，其特征在于，所述水下目标语义分割方法包括以下步骤：

2.根据权利要求1所述一种基于多源数据融合的水下目标语义分割方法，其特征在于，所述步骤1具体为，利用事件相机采集水下目标事件序列和RGB图像；对采集的水下目标事件序列采用固定时间间隔法表征为事件图像。

3.根据权利要求1所述一种基于多源数据融合的水下目标语义分割方法，其特征在于，所述步骤2设计跨模态注意力模块具体为，由双分支架构构成，其中一个分支为CBR模块，CBR模块由卷积、批量标准化和ReLU激活函数构成，能够序列化地在模态维度产生注意力特征图信息，然后模态注意力特征图与原输入特征图进行相乘并进行自适应的模态特征筛选，产生最后的特征图。

4.根据权利要求3所述一种基于多源数据融合的水下目标语义分割方法，其特征在于，所述步骤2设计跨通道注意力模块具体为，由三分支架构构成，其中一个分支由一个CBR模块组成，另一个分支由两个CBR模块串联构成，两个分支同时作为残差边最后与跨通道注意力机制输出相加；能够序列化地在通道维度产生注意力特征图信息，然后通道

5.根据权利要求4所述一种基于多源数据融合的水下目标语义分割方法，其特征在于，所述步骤3多源数据融合模块具体为，多源数据融合模块包括两条CBR分支、一条跨模态注意力模块分支与一条跨通道注意力模块分支；

6.根据权利要求5所述一种基于多源数据融合的水下目标语义分割方法，其特征在于，对于跨模态融合注意力模块操作，其计算公式为：

7.根据权利要求5所述一种基于多源数据融合的水下目标语义分割方法，其特征在于，对于多源数据融合模块操作，其计算公式为：

8.一种基于多源数据融合的水下目标语义分割系统，其特征在于，包括

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。

...

【技术特征摘要】

1.一种基于多源数据融合的水下目标语义分割方法，其特征在于，所述水下目标语义分割方法包括以下步骤：

2.根据权利要求1所述一种基于多源数据融合的水下目标语义分割方法，其特征在于，所述步骤1具体为，利用事件相机采集水下目标事件序列和rgb图像；对采集的水下目标事件序列采用固定时间间隔法表征为事件图像。

3.根据权利要求1所述一种基于多源数据融合的水下目标语义分割方法，其特征在于，所述步骤2设计跨模态注意力模块具体为，由双分支架构构成，其中一个分支为cbr模块，cbr模块由卷积、批量标准化和relu激活函数构成，能够序列化地在模态维度产生注意力特征图信息，然后模态注意力特征图与原输入特征图进行相乘并进行自适应的模态特征筛选，产生最后的特征图。

4.根据权利要求3所述一种基于多源数据融合的水下目标语义分割方法，其特征在于，所述步骤2设计跨通道注意力模块具体为，由三分支架构构成，其中一个分支由一个cbr模块组成，另一个分支由两个cbr模块串联构成，两个分支同时作为残差边最后与跨通道注意力机制输出相加；能够序列化地在通道维度产生注意力特征图信息，然...

【专利技术属性】
技术研发人员：姜宇，郭千仞，魏枫林，赵明浩，齐红，王凯，王跃航，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人