一种基于混合建模的轻量化前视声呐图像语义分割方法技术

技术编号:39166175 阅读:10 留言:0更新日期:2023-10-23 15:04
本发明专利技术提供一种基于混合建模的轻量化前视声呐图像语义分割方法,包括模型搭建、训练、采集和预测等模块;模型搭建模块,使用混合建模网络作为主干网络提取特征,结合动态注意力门控模块和解码器搭建模型;训练模块,基于训练数据集进行训练;采集模块,获取新的前视声呐图像;预测模块,将新获取的前视声呐图像输入训练好的模型进行像素级类别预测,输出用于语义分割结果。本发明专利技术提出了准确度高、运行速度快、参数量少的前视声呐图像语义分割方法,可用于水下航行器识别水下物体,辅助水下物体抓取和避障。抓取和避障。抓取和避障。

【技术实现步骤摘要】
一种基于混合建模的轻量化前视声呐图像语义分割方法


[0001]本专利技术涉及图像数据分割
,具体为一种基于混合建模的轻量化前视声呐图像语义分割方法。

技术介绍

[0002]声呐是水下探测的一种有效工具,可以通过处理声呐回波成像后的图像获取信息。声呐可分为侧扫声呐、合成孔径声呐和前视声纳等。其中,前视声呐通过声波发射基阵,以扇形前向或垂直方向发射脉冲信号并实施成像,相比与其他类型的声纳可以广泛地采集水下信息,可用于水下航行器的环境感知和导航。由于海底混响、海洋环境噪声和声波在传播过程中的折射、吸收,声呐图像往往具有噪声干扰、混叠失真等特点,为声呐图像的处理带来了困难。传统的声呐图像处理算法往往采用人工提取特征的方式,这些算法容易受各类噪声的干扰,同时也不够智能化,对于不同种类物体的泛化能力差。因此,一种引入深度学习技术的高性能前视声呐图像分割方法显得尤为重要。
[0003]经检索,申请号为CN202010811312.6的中国专利,一种基于respath

Unet的水下声呐图像数据分割方法,通过respath

Unet网络基于训练数据集进行训练,将新拍摄的水下声呐图像数据输入训练好的respath

Unet网络模型中,获取其分割结果,在通道维度上,获取其最大值对应的index,即为对应的结构标签。该专利技术能够得到水下声呐图像数据的水面、柱子以及河床,可用于辅助识别水下结构缺陷、河床断面形状、基础冲刷程度等;但是其不足在于:其基于深度学习的方法使用卷积神经网络(CNN)对图像内容进行特征提取,卷积神经网络感受野有限导致很难捕获全局信息,容易受到噪声干扰;其使用U形连接作为解码器可能将低层特征中的噪声引入解码过程。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种基于混合建模的前视声呐图像语义分割方法,以克服现有技术对前视声呐图像中噪声的敏感性。
[0006](二)技术方案
[0007]为实现上述克服噪声的敏感性目的,本专利技术提供如下技术方案:一种基于混合建模的轻量化前视声呐图像语义分割方法,包括以下步骤:
[0008]S1:获取水下前视声呐数据集;
[0009]S2:对获取的水下前视声呐数据集进行像素级标注,其中,背景部分标注为0,各类检测目标标注为1

10;
[0010]S3:将标注好的水下前视声呐图像数据进行划分为训练集合和验证集;
[0011]S4:构建混合建模网络作为模型主干网络,基于混合建模模组和结构化重参数式前馈网络构成的编码器,以各阶段的编码器输出作为动态注意力门控模组和解码器的输入,构建混合建模分割网络;
[0012]S4.1在混合建模分割网络的编码器部分,采用混合建模网络作为骨干网络,构建骨干网络的各阶段,混合建模模组由卷积建模和注意力式建模组成,结构化重参数式前馈网络由经过改进的结构化重参数卷积层和批归一化层作为前馈网络,每个阶段由混合建模模组和结构化重参数式前馈网络先后构成;其中,骨干网络分为四个阶段;
[0013]S4.2阶段一,构建动态注意力门控模组,动态注意力门控模组由动态卷积和门控注意力机制构成,针对不同特征图动态提取信息,并通过高层特征降低噪声干扰;
[0014]S4.3阶段二,构建解码器,将基于S4.1的骨干网络各阶段提取的特征图,输入基于S4.3构建的动态注意力门控模组中,再构建U形结构和特征金字塔结构;
[0015]S4.4阶段三和阶段四,阶段三是掩膜分割的混合损失函数,由交叉熵损失和Lovasz

softmax损失组成,阶段四特征图的语义损失函数,采用交叉熵损失,最终的优化目标函数如下:
[0016]Loss=CE_Loss(mask)+Lovasz_Loss(mask)+0.3*CE_Loss(Feature4);
[0017]S5:将混合建模分割网络在基于S3得到的训练集上进行训练,并保存最佳模型权重;
[0018]S6:利用训练好的模型,将新获取的前视声呐图像预处理后,输入模型中,得到模型分割结果,使水下航行器感知环境和物体。
[0019]优选的,步骤S1中,利用前视声呐设备获取前视声呐图像数据。
[0020]优选的,步骤S2中,背景部分标注为0,立方体标注为1,球体标注为2,圆柱体标注为3,人体模型标注为4,飞机模型标注为5,圆形地笼标注为6,方形地笼标注为7,铁质油桶标注为8,轮胎标注为9,水下航行器标注为10。
[0021]优选的,步骤S3中,对标注好的水下前视声呐图像数据划分结果是85%作为训练集和15%作为验证集。
[0022]优选的,步骤S4中,混合建模模组采用混合建模的方式,采用5
×
5深度可分离卷积和残差连接作为卷积式建模,采用等效的7
×
7、11
×
11、21
×
21的大核卷积和自适应注意力通路作为注意力式建模;结构化重参数式前馈网络采用经过改进的结构化重参数卷积层和批归一化层作为前馈网络;动态注意力门控模组使用动态卷积增强各阶段特征图,并通过高层特征引导的注意力门控机制消除噪声。
[0023](三)有益效果
[0024]与现有技术相比,本专利技术提供了一种基于混合建模的前视声呐图像语义分割方法,具备以下有益效果:
[0025]该基于混合建模的前视声呐图像语义分割方法,基于提取的信息进行构建模型后,对模型进行训练,利用训练好的模型,将新获取的前视声呐图像预处理后,输入模型中,得到模型分割结果,本方法利用构建模型的方式进行采集,准确度高、运行速度快、参数量少的前视声呐图像语义分割方法,可用于水下航行器识别水下物体,辅助水下物体抓取和避障,从而减少前视声呐图像中容易受到噪声干扰的不准确的问题。
附图说明
[0026]图1为本专利技术基于混合建模分割的前视声呐图像语义分割方法流程图;
[0027]图2为本专利技术的混合建模模块的网络结构图;
[0028]图3为本专利技术的动态注意力门控模组的网络结构图。
具体实施方式
[0029]下面将结合本专利技术的实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]请参阅图1

3,一种基于混合建模的前视声呐图像语义分割方法包括如下步骤:
[0031]S1:获取水下前视声呐数据集;其中,利用前视声呐设备获取前视声呐图像数据。
[0032]S2:对获取的水下前视声呐数据集进行像素级标注,其中,背景部分标注为0,各类检测目标标注为1

10,各类检测目标包括,立方体标注为1,球体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合建模的轻量化前视声呐图像语义分割方法,其特征在于,包括以下步骤:S1:获取水下前视声呐数据集;S2:对获取的水下前视声呐数据集进行像素级标注,其中,背景部分标注为0,各类检测目标标注为1

10;S3:将标注好的水下前视声呐图像数据进行划分为训练集合和验证集;S4:构建混合建模网络作为模型主干网络,基于混合建模模组和结构化重参数式前馈网络构成的编码器,以各阶段的编码器输出作为动态注意力门控模组和解码器的输入,构建混合建模分割网络;S4.1在混合建模分割网络的编码器部分,采用混合建模网络作为骨干网络,混合建模模组由卷积建模和注意力式建模组成,结构化重参数式前馈网络由经过改进的结构化重参数卷积层和批归一化层作为前馈网络,每个阶段由混合建模模组和结构化重参数式前馈网络先后构成;其中,骨干网络分为四个阶段;S4.2阶段一,构建动态注意力门控模组,动态注意力门控模组由动态卷积和门控注意力机制构成,针对不同特征图动态提取信息,并通过高层特征降低噪声干扰;S4.3阶段二,构建解码器,将基于S4.1的骨干网络各阶段提取的特征图,输入基于S4.3构建的动态注意力门控模组中,再构建U形结构和特征金字塔结构;S4.4阶段三和阶段四,阶段三是掩膜分割的混合损失函数,由交叉熵损失和Lovasz

softmax损失组成,阶段四特征图的语义损失函数,采用交叉熵损失,最终的优化目标函数如下:Loss=CE_Loss(mask)+Lovasz_Loss(mask)+0.3*CE_Loss(Feature...

【专利技术属性】
技术研发人员:刘志王奕柯李恭杨陆小锋刘学锋
申请(专利权)人:上海大学温州研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1