当前位置: 首页 > 专利查询>浙江大学专利>正文

基于神经网络可视化的声呐图像自动目标识别方法技术

技术编号:29082954 阅读:16 留言:0更新日期:2021-06-30 09:44
本发明专利技术公开了一种基于神经网络可视化的声呐图像自动目标识别方法。通过实现一种仅依靠样本类别标签对声呐图像目标的定位与识别方法,较大减少了方法的人工成本和在声呐图像领域的泛化能力。针对声呐数据集缺乏造成的训练模型明显的过拟合问题,本发明专利技术通过自适应实例正则化(Adaptive InstanceNormalization,AdaIN)风格转换方法将原预训练所用光学数据集转换为了基于形状偏好的光学数据集,使得获取的预训练参数对形状特征更为鲁棒,从而辅助模型在声呐数据集的训练中侧重于提取声呐图像目标特有的形状特征。实验证明该方法不但有助于解决声呐数据集不足造成的模型定位失准的问题,而且进一步提升了模型在声呐图像的自动目标识别任务中的效果。动目标识别任务中的效果。动目标识别任务中的效果。

【技术实现步骤摘要】
基于神经网络可视化的声呐图像自动目标识别方法


[0001]本专利技术属于声呐目标识别领域,特别涉及一种基于神经网络可视化的声呐图像自动目标识别方法。

技术介绍

[0002]声呐图像的自动目标识别技术能够不受水质和光学可见度的影响,广泛应用于AUV中承担一些测量、检测和探测任务。声纳图像中目标的自动识别通常分为定位和识别两个步骤。定位部分的目的是定位最可能包含目标的区域,而分类部分则通过利用定位区域的信息来确定目标的类别。大多数方法通过不同的技术分两步完成自动目标识别任务,增加了方法的人工成本,也影响了泛化能力。
[0003]近年来,随着CNN方法在光学图像检测和识别任务中取得了优异的效果,研究人员也试图将CNN方法应用到声纳图像中目标的自动识别领域。在文献“Valdenegro

Toro M.Object recognition in forward

looking sonar images withConvolutional Neural Networks[C]//Oceans.IEEE,2016.”中,作者利用CNNs将海洋垃圾数据集的识别率提高到99\%,并通过各种模型的融合提高了分类效果。但是,作者数据集中的目标对象是手动截获的。文献“Berthomier T,Williams DP,Dugelay S.Target Localization in Synthetic Aperture Sonar Imagery usingConvolutional Neural Networks[C]//OCEANS 2019 MTS/IEEE SEATTLE.IEEE, 2019.”的作者提出,根据声呐图像的特点,提出可以利用训练在分类任务上的 CNNs来可视化定位目标。由此,基于神经网络可视化的方法解决声呐图像自动目标识别的实际问题成为可能。

技术实现思路

[0004]为解决神经网络可视化的方法实际应用到声呐图像中存在的技术问题,本专利技术提出一种基于神经网络可视化的声呐图像自动目标识别方法,通过寻求合适的数据集预训练参数,提升模型提取特征的基础能力,从而准确且鲁棒的识别定位目标。
[0005]本专利技术技术方案如下:
[0006]本范首先公开了一种基于神经网络可视化的声呐图像自动目标识别方法,其包括如下步骤:
[0007]1)使用ResNet

18分类主干网络和Grad

CAM神经网络可视化搭建自动目标识别模型;其中,Grad

CAM模块置于ResNet

18分类主干网络的全连接层前;
[0008]2)基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集,利用形状偏好数据集对自动目标识别模型进行预训练,获取对形状特征鲁棒的预训练参数,
[0009]3)利用标记了样本类别的声呐图像作为训练集,对步骤2)预训练后的自动目标模型进行再训练;
[0010]4)将待识别样本输入经再训练后的自动目标识别模型,得到分类类别,基于Grad

CAM模块得到指示目标位置的可视化热力图;对热力图高亮部分使用最小外接矩形法获得具体目标位置。
[0011]进一步的,所述的Grad

CAM模块,其结构为其中A
i
表示最终输出的n张特征图中的1张,其对样本被分类到某一类别c的影响权重记为ReLU为激活函数,使得可视化时只关注与类c正相关的区域。
[0012]进一步的,由识别模型判定样本为类c的总得分对每个特征图像素求导得到:
[0013][0014]式中S
c
表示全连接层判定样本被分类到某一类别c的得分,是一张大小为i1
×
i2的特征图i中某一点的像素值;由于代表的是特征图的平均权重,进一步除以以求平均,由此,Grad

CAM模块一般化的结构为:
[0015][0016]进一步的,所述ResNet

18分类主干网络由1个初始卷积层、4个卷积单元和1个全连接层组成;每个卷积单元由两个卷积层和一个跳跃连接层组成。
[0017]进一步的,所述步骤2)中,基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集,具体为:
[0018]ImageNet光学数据集获取背景为海洋场景的部分数据,作为基础光学数据集;
[0019]利用Painter by Numbers数据集作为风格数据集,之后基于VGG

19实现AdaIN风格转换生成形状偏好光学数据集,AdaIN的具体描述如下:
[0020][0021]式中,x是内容图像,y是风格图像,μ和σ分别表示均值和标准差。
[0022]进一步的,所述步骤3)中,训练集中的声呐图像调整为统一像素尺寸,如果声呐图像中有多个目标,以居于中央最明显的目标作为该声呐图像的样本类别。
[0023]进一步的,所述步骤4)中,对热力图高亮部分使用最小外接矩形法获得具体目标位置具体为:
[0024]通过设定灰度阈值,对热力图中高亮部分求取其最小外接矩形,该矩形在热力图中的位置即对应于原图中目标位置。
[0025]本专利技术克服了声呐数据集训练容易过拟合的问题,将神经网络可视化的方法引入到声呐图像的自动目标识别任务中,与现有技术相比,本专利技术仅依靠类别标签就可以完整实现声呐目标的定位与识别,且不需要人工设计特征提取算法,有利于降低人工和时间成本,同时也有利于泛化到声呐图像的其他场景中解决相似问题。
附图说明
[0026]图1为本专利技术方法流程图;
[0027]图2为本实施方式所用实际声呐数据集样本示意图;
[0028]图3为本实施方式具体网络结构示意图;
[0029]图4为本实施方式风格转换前后数据结果图;
[0030]图5为本实施方式使用不同预训练参数后模型识别结果;
[0031]图6为本实施方式使用不同预训练参数后模型定位结果。
[0032]具体实施方式
[0033]下面参照附图对本专利技术作进一步详细描述。
[0034]如图1所示,本专利技术所提出的基于神经网络可视化的声呐图像自动目标识别方法主要包括四个步骤,
[0035]1)使用ResNet

18分类主干网络和Grad

CAM神经网络可视化搭建自动目标识别模型;其中,Grad

CAM模块置于ResNet

18分类主干网络的全连接层前;
[0036]2)基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集,利用形状偏好数据集对自动目标识别模型进行预训练,获取对形状特征鲁棒的预训练参数,
[0037]3)利用标记了样本类别的声呐图像作为训练集,对步骤2)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络可视化的声呐图像自动目标识别方法,其特征在于,包括如下步骤:1)使用ResNet

18分类主干网络和Grad

CAM神经网络可视化搭建自动目标识别模型;其中,Grad

CAM模块置于ResNet

18分类主干网络的全连接层前;2)基于ImageNet光学数据集和自适应实例正则化风格转换技术构建形状偏好数据集,利用形状偏好数据集对自动目标识别模型进行预训练,获取对形状特征鲁棒的预训练参数,3)利用标记了样本类别的声呐图像作为训练集,对步骤2)预训练后的自动目标模型进行再训练;4)将待识别样本输入经再训练后的自动目标识别模型,得到分类类别,基于Grad

CAM模块得到指示目标位置的可视化热力图;对热力图高亮部分使用最小外接矩形法获得具体目标位置。2.根据权利要求1所述的基于神经网络可视化的声呐图像自动目标识别方法,其特征在于,所述的Grad

CAM模块,其结构为其中A
i
表示最终输出的n张特征图中的1张,其对样本被分类到某一类别c的影响权重记为ReLU为激活函数,使得可视化时只关注与类c正相关的区域。3.根据权利要求2所述的基于神经网络可视化的声呐图像自动目标识别方法,其特征在于,由识别模型判定样本为类c的总得分对每个特征图像素求导得到:式中S
c
表示全连接层判定样本被分类到某一类别c的得分,是一张大小为i1
×
i...

【专利技术属性】
技术研发人员:郑荣濠楼冠廷
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1