基于双通道和自注意力机制的图像语义分割方法及系统技术方案

技术编号:31795385 阅读:17 留言:0更新日期:2022-01-08 10:55
本发明专利技术公开了基于双通道和自注意力机制的图像语义分割方法及系统,该方法包括如下步骤:获取待分割图片;将待分割图片分别进行两个通道的特征图提取;其中,第一个通道提取出多尺度上下文信息特征图;第二个通道出提取出像素级特征图;将多尺度上下文信息特征图和像素级特征图通过矩阵运算和自注意力机制学习得到每一个像素与它对应的上下文区域有关系的特征图;将每一个像素与它对应的上下文区域有关系的特征图输入到训练后的分类器中,输出图片语义分割结果。图片语义分割结果。图片语义分割结果。

【技术实现步骤摘要】
基于双通道和自注意力机制的图像语义分割方法及系统


[0001]本专利技术属于计算机视觉和图像处理
,尤其涉及基于双通道和自注意力机制的图像语义分割方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]语义分割技术不仅属于计算机科学的研究范畴,研究图像的语义分割对于图像复原有着重要的应用意义,还是涉及医学影像、自动驾驶、卫星遥感等多学科的一个前沿研究领域,语义分割技术具有十分重要的研究意义和应用价值。
[0004]现在语义分割技术普遍采用传统的卷积神经网络,例如VGG,ResNet等,但是它们的结构复杂,计算量很大,这跟语义分割的实时性及应用落地存在落差。
[0005]传统的网络不断地对输入的图片进行特征提取,经过多层的卷积和下采样操作,特征图的分辨率会大幅度下降,损失了原始的信息,因此之后越来越多的网络设计都在试图减少分辨率的损失,比如Deeplab系列的文章使用由空洞卷积组成的ASPP模块来提取多尺度感受野的语义信息,其中编码器模块融入了空洞卷积,或者使用步长为2的卷积操作来代替池化,解决了步长以及感受野与特征图信息之间的矛盾,虽然效果有所提升,但是计算量很大,而且空洞卷积不能产生密集的上下文信息,过多使用空洞卷积也会产生网格效应,所以没有从根本上解决语义分割的问题,语义分割是像素级的分割任务,所以要综合考虑卷积、步长、分辨率、感受野以及上下文之间的关系;显然如果只使用ASPP模块,就会产生网格效应,丧失上下文的整体信息,对于密集型的分割任务来说不是很好的解决办法。
[0006]PSPnet在提取到的特征后面加入了金字塔池化模块,解决了全局信息缺失的问题,其性能要优于Deeplab,但是缺少像素与上下文的关系,并且这两种方法有一个共同的缺点,就是使用了传统的网络,进而导致参数量过大,网络之深进行特征提取的时候不可避免会导致分辨率损失。所以,引入一个保持高分辨率特征提取且计算量小的网络对于语义分割的精度和速度提升成为必要。
[0007]另外,语义分割是一个像素级的分割任务,传统的网络,要么只考虑像素与像素之间的关系,例如Deeplab系列网络,要么只考虑区域之间的信息,像PSPnet提出的金字塔池化结构模块。

技术实现思路

[0008]为克服上述现有技术的不足,本专利技术提供了基于双通道和自注意力机制的图像语义分割方法及系统,综合考虑复杂度和精度之间的平衡,将HRNetV2网络作为backbone对输入的图片进行特征提取,自注意力机制结合PSPNet中的金字塔池化模块对HRNetV2网络提取的特征图进行像素与区域之间的学习,进而提高精度。
[0009]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0010]基于双通道和自注意力机制的图像语义分割方法,包括如下步骤:
[0011]获取待分割图片;
[0012]将待分割图片分别进行两个通道的特征图提取;其中,第一个通道提取出多尺度上下文信息特征图;第二个通道出提取出像素级特征图;
[0013]将多尺度上下文信息特征图和像素级特征图通过矩阵运算和自注意力机制学习得到每一个像素与它对应的上下文区域有关系的特征图;
[0014]将每一个像素与它对应的上下文区域有关系的特征图输入到训练后的分类器中,输出图片语义分割结果。
[0015]进一步地,所述第一个通道提取出多尺度上下文信息特征图具体包括:将待分割图片输入至HRNetV2_w18网络得到第一个通道的第一个特征图,将第一个通道的第一个特征图通过卷积得到第一个通道的第二个特征图,将第一个通道的第二个特征图通过金字塔池化模型进行多尺度上下文信息提取得到第一个通道的第三个特征图。
[0016]进一步地,所述第一个通道的第三个特征图得到后加入随机失活dropout,随机失活神经元,在卷积之后加入交叉熵损失函数对网络辅助训练得到第一通道的第四特征图,即多尺度上下文信息特征图。
[0017]进一步地,所述第二个通道提取像素级特征图具体包括:将待分割图片输入至HRNetV2_w18网络得到第二个通道的第一个特征图,将第二个通道的第一个特征图经过卷积、加速神经网络以及Relu函数后提取出第二个通道的第二个特征图,即像素级特征图。
[0018]进一步地,所述将多尺度上下文信息特征图和像素级特征图通过矩阵运算具体包括:将多尺度区域上下文信息特征图和像素级特征图的每个位置的像素进行矩阵相乘,包括:
[0019]将多尺度区域上下文信息特征图经过预处理后输出得到第一矩阵;
[0020]将图像素级特征图经过归一化处理后输出第二矩阵,第一矩阵和第二矩阵相乘,输出第三矩阵特征图,即融合后的像素级区域上下文特征图。
[0021]进一步地,所述自注意力机制学习包括学习每个位置的像素与该像素上下文区域之间的关系,根据每个位置的像素与其区域之间的关系生成对应的特征图;
[0022]具体为:分别将融合后的像素级区域上下文特征图和像素级特征图输入至注意力机制中,得到三个矩阵Q矩阵,K矩阵以及V矩阵;
[0023]其中,所述Q矩阵为由像素级特征图产生的要去查询K矩阵的关系所用到的矩阵;K矩阵为融合后的像素级区域上下文特征图产生的等着Q矩阵被查所提供的矩阵;V矩阵为融合后的像素级区域上下文特征图所产生的具有实际的信息和特征属性的矩阵。
[0024]进一步地,所述每一个像素与它对应的上下文区域有关系的特征图,具体包括:
[0025]所述像素级特征图通过Q矩阵查询像素级特征图和融合后的像素级区域上下文特征图之间的关系,所述融合后的像素级区域上下文特征图通过K矩阵查询得到查询结果,根据查询结果转化为像素级特征图和融合后的像素级区域上下文特征图对应关系的概率权重矩阵;根据概率权重矩阵将V矩阵重构,对相同类别的像素区域和不同类别的像素区域赋予概率权重参数。
[0026]一个或多个实施例提供了基于双通道和自注意力机制的图像语义分割系统,包括:
[0027]图像获取模块,其被配置为:获取待分割图片;
[0028]双通道特征图提取模块,其被配置为:将待分割图片分别进行两个通道的特征图提取;其中,第一个通道提取出多尺度上下文信息特征图;第二个通道出提取出像素级特征图;
[0029]特征融合模块,其被配置为:将多尺度上下文信息特征图和像素级特征图通过矩阵运算和自注意力机制学习得到每一个像素与它对应的上下文区域有关系的特征图;
[0030]语义分割模块,其被配置为:将每一个像素与它对应的上下文区域有关系的特征图输入到训练后的分类器中,输出图片语义分割结果。
[0031]一个或多个实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述任意基于双通道和自注意力机制的图像语义分割方法的步骤。
[0032]一个或多个实施例提供了一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于双通道和自注意力机制的图像语义分割方法,其特征在于,包括如下步骤:获取待分割图片;将待分割图片分别进行两个通道的特征图提取;其中,第一个通道提取出多尺度上下文信息特征图;第二个通道出提取出像素级特征图;将多尺度上下文信息特征图和像素级特征图通过矩阵运算和自注意力机制学习得到每一个像素与它对应的上下文区域有关系的特征图;将每一个像素与它对应的上下文区域有关系的特征图输入到训练后的分类器中,输出图片语义分割结果。2.如权利要求1所述的基于双通道和自注意力机制的图像语义分割方法,其特征在于,所述第一个通道提取出多尺度上下文信息特征图具体包括:将待分割图片输入至HRNetV2_w18网络得到第一个通道的第一个特征图,将第一个通道的第一个特征图通过卷积得到第一个通道的第二个特征图,将第一个通道的第二个特征图通过金字塔池化模型进行多尺度上下文信息提取得到第一个通道的第三个特征图。3.如权利要求2所述的基于双通道和自注意力机制的图像语义分割方法,其特征在于,所述第一个通道的第三个特征图得到后加入随机失活dropout,随机失活神经元,在卷积之后加入交叉熵损失函数对网络辅助训练得到第一通道的第四特征图,即多尺度上下文信息特征图。4.如权利要求1所述的基于双通道和自注意力机制的图像语义分割方法,其特征在于,所述第二个通道提取像素级特征图具体包括:将待分割图片输入至HRNetV2_w18网络得到第二个通道的第一个特征图,将第二个通道的第一个特征图经过卷积、加速神经网络以及Relu函数后提取出第二个通道的第二个特征图,即像素级特征图。5.如权利要求1所述的基于双通道和自注意力机制的图像语义分割方法,其特征在于,所述将多尺度上下文信息特征图和像素级特征图通过矩阵运算具体包括:将多尺度区域上下文信息特征图和像素级特征图的每个位置的像素进行矩阵相乘,包括:将多尺度区域上下文信息特征图经过预处理后输出得到第一矩阵;将图像素级特征图经过归一化处理后输出第二矩阵,第一矩阵和第二矩阵相乘,输出第三矩阵特征图,即融合后的像素级区域上下文特征图。6.如权利要求1所述的基于双通道和自注意力机制的图像语义分割方法,其特征在于,所述自注意力机制学习包括学习每个位置的像...

【专利技术属性】
技术研发人员:李天平魏艳军严业金丁同贺欧佳瑜
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1