当前位置: 首页 > 专利查询>湘潭大学专利>正文

一种基于位置注意力机制的编解码结构语义分割模型制造技术

技术编号:37137075 阅读:29 留言:0更新日期:2023-04-06 21:37
本发明专利技术公开了一种基于位置注意力机制的编解码结构语义分割模型。本发明专利技术包括以下步骤:1、模型建立,设计一种基于位置注意力机制的编解码结构语义分割模型,通过编码器中注意力机制学习像素点图像特征之间的关联性并增强深层语义信息,通过解码器将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息。2、模型训练,首先对数据集预处理,然后根据建立好的模型进行模型训练。3、模型推理,将测试集的图像输入到训练好的模型中,推理测试图像的语义类别预测值,评估预测准确度。本发明专利技术是一种针对图像语义分割的神经网络模型,特别是提出了一种基于位置注意力机制的编解码结构来提取图像自身注意力信息的统一建模方法,获得了在语义分割领域较好的分割效果。果。果。

【技术实现步骤摘要】
一种基于位置注意力机制的编解码结构语义分割模型


[0001]本专利技术属于计算机视觉
,特别涉及一种基于位置注意力机制的编解码结构语义分割网络模型。

技术介绍

[0002]图像语义分割是计算机视觉的一个基础问题,广泛应用于自动驾驶、智能机器人、人机交互等等领域的场景理解。图像语义分割技术是将视觉图像中具有相似语义信息的像素点给予一致的标签,解释不同的语义类别。例如,在自动驾驶场景中我们需要区分图像中属于汽车的所有像素,并把这些像素标记为一个语义类别。
[0003]传统的图像语义分割方法包括纹理基元森林(TextonForest)和随机森林(RandomForest)。由于光照对图像邻域分割的影响,导致纹理基元森林(TextonForest)方法不能得到准确率较高的分割效果;随机森林(Random Forest)方法直接利用图像低级的像素信息,提高算法训练和测试速度,该方法的缺点是无法控制模型内部的运行,在回归问题中表现不佳。
[0004]近年来伴随着深度学习的不断发展,基于深度学习的图像语义分割模型越来越多的应用在实际的场本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于位置注意力机制的编解码结构语义分割模型,其特征在于包括以下步骤:步骤1:模型建立;具体设计一种基于位置注意力机制的编解码结构语义分割模型,在编码器中通过注意力机制学习像素点图像特征之间的关联性并增强深层语义信息,在解码器中通过将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息,以扩大同类别物体的类间差异性,最终提高分割准确性;首先,建立编码器模型(Encoder),对图像进行特征提取,通过骨干网络ResNet

101提取图像的浅层特征F1到深层特征F4;然后,通过编码器中的池化交叉注意力模块(PCAM)和池化位置注意力模块(PPAM)增强深层信息的语义一致性,得到具有全局语义信息的图像特征F4X;最后,建立解码器模型(Decoder),对F4X进行上采样得到特征图F4Y,通过对浅层特征F1和特征图F4Y进行融合,得到上下文关联性增强的特征图,并对融合后的特征图进行上采样操作,得到和输入图片尺寸大小相同的特征图;步骤2:模型训练;首先构建训练集,及验证集,给定图像I,对应的真实标签图GT,组成数据集,按照1:1比例划分训练集和测试集,为模型训练提供数据基础;然后对图像I进行尺度随机缩放,水平旋转,将图像裁剪成固定尺寸大小的图像I
C
;最后对步骤1建立的编解码结构语义分割模型进行训练,将图像I
C
输入骨干网ResNet

101、编码器中的交叉位置注意力模型(PCAM)子模块、池化位置注意力模型(PPAM)子模块得到特征图F4X,再通过解码器将浅层特征F1和深层特征F4Y融合并经过上采样后进行图像语义类别预测,通过前向传播将预测值Z与真实值GT进行交叉熵运算,度量预测值与真实值的误差;通过反向传播算法对步骤1定义的编解码结构语义分割网络模型参数进行迭代优化训练,训练到整个模型收敛为止;步骤3:模型推理;将测试集的图像输入到训练好的编解码结构语义分割模型中,推理测试图像的语义类别预测值,计算测试预测值与真实值的平均交并比(MIoU),评估预测准确度。平均交并比的运算公式如下所示:其中K是数据集的类别数,p
ij
是类别为i的像素被预测为类别为j的数量,p
ii
是正确分类的像素的数量。2.根据权利要求1所述的一种基于位置注意力机制的编解码结构语义分割模型,其特征在于步骤1的模型建立,具体如下:2

1.建立编码器模型(Encoder),使用ResNet

101作为骨干网络,对图像I
C
进行特征提取,得到图像浅层特征F1和深层特征F4,其中C1是图像特征的通道数,H和W是图像特征的高度和宽度;2

2.通过池化交叉注意力模块(PCAM)进一步对图像深层特征进行增强关于PCAM的具体运算如下:a=Conv(F4);b=Conv(F4);c=Conv(F4);d=Conv(GAP(F4))
ꢀꢀꢀꢀꢀꢀ⑵
F4

=Conv[Fusion(p,c)+d]+F4
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ⑷
a1=Conv(F4

);b1=Conv(F4

);c1=Conv(F4

);
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ⑸
F4”=Conv[Fusion(p1,c1)]+F4
’<...

【专利技术属性】
技术研发人员:许海霞王玮周维彭伟张东波王帅龙陈祁丁凡迅韩丰刘彦帮
申请(专利权)人:湘潭大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1