一种基于注意力架构的场景语义分割方法技术

技术编号:38924745 阅读:18 留言:0更新日期:2023-09-25 09:33
本发明专利技术属于计算机视觉技术领域,尤其为一种基于注意力架构的场景语义分割方法,该方法包括以下步骤:步骤一:数据预处理,为后续的网络模型训练提供数据准备;步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中利用混合损失监督网络模型参数的训练,通过不断地降低损失优化网络模型参数,从而获得基于注意力架构的场景语义分割方法的最佳网络权重;步骤三:模型的测试,通过输入外部传感器采集的新型图像数据,使用通过训练而获得的网络权重,来测试语义分割的效果。本发明专利技术为了增强像素的特征表示能力,利用双注意力模块分别在空间维度和通道维度建模上下文信息,提升模型整体的特征表达能力。型整体的特征表达能力。型整体的特征表达能力。

【技术实现步骤摘要】
一种基于注意力架构的场景语义分割方法


[0001]本专利技术涉及计算机视觉
,具体为一种基于注意力架构的场景语义分割方法。

技术介绍

[0002]在人工智能行业快速发展的时代,自动驾驶技术也越来越贴近人们的生活。自动驾驶技术中,借助计算机来帮助汽车理解其所处的场景是非常重要的,只有自动驾驶系统能感知到周围环境中的物和人,其才能正确的做出安全的决策,如果系统对环境中的人和物有误判,那可能导致非常严重的后果。
[0003]基于传统算法的自动驾驶技术首先通过各种传感器采集周围环境的数据,然后通过传统算法进行数据分析,最后做出决策对车辆进行控制。因此传统算法存在效率低下、无法端到端执行、精度低等缺点。最近几年,随着神经网络的发展和计算机算力的提升,基于深度学习的自动驾驶技术得以飞速发展。首先通过摄像头采集周围环境数据,然后利用深度学习算法把特征提取、图像分割以及车辆决策端到端执行,提高处理速度的同时也大大地提升了精度。相对于昂贵的激光雷达传感器来说,价格低廉的摄像头采集到的图片可以大幅度降低成本,进一步推进自动驾驶技术落地。为保证车辆行驶安全,自动驾驶技术对周围环境有较高的精度要求。
[0004]图像语义分割的目的就是针对不同的像素根据其语义范畴进行分类,与传统分割相比语义分割即是达到像素级别的分类。图像的语义分割结果中不但包含了所属语义类别的位置信息还有详细的边界和姿态信息,因此这样精细结果能够使车辆的可行驶区域的判断更加精准、物体类别和形状判断更加精准,现如今自动驾驶领域的主要场景是城市场景,因此城市场景语义分割是一个重要的领域。
[0005]目前语义分割主流框架基本都是基于全卷机神经网络演化而来的,然而在自动驾驶系统中使用图像语义分割算法时,仍然存在一些问题:
[0006](1)自动驾驶场景的物体尺寸变化比较大,现有的算法对不同尺寸的目标分割的精度不同,不适用于小目标物体。
[0007](2)自动驾驶场景复杂,存在光照明暗相差大、相互之间存在大量的遮挡等问题,目标识别困难,目标边缘模糊,当前许多算法都不适用于检测目标边缘。
[0008]因此,本作品致力于利用先进的注意力机制解决上述问题,进而提高语义分割的精度,为自动驾驶技术提供新型解决方案。

技术实现思路

[0009](一)解决的技术问题
[0010]针对现有技术的不足,本专利技术提供了一种基于注意力架构的场景语义分割方法,解决了上述
技术介绍
中所提出的问题。
[0011](二)技术方案
[0012]本专利技术为了实现上述目的具体采用以下技术方案:
[0013]一种基于注意力架构的场景语义分割方法,该方法包括以下步骤:
[0014]步骤一:数据预处理,为后续的网络模型训练提供数据准备;
[0015]步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中利用混合损失监督网络模型参数的训练,通过不断地降低损失优化网络模型参数,从而获得基于注意力架构的场景语义分割方法的最佳网络权重;
[0016]步骤三:模型的测试,通过输入外部传感器采集的新型图像数据,使用通过训练而获得的网络权重,来测试语义分割的效果。
[0017]进一步地,所述步骤一中的数据预处理包括:
[0018]通过数据预处理工作对原始输入数据进行随机和任意地裁剪以进行数据扩充,然后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的样本图片,最终裁剪大小为768x 768。
[0019]进一步地,所述步骤二中模型的训练包括下列步骤:
[0020]将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是使用具有扩张策略的残差网络Resnet,一个是包含了通道注意力和空间注意力的轻量级对称双注意力模块,一个是将低层特征与高层特征进行融合的自适应选择交互模块。
[0021]进一步地,所述步骤三模型的测试包括:
[0022]将训练好的权重参数,在新的传感器采集图像中测试分割效果。
[0023](三)有益效果
[0024]与现有技术相比,本专利技术提供了一种基于注意力架构的场景语义分割方法,具备以下有益效果:
[0025]本专利技术为了增强像素的特征表示能力,利用双注意力模块分别在空间维度和通道维度建模上下文信息,提升模型整体的特征表达能力。
[0026]本专利技术利用高层特征图虽然分辨率低,但它们总是包含丰富的语义信息,因此可以为生成具有更多语义信息的低级特征图提供指导;此外,低层特征图比高层特征图具有更多的空间信息可以为高层特征图提供空间引导,通过有效的特征融合可以进一步提高语义分割效果。
附图说明
[0027]图1为本专利技术整体网络结构图;
[0028]图2为为本专利技术特征融合模块结构图;
[0029]图3为本专利技术轻量化双注意力模块结构图;
[0030]图4为本专利技术本专利技术各个模块在数据集上的分割效果展示图;
[0031]图5为本专利技术对Cityscapes测试数据集的评价图。
具体实施方式
[0032]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本专利技术保护的范围。
[0033]实施例
[0034]如图1

5所示,本专利技术一个实施例提出的一种基于注意力架构的场景语义分割方法,该方法包括以下步骤:
[0035]步骤一:数据预处理,为后续的网络模型训练提供数据准备;
[0036]本专利技术所述数据预处理具体操作包括下列步骤:
[0037]对原始输入数据进行随机和任意地裁剪以进行数据扩充,然后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的样本图片,最终裁剪大小为768x 768。
[0038]步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中利用混合损失监督网络模型参数的训练,通过不断地降低损失优化网络模型参数,从而获得基于注意力架构的场景语义分割方法的最佳网络权重;
[0039]本专利技术所述步骤二中模型的训练包括下列步骤:
[0040]将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是使用具有扩张策略的残差网络Resnet,一个是包含了通道注意力和空间注意力的轻量级对称双注意力模块,一个是将低层特征与高层特征进行融合的自适应选择交互模块;
[0041]第一部分是用于特征提取的残差网络Resnet,本专利技术在原始残差网络的基础上利用扩张策略,去除了原有网络最后两层的下采样操作以保留更多细节以利于语义分割的结果,使得最终的特征提取网络输出特征图是图的原始1/8,通过对输入原始图像信息进行特征提取,并最终获得从Res

1到Res

...

【技术保护点】

【技术特征摘要】
1.一种基于注意力架构的场景语义分割方法,其特征在于:该方法包括以下步骤:步骤一:数据预处理,为后续的网络模型训练提供数据准备;步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中利用混合损失监督网络模型参数的训练,通过不断地降低损失优化网络模型参数,从而获得基于注意力架构的场景语义分割方法的最佳网络权重;步骤三:模型的测试,通过输入外部传感器采集的新型图像数据,使用通过训练而获得的网络权重,来测试语义分割的效果。2.根据权利要求1所述的一种基于注意力架构的场景语义分割方法,其特征在于:所述步骤一中的数据预处理包括:通过数据预处理工作对原始输入数据进行随机和任意地裁剪以进行数据扩充,然...

【专利技术属性】
技术研发人员:黄丹丹王贵贤王英志陈广秋许鹤白昱薛泓垚
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1