一种用于盲道场景的图像语义分割方法技术

技术编号:38079371 阅读:9 留言:0更新日期:2023-07-06 08:46
本发明专利技术公开了一种用于盲道场景的图像语义分割方法,其特点是拉普拉斯金字塔纹理模块、拉普拉斯纹理自注意力模块和解码器构建的语义分割模型对盲道场景图像进行分割,所述模型包括:LPTT块、Segformer块和解码器;所述LPTT块通过纹理自注意提取层次清晰的底层特征;所述Segformer块提取精确的高级语义特征;所述解码器融合多层次的特征。本发明专利技术与现有技术相比具有较其他语义分割网络更低的复杂度,解决了广泛使用的语义分割网络对于盲道场景图像分割速度过慢的问题,并且在大量不同环境的实验中表现出和其他语义分割网络相当的分割精确度。割精确度。割精确度。

【技术实现步骤摘要】
一种用于盲道场景的图像语义分割方法


[0001]本专利技术涉及图像语义分割
,尤其是一种用于盲道场景的图像语义分割方法。

技术介绍

[0002]根据世界卫生组织2019年发布的一份报告,全球有超过22亿人患有视力障碍,在户外,视障人士往往需要依靠盲道行走,视障人士识别盲道的方法通常是通过鞋底的触觉或盲杖,这些方法只能在小范围内感知盲道,无法为视障人士提供丰富的环境信息。因此,视力受损的人需要在盲人引导系统的帮助下更安全地行走。引导系统的重要输入正是从环境中获得的信息,而对于环境信息的获取来说,复杂的环境因素是一个挑战,例如多变的照明条件,与盲道颜色相似的地砖等。因此,在盲导系统中,盲道识别往往是基于计算机视觉来准确感知环境信息。
[0003]目前,基于计算机视觉的盲道识别方法可分为统计方法和深度学习方法,在统计方法上,许多工作采用灰度共生矩阵和颜色直方图来识别盲道,但是这种方法的计算复杂度高。此外,单一的统计信息容易受到环境因素的影响,在恶劣环境下无法准确识别盲道。随着深度学习的快速发展,目前的盲道识别方法通常依赖于编码器

解码器的架构。编码器生成图像特征,解码器将特征融合成具有逐像素分类分数的分割图,与以往的统计方法相比,编码器

解码器架构对盲道的语义特征进行了更深层次的提取,获得了更好的识别效果。但是,当盲道周围有相似颜色的瓦片时,现有的基于深度学习的方法会表现出较差的边界预测。在数字图像处理中,纹理是一个区域描述符,它可以为图像的局部结构属性和全局统计属性提供度量。基于深度学习的盲道识别方法低估了纹理特征的学习,无纹理增强模型的底层特征以颜色为主,纹理信息反映较弱,导致底层特征层次分化较差,各类研究发现无纹理增强模型生成的底层特征中的纹理信息是不充分的。
[0004]现有技术的语义分割网络不但复杂程度高,而且不能将纹理特征中的富纹理信息有效、准确地传递到底层特征中,以致纹理信息反映较弱,底层特征层次分化较差,大大影响了盲道场景图像的分割速度和边界预测精度。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而提供的一种用于盲道场景的图像语义分割方法,采用拉普拉斯纹理自注意Segformer(LTSS)方法,构建了一种由拉普拉斯金字塔纹理模块、拉普拉斯纹理自注意力模块和解码器组成的盲道场景图像语义分割模型,该方法将纹理信息准确地传递到底层特征中,分割模型将学习在分割过程中“接受”纹理信息,主要包括三个过程1)对原始的低级特征进行压缩,通过拉普拉斯金字塔得到纹理特征,随后,通过自注意力机制,将纹理特征中的富纹理信息有效地转移到原来的低级别特征上,由此获得边界清晰、层次分明的新的低级特征;2)提取高级语义特征;3)最后,采用一种简单高效的译码器集成多级特征并输出分割掩膜图。本专利技术得到复杂度更低的语义分割网络,较
好地解决了广泛使用的语义分割网络对于盲道场景图像分割速度过慢的问题,并且在大量不同环境的实验中表现出和其他语义分割网络相当的分割精确度,方法简便,使用效果好,有较高的实用价值与良好的发展前景。
[0006]实现本专利技术目的的具体技术方案是:一种用于盲道场景的图像语义分割方法,其特点是采用拉普拉斯金字塔纹理模块、拉普拉斯纹理自注意力模块和解码器构建的语义分割模型对盲道场景图像进行分割,所述语义分割模型对盲道场景图像数据集进行标注,获得带标签数据;所述拉普拉斯金字塔纹理模块使用两个LPTT块分别输出两个低级别的语义特征图,利用自注意力机制学习图像数据,通过纹理自注意力提取层次清晰的底层特征,以补充纹理信息;所述拉普拉斯纹理自注意力模块提取精确的高级语义特征;所述解码器融合多层次的特征,输出一个语义分割掩膜图。
[0007]本专利技术具体包括:采集丰富类型的盲道、复杂的街道场景图像数据集,并对盲道场景图像数据集进行标注,获得带标签数据;LPTT块使用自注意力机制学习图像数据并补充纹理信息,两个LPTT块分别输出两个低级的特征图;基于LPTT块中的低级别特征,两个Segformer块3和4分别生成两个语义特征图;解码器将融合四个特征图中的信息,输出一个分割掩膜图。
[0008]进一步地,获得带标签数据包括:标注出盲道区域的边缘;标注出除盲道外路面的区域;将图像的其余部分视作障碍物;按上述分类,将图像划分为第一带标签数据、第二带标签数据和第三带标签数据。
[0009]进一步地,对于两个LPTT块分别输出两个低级的特征图,其具体方法为:在任意一个LPTT块中,Segformer块首先生成原始的低级特征,然后,拉普拉斯纹理自注意力将更丰富的纹理信息准确地传递到原始底层特征上,生成层次清晰的底层特征。
[0010]进一步地,在任意一个LPTT块中,Segformer块首先生成原始的低级特征,所述的Segformer块包括:
[0011]1)重叠切片嵌入:给定输入图像X,LPTT块1将重叠的方式重构为嵌入序列其中P为下采样率,D为X
e
的阶数。我们在LPTT块1中设置P=4,D=32;
[0012]2)高效自注意力机制:对于给定的X
e
,自注意力参数[q,k,v]由下述(a)式得出:
[0013][q,k,v]=[W
q
,W
k
,W
v
]⊙
X
e
ꢀꢀ
(a)。
[0014]其中,[W
q
,W
k
,W
v
]是三个可学习的权重矩阵,q,k,v的形状相同,均为为了减少计算复杂度,引入减少比R来减少q,k,v的长度,以q为例,q将首先被重塑为接下来,一个线性层将q的通道数量从DR减少到D,因此,自我注意计算所涉及的q的形状为本专利技术在LPTT块1中设R=64。然后对[q,k,v]进行多头自注意力计算,输出自我注意计算结果X
a
,其中,H为图像高度;W为图像宽度;P为下采样率;D为X
e
的阶数;R为减少比;[q,k,v]是自注意力参数。
[0015]3)混合前馈网络:混合前馈网络直接在前馈网络中混合一个3
×
3的卷积来提供位置信息,混合前馈网络由下述(b)表示为:
[0016]X
m
=MLP(GELU(Conv3×3(MLP(X
a
)))+X
a
ꢀꢀ
(b)。
[0017]其中,X
m
的形状是GELU表示激活函数,MLP表示多层感知器,Conv3×3为卷积
核;混合前馈网络采用深度卷积。
[0018]进一步地,对于拉普拉斯纹理自注意力将更丰富的纹理信息准确地传递到原始底层特征上,生成层次清晰的底层特征,其中拉普拉斯纹理自注意力的描述如下:
[0019]1)最相关的纹理信息搜索:首先,由下(c)式计算相关系数矩阵R:
[0020][0021]其中,Q=X<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于盲道场景的图像语义分割方法,其特征在于,采用拉普拉斯金字塔纹理模块、拉普拉斯纹理自注意力模块和解码器构建的语义分割模型对盲道场景图像进行分割,所述语义分割模型对盲道场景图像数据集进行标注,获得带标签数据;所述拉普拉斯金字塔纹理模块使用两个LPTT块分别输出两个低级别的语义特征图,利用自注意力机制学习图像数据,通过纹理自注意力提取层次清晰的底层特征,以补充纹理信息;所述拉普拉斯纹理自注意力模块提取精确的高级语义特征;所述解码器融合多层次的特征,输出语义分割掩膜图。2.根据权利要求1所述用于盲道场景的图像语义分割方法,其特征在于,所述对盲道场景图像数据集进行标注,获得带标签数据具体包括:标注出盲道区域的边缘;标注出除盲道外路面的区域;将图像的其余部分视作障碍物;按上述分类,将图像划分为第一带标签数据、第二带标签数据和第三带标签数据。3.根据权利要求1所述用于盲道场景的图像语义分割方法,其特征在于,所述两个LPTT块分别输出两个低级别的语义特征图,其具体方法为:在任意一个LPTT块中,Segformer块首先生成原始的低级特征,然后,拉普拉斯纹理自注意力将纹理信息准确地传递到原始底层特征上,生成层次清晰的底层特征。4.根据权利要求3所述用于盲道场景的图像语义分割方法,其特征在于,所述Segformer块包括:1)重叠切片嵌入:给定输入图像X,LPTT块1将重叠的方式重构为嵌入序列其中P为下采样率;D为X
e
的阶数;在LPTT块1中设置P=4,D=32;2)自注意力机制:对于给定的嵌入序列X
e
,自注意力参数[q,k,v]由下述(a)式进行多头自注意力计算,输出自我注意计算结果X
a
:[q,k,v]=[W
q
,W
k
,W
v
]

X
e
ꢀꢀ
(a);其中,[W
q
,W
k
,W
v
]为三个学习的权重矩阵;3)混合前馈网络:混合前馈网络X
m
直接在前馈网络中混合一个3
×
3的卷积提供位置信息,所述混合前馈网络X
m
采用深度卷积,且由下述(b)式表示为:X
m
=MLP(GELU(COnV3×3(MLP(X
a
)))+X
a
ꢀꢀ
(b);其中,GELU表示激活函数;MLP为多层感知器;Conv3×3为卷积核。5.根据权利要求3所述用于盲道场景的图像语义分割方法,其特征在于,所述拉普拉斯纹理自注意力将纹理信息准确地传递到原始底层特征上,生成层次清晰的底层特征,其生成过程如下:1)纹理信息搜索:采用下述(c)式计算相关系数矩阵R
i,j
:其中,Q=X
m
,X
m
为未经纹理学习的原始特征图;Q
i
为Q的第i个特征向量;K为经重叠补丁嵌入后的L;L为拉普拉斯纹理图;K
j
为K的第j个特征向量;所述K中的相关向量索引矩阵I由下述(d)式计算:
其...

【专利技术属性】
技术研发人员:金子龙宋佑祺何高奇林靖众黄唯方子祺
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1