【技术实现步骤摘要】
一种用于盲道场景的图像语义分割方法
[0001]本专利技术涉及图像语义分割
,尤其是一种用于盲道场景的图像语义分割方法。
技术介绍
[0002]根据世界卫生组织2019年发布的一份报告,全球有超过22亿人患有视力障碍,在户外,视障人士往往需要依靠盲道行走,视障人士识别盲道的方法通常是通过鞋底的触觉或盲杖,这些方法只能在小范围内感知盲道,无法为视障人士提供丰富的环境信息。因此,视力受损的人需要在盲人引导系统的帮助下更安全地行走。引导系统的重要输入正是从环境中获得的信息,而对于环境信息的获取来说,复杂的环境因素是一个挑战,例如多变的照明条件,与盲道颜色相似的地砖等。因此,在盲导系统中,盲道识别往往是基于计算机视觉来准确感知环境信息。
[0003]目前,基于计算机视觉的盲道识别方法可分为统计方法和深度学习方法,在统计方法上,许多工作采用灰度共生矩阵和颜色直方图来识别盲道,但是这种方法的计算复杂度高。此外,单一的统计信息容易受到环境因素的影响,在恶劣环境下无法准确识别盲道。随着深度学习的快速发展,目前的盲道识别方法通常依赖于编码器
‑
解码器的架构。编码器生成图像特征,解码器将特征融合成具有逐像素分类分数的分割图,与以往的统计方法相比,编码器
‑
解码器架构对盲道的语义特征进行了更深层次的提取,获得了更好的识别效果。但是,当盲道周围有相似颜色的瓦片时,现有的基于深度学习的方法会表现出较差的边界预测。在数字图像处理中,纹理是一个区域描述符,它可以为图像的局部结构属性和全局统计属性提 ...
【技术保护点】
【技术特征摘要】
1.一种用于盲道场景的图像语义分割方法,其特征在于,采用拉普拉斯金字塔纹理模块、拉普拉斯纹理自注意力模块和解码器构建的语义分割模型对盲道场景图像进行分割,所述语义分割模型对盲道场景图像数据集进行标注,获得带标签数据;所述拉普拉斯金字塔纹理模块使用两个LPTT块分别输出两个低级别的语义特征图,利用自注意力机制学习图像数据,通过纹理自注意力提取层次清晰的底层特征,以补充纹理信息;所述拉普拉斯纹理自注意力模块提取精确的高级语义特征;所述解码器融合多层次的特征,输出语义分割掩膜图。2.根据权利要求1所述用于盲道场景的图像语义分割方法,其特征在于,所述对盲道场景图像数据集进行标注,获得带标签数据具体包括:标注出盲道区域的边缘;标注出除盲道外路面的区域;将图像的其余部分视作障碍物;按上述分类,将图像划分为第一带标签数据、第二带标签数据和第三带标签数据。3.根据权利要求1所述用于盲道场景的图像语义分割方法,其特征在于,所述两个LPTT块分别输出两个低级别的语义特征图,其具体方法为:在任意一个LPTT块中,Segformer块首先生成原始的低级特征,然后,拉普拉斯纹理自注意力将纹理信息准确地传递到原始底层特征上,生成层次清晰的底层特征。4.根据权利要求3所述用于盲道场景的图像语义分割方法,其特征在于,所述Segformer块包括:1)重叠切片嵌入:给定输入图像X,LPTT块1将重叠的方式重构为嵌入序列其中P为下采样率;D为X
e
的阶数;在LPTT块1中设置P=4,D=32;2)自注意力机制:对于给定的嵌入序列X
e
,自注意力参数[q,k,v]由下述(a)式进行多头自注意力计算,输出自我注意计算结果X
a
:[q,k,v]=[W
q
,W
k
,W
v
]
⊙
X
e
ꢀꢀ
(a);其中,[W
q
,W
k
,W
v
]为三个学习的权重矩阵;3)混合前馈网络:混合前馈网络X
m
直接在前馈网络中混合一个3
×
3的卷积提供位置信息,所述混合前馈网络X
m
采用深度卷积,且由下述(b)式表示为:X
m
=MLP(GELU(COnV3×3(MLP(X
a
)))+X
a
ꢀꢀ
(b);其中,GELU表示激活函数;MLP为多层感知器;Conv3×3为卷积核。5.根据权利要求3所述用于盲道场景的图像语义分割方法,其特征在于,所述拉普拉斯纹理自注意力将纹理信息准确地传递到原始底层特征上,生成层次清晰的底层特征,其生成过程如下:1)纹理信息搜索:采用下述(c)式计算相关系数矩阵R
i,j
:其中,Q=X
m
,X
m
为未经纹理学习的原始特征图;Q
i
为Q的第i个特征向量;K为经重叠补丁嵌入后的L;L为拉普拉斯纹理图;K
j
为K的第j个特征向量;所述K中的相关向量索引矩阵I由下述(d)式计算:
其...
【专利技术属性】
技术研发人员:金子龙,宋佑祺,何高奇,林靖众,黄唯,方子祺,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。