一种助盲场景动态避障方法技术

技术编号:37135277 阅读:11 留言:0更新日期:2023-04-06 21:33
本发明专利技术公开一种助盲场景动态避障方法。首先,构建一种基于残差块内构造层次化类残差结构的特征提取模块,可扩大深层特征的感受野。其次,设计了基于双线性插值与转置卷积上采样的空间特征恢复模块,使分割边缘更加精确。再次,使用离散采样策略提取障碍物的类别信息,距离信息与轮廓信息,通过考虑安全距离约束的启发式搜索算法进行路径规划。最后,假设了避障提醒系统的优先级规则与逻辑顺序规则,结合所规划路径生成决策,通过听觉触觉信息有效指引盲人避障。本发明专利技术解决了单阶段实例分割算法难以同时高精度分割小目标障碍物与背景路面的问题,克服了实例分割结果难以为助盲场景避障决策提供有效信息的困难,可以使盲人用户更加智能自主地避障。加智能自主地避障。

【技术实现步骤摘要】
一种助盲场景动态避障方法


[0001]本专利技术涉及图像处理领域与助盲导航领域,具体为一种基于实例分割的助盲场景动态避障方法。

技术介绍

[0002]避障是导航的基础工作之一,助盲场景的避障方法以环境感知传感器的不同,主要可划分为基于视觉,基于激光雷达,与基于多传感器融合三种,基于激光雷达的避障方法发展最成熟,测距精度高,稳定性好,已广泛应用在机器人领域,自动驾驶领域,助盲领域等,但其存在无法提供语义信息,造价成本高,激光雷达体积与重量大等问题。本专利所提助盲场景动态避障方法利用了图像实例分割,属于基于视觉的避障方法,通过使用RGB相机或深度相机等作为传感器进行环境感知。传统的基于视觉的避障方法可以利用深度相机获得深度图等测距,以接近激光雷达的效果,但其依然无法获得语义信息,离实现人的视觉相差甚远,本专利提出的动态避障方法基于实例分割技术,旨在利用深度学习技术,使盲人同时获得障碍物的距离信息,语义信息,在更好的环境理解前提下实现避障。
[0003]近年来,深度学习算法的深入研究进一步推动了环境感知性能的提升,在图像分类,目标检测,图像分割等任务上甚至达到或超过了人类识别的精度,因此,许多基于深度学习的图像分割方法被提出。相比于传统方法,基于深度学习的图像分割方法因其更强的泛化性和鲁棒性受到了广大研究者的关注,图像分割方法主要分为两类,语义分割与实例分割:语义分割会为图像中的每个像素分配一个类别,但是同一类别之间的对象不会区分;实例分割同时利用目标检测和语义分割的结果,在语义分割的基础上区别同一类别的不同对象。基于深度学习的图像分割为视觉避障方法提供了支撑。
[0004]本专利技术提出的助盲场景动态避障方法基于实例分割技术,该方法至今为止还没有被提出,主要有以下四个原因:首先,应用于助盲场景避障的实例分割算法需要准确分割小目标障碍物与横跨全局的背景路面信息,当前的实例分割方法要么使用复杂的空间信息恢复策略等以追求于小目标的分割精度,要么追求于全局上下文信息的提取等以提升背景目标的分割精度,导致不能通时满足对于小目标与背景目标的高精度分割。其次,由于动态避障面向的环境是不断变化的,避障系统需要实时捕获与处理环境信息并生成决策,所以应考虑算法实时性问题,助盲场景的算法部署方式限制使该问题更加严峻,部署在远程电脑时,远程传输速度受信号好坏影响,无信号地区甚至无法使用;部署在小型工控机等边缘设备上虽传输快但受其计算能力与计算资源限制。再次,实例分割的结果虽然包含丰富的语义信息,但现有的传感方式与表达策略难以将这些语义信息有效传达给盲人,导致即便完美的分割结果与理想的盲人理解之间依然缺少一座桥梁,甚至如何使用分割结果来指引盲人避障于现有研究里也寥寥无几。最后,基于实例分割的助盲避障方法首先要进行图像处理,该过程易受光照强度,特殊天气,运动模糊等诸多因素的干扰,鲁棒性较差,因此助盲避障领域的研究者们更倾向于使用激光雷达等传统测距感知方法而非视觉感知方法。
[0005]近年来,随着计算机视觉技术和深度学习方法的飞速发展,对于图像信息处理的
速度和精度都有了大幅度的提升,又由于激光雷达在环境语义信息提取上的不足,基于视觉的感知技术逐渐被广泛应用。例如Mancini等设计了一个基于单目视觉的盲人辅助系统,以帮助视障人士完成行走和慢跑等运动。该系统包含一个摄像头、一个处理器和两只装有振动马达的手套,通过彩色相机捕获图像,处理器对图像提取线条或跑道信息,通过手套提供向左或向右的移动指令,实验证明该系统可以利用深度学习方法准确分割跑道,继而指引盲人避障,但其只适合特定的跑道场景,也不能检测出多种类别的障碍物,可传达的语义信息十分有限。经过相关技术检索发现,目前尚无一种基于实例分割的助盲场景动态避障方法。

技术实现思路

[0006]本专利技术提出了一种助盲场景动态避障方法,该方法首先构建一种基于残差块内构造层次化类残差结构的特征提取模块,可扩大深层特征的感受野。其次,设计了基于双线性插值与转置卷积上采样的空间特征恢复模块,使生成蒙版的边缘更加精确,满足助盲场景精度与实时性要求。之后,在分割结果的基础上通过双线性插值算法生成栅格语义地图,假设了盲人可通行安全区域与远方区域,通过离散采样策略判断各区域内是否存在障碍物,采用启发式搜索算法找到远端路面中心点,考虑安全距离约束的A星算法进行路径规划。最后,设计了避障提醒系统的优先级规则与顺序规则,结合所规划路径生成决策,有效指引盲人使其避障。
[0007]本专利技术提供一种助盲场景动态避障方法,该方法分为三个阶段:阶段一进行图像实例分割,由基于深度残差结构的特征提取模块,基于双线性插值与转置卷积上采样的空间特征恢复模块,基于多层转置卷积上采样的原型生成模块与基于边界框与蒙版位置回归的系数矩阵预测模块实现;阶段二根据实例分割结果提取路面与障碍物的种类信息,位置信息与轮廓信息,之后进行路径规划,包括栅格语义地图生成算法,判断障碍物类别与位置的离散采样策略,盲人扇形安全区域与左前右前区域的假设,远端路面中心点启发式搜索算法,考虑安全距离约束的A*路径规划算法,考虑行人移动的路径优化策略;阶段三生成助盲避障策略,包括避障提醒系统的优先级规则与顺序规则,结合阶段二的结果可以生成决策,通过听觉触觉指引盲人。
[0008]步骤1:训练数据集准备,将训练集,验证集,测试集划分为7:2:1。
[0009]步骤2:对于一张图像X∈R
W*H*3
,第一维度和第二维度表示特征图的长和宽,第三维度代表特征图的通道数,要将图像X∈R
W*H*3
输入到基于深度残差结构的特征提取模块,首先需要将图像信息转换为符合主干网络输入的一维序列信息,预处理中包括图像块分区和图像块合并的操作,能够解决输入的问题;特征提取先经过一个卷积核为7
×
7的2D卷积层与池化大小为3
×
3的池化层,再经多个残差模块并级联金字塔池化模块,每个残差模块相比于ResNet网络的残差模块,只有将3
×
3普通2D卷积层替换为具有内部层次化类残差结构的3
×
3新型2D卷积层一处变化,其余保持不变,该新型卷积首先将输入的特征图均匀分成s个特征图子集,由x
i
表示,其中i∈{1,2,

,s},每个特征图子集与输入特征图具有相同的空间大小,但通道数变为1/s,除x1外每个x
i
都经过一次卷积核为3
×
3的2D卷积操作,该卷积操作过程用K
i
()表示,用y
i
表示K
i
()的输出特征图,该卷积结构的最终输出为此处的相加表示将所得特征图于第三通道进行拼接,y
i
的计算公式如下:
金字塔池化模块由三个池化通道组成,池化大小分别为12
×
12,6
×
6,3
×
3,每个池化层后接卷积核为1
×
1的2D卷积层用于将特征图的第三维度变为2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种助盲场景动态避障方法,其特征在于,分为三个阶段:阶段一进行图像实例分割,由基于深度残差结构的特征提取模块,基于双线性插值与转置卷积上采样的空间特征恢复模块,基于多层转置卷积上采样的原型生成模块与基于边界框与蒙版位置回归的系数矩阵预测模块实现;阶段二根据实例分割结果提取路面与障碍物的种类信息,位置信息与轮廓信息,之后进行路径规划,包括栅格语义地图生成算法,判断障碍物类别与位置的离散采样策略,盲人扇形安全区域与左前右前区域的假设,远端路面中心点启发式搜索算法,考虑安全距离约束的A*路径规划算法,考虑行人移动的路径优化策略;阶段三生成助盲避障策略,包括避障提醒系统的优先级规则与顺序规则,结合阶段二的结果生成决策,通过听觉触觉指引盲人。2.根据权利要求1所述的一种助盲场景动态避障方法,其特征在于:基于残差块内构造层次化类残差结构的特征提取模块,基于双线性插值与转置卷积上采样的空间特征恢复模块,栅格语义地图下采样生成算法,判断障碍物类别与距离的蒙版图离散采样策略,启发式远端路面中心求解算法,考虑安全距离约束的A*路径规划算法,考虑行人移动的路径优化策略,避障提醒系统的优先级规则与逻辑顺序规则假设。3.根据权利要求1所述的一种助盲场景动态避障方法,其特征在于:步骤1:训练数据集准备;步骤2:对于一张图像X∈R
W*H*3
,第一维度和第二维度表示特征图的长和宽,第三维度代表特征图的通道数,要将图像X∈R
W*H*3
输入到基于深度残差结构的特征提取模块,首先需要将图像信息转换为符合主干网络输入的一维序列信息,预处理中包括图像块分区和图像块合并的操作,能够解决输入的问题;特征提取先经过一个卷积核为7
×
7的2D卷积层与池化大小为3
×
3的池化层,再经多个残差模块并级联金字塔池化模块,每个残差模块相比于ResNet网络的残差模块,只有将3
×
3普通2D卷积层替换为具有内部层次化类残差结构的3
×
3新型2D卷积层一处变化,其余保持不变,该新型卷积首先将输入的特征图均匀分成s个特征图子集,由x
i
表示,其中i∈{1,2,

,s},每个特征图子集与输入特征图具有相同的空间大小,但通道数变为1/s,除x1外每个i
i
都经过一次卷积核为3
×
3的2D卷积操作,该卷积操作过程用K
i
()表示,用y
i
表示K
i
()的输出特征图,该卷积结构的最终输出为此处的相加表示将所得特征图于第三通道进行拼接,y
i
的计算公式如下:金字塔池化模块由三个池化通道组成,池化大小分别为12
×
12,6
×
6,3
×
3,每个池化层后接卷积核为1
×
1的2D卷积层用于将特征图的第三维度变为256;此步骤能够提取三种不同尺度的图像特征图即X1∈R
69*69*256
、X2∈R
35*35*256
、X3∈R
18*18*256
;将X3∈R
18*18*256
通过一次卷积核为3
×
3的2D卷积层得到X4∈R
9*9*256
,再通过一次卷积核为3
×
3的2D卷积层得到X5∈R
5*5*256
;需要指出的是,每个卷积层之后都有一个批处理归一化BN层和一个ReLU激活函数;训练时,随机初始化实例分割网络的参数,输入一组训练数据,网络前向传播将结果与真实标签值进行对比,得到误差反向传播更新参数,使用Adam梯度下降法来减小损失函数,
采用了交叉熵损失,定义如下:其中y
i
为真实值,p
i
为预测值,总体损失L
t
定义如下:其中N为样本数,x为训练的输入数据,c为类别置信度,L
c
(x,c)为类别置信度损失函数,L
b
(x,l,g)为边界框损失函数,L
m
(x,m,g
m
)为蒙版位置损失函数,α,β为超参数,此处分别为1.25,6.125,L
c
(x,c)定义如下:L
c
(x,c)=f(c,1)其中c是类别置信度,L
b
(x,l,g)定义如下:L
b
(x,l,g)=f(l,g)其中l是边界框预测值,g是边界框实际值,L
m
(x,m,g
m
)定义如下:L
m
(x,m,g
m
)=f(m,g
m
)其中m是蒙版预测值,gt是蒙版实际值;步骤3:训练完成后,将图像输入基于深度残差结构的特征提取模块,所得特征图通过空间池化金字塔以获得多组固定尺寸的特征图,其中的浅层特征图X1∈R
69*69*256
与来自空间特征恢复模块的特征图拼接后得到特征图X7∈R
69*69*280
,将其输入基于多层转置卷积上采样的原型生成模块得到的一组与输入图像同尺寸的原型;其中,空间特征恢复模块由三组卷积核为3
×
3的门控卷积层串联卷积核为3
×
3的2D卷积层,与一个双线性插值层构成,以原图像X∈R
W*H*3
作为输入,使用门控卷积层提取图像的边缘特征,转置卷积层与双线性插值层改变通道数,最终生成特征图X6∈R
69*69*24
,将其拼接到X1∈R
69*69*256<...

【专利技术属性】
技术研发人员:曹政才牟洪民张港孙伊扬石胤斌马哲夏霁
申请(专利权)人:北京化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1