一种助盲场景动态避障方法技术

技术编号：37135277 阅读：11 留言：0更新日期：2023-04-06 21:33

本发明专利技术公开一种助盲场景动态避障方法。首先，构建一种基于残差块内构造层次化类残差结构的特征提取模块，可扩大深层特征的感受野。其次，设计了基于双线性插值与转置卷积上采样的空间特征恢复模块，使分割边缘更加精确。再次，使用离散采样策略提取障碍物的类别信息，距离信息与轮廓信息，通过考虑安全距离约束的启发式搜索算法进行路径规划。最后，假设了避障提醒系统的优先级规则与逻辑顺序规则，结合所规划路径生成决策，通过听觉触觉信息有效指引盲人避障。本发明专利技术解决了单阶段实例分割算法难以同时高精度分割小目标障碍物与背景路面的问题，克服了实例分割结果难以为助盲场景避障决策提供有效信息的困难，可以使盲人用户更加智能自主地避障。加智能自主地避障。

全部详细技术资料下载

【技术实现步骤摘要】
一种助盲场景动态避障方法

[0001]本专利技术涉及图像处理领域与助盲导航领域，具体为一种基于实例分割的助盲场景动态避障方法。

技术介绍

[0002]避障是导航的基础工作之一，助盲场景的避障方法以环境感知传感器的不同，主要可划分为基于视觉，基于激光雷达，与基于多传感器融合三种，基于激光雷达的避障方法发展最成熟，测距精度高，稳定性好，已广泛应用在机器人领域，自动驾驶领域，助盲领域等，但其存在无法提供语义信息，造价成本高，激光雷达体积与重量大等问题。本专利所提助盲场景动态避障方法利用了图像实例分割，属于基于视觉的避障方法，通过使用RGB相机或深度相机等作为传感器进行环境感知。传统的基于视觉的避障方法可以利用深度相机获得深度图等测距，以接近激光雷达的效果，但其依然无法获得语义信息，离实现人的视觉相差甚远，本专利提出的动态避障方法基于实例分割技术，旨在利用深度学习技术，使盲人同时获得障碍物的距离信息，语义信息，在更好的环境理解前提下实现避障。
[0003]近年来，深度学习算法的深入研究进一步推动了环境感知性能的提升，在图像分类，目标检测，图像分割等任务上甚至达到或超过了人类识别的精度，因此，许多基于深度学习的图像分割方法被提出。相比于传统方法，基于深度学习的图像分割方法因其更强的泛化性和鲁棒性受到了广大研究者的关注，图像分割方法主要分为两类，语义分割与实例分割：语义分割会为图像中的每个像素分配一个类别，但是同一类别之间的对象不会区分；实例分割同时利用目标检测和语义分割的结果，在语义分割的基础上区别同一类别的不同对象。...

【技术保护点】

【技术特征摘要】
1.一种助盲场景动态避障方法，其特征在于，分为三个阶段：阶段一进行图像实例分割，由基于深度残差结构的特征提取模块，基于双线性插值与转置卷积上采样的空间特征恢复模块，基于多层转置卷积上采样的原型生成模块与基于边界框与蒙版位置回归的系数矩阵预测模块实现；阶段二根据实例分割结果提取路面与障碍物的种类信息，位置信息与轮廓信息，之后进行路径规划，包括栅格语义地图生成算法，判断障碍物类别与位置的离散采样策略，盲人扇形安全区域与左前右前区域的假设，远端路面中心点启发式搜索算法，考虑安全距离约束的A*路径规划算法，考虑行人移动的路径优化策略；阶段三生成助盲避障策略，包括避障提醒系统的优先级规则与顺序规则，结合阶段二的结果生成决策，通过听觉触觉指引盲人。2.根据权利要求1所述的一种助盲场景动态避障方法，其特征在于：基于残差块内构造层次化类残差结构的特征提取模块，基于双线性插值与转置卷积上采样的空间特征恢复模块，栅格语义地图下采样生成算法，判断障碍物类别与距离的蒙版图离散采样策略，启发式远端路面中心求解算法，考虑安全距离约束的A*路径规划算法，考虑行人移动的路径优化策略，避障提醒系统的优先级规则与逻辑顺序规则假设。3.根据权利要求1所述的一种助盲场景动态避障方法，其特征在于：步骤1：训练数据集准备；步骤2：对于一张图像X∈R
W*H*3
，第一维度和第二维度表示特征图的长和宽，第三维度代表特征图的通道数，要将图像X∈R
W*H*3
输入到基于深度残差结构的特征提取模块，首先需要将图像信息转换为符合主干网络输入的一维序列信息，预处理中包括图像块分区和图像块合并的操作，能够解决输入的问题；特征提取先经过一个卷积核为7
×
7的2D卷积层与池化大小为3
×
3的池化层，再经多个残差模块并级联金字塔池化模块，每个残差模块相比于ResNet网络的残差模块，只有将3
×
3普通2D卷积层替换为具有内部层次化类残差结构的3
×
3新型2D卷积层一处变化，其余保持不变，该新型卷积首先将输入的特征图均匀分成s个特征图子集，由x
i
表示，其中i∈{1,2,
…
,s}，每个特征图子集与输入特征图具有相同的空间大小，但通道数变为1/s，除x1外每个i
i
都经过一次卷积核为3
×
3的2D卷积操作，该卷积操作过程用K
i
()表示，用y
i
表示K
i
()的输出特征图，该卷积结构的最终输出为此处的相加表示将所得特征图于第三通道进行拼接，y
i
的计算公式如下：金字塔池化模块由三个池化通道组成，池化大小分别为12
×
12，6
×
6，3
×
3，每个池化层后接卷积核为1
×
1的2D卷积层用于将特征图的第三维度变为256；此步骤能够提取三种不同尺度的图像特征图即X1∈R
69*69*256
、X2∈R
35*35*256
、X3∈R
18*18*256
；将X3∈R
18*18*256
通过一次卷积核为3
×
3的2D卷积层得到X4∈R
9*9*256
，再通过一次卷积核为3
×
3的2D卷积层得到X5∈R
5*5*256
；需要指出的是，每个卷积层之后都有一个批处理归一化BN层和一个ReLU激活函数；训练时，随机初始化实例分割网络的参数，输入一组训练数据，网络前向传播将结果与真实标签值进行对比，得到误差反向传播更新参数，使用Adam梯度下降法来减小损失函数，
采用了交叉熵损失，定义如下：其中y
i
为真实值，p
i
为预测值，总体损失L
t
定义如下：其中N为样本数，x为训练的输入数据，c为类别置信度，L
c
(x,c)为类别置信度损失函数，L
b
(x,l,g)为边界框损失函数，L
m
(x,m,g
m
)为蒙版位置损失函数，α，β为超参数，此处分别为1.25，6.125，L
c
(x,c)定义如下：L
c
(x,c)＝f(c,1)其中c是类别置信度，L
b
(x,l,g)定义如下：L
b
(x,l,g)＝f(l,g)其中l是边界框预测值，g是边界框实际值，L
m
(x,m,g
m
)定义如下：L
m
(x,m,g
m
)＝f(m,g
m
)其中m是蒙版预测值，gt是蒙版实际值；步骤3：训练完成后，将图像输入基于深度残差结构的特征提取模块，所得特征图通过空间池化金字塔以获得多组固定尺寸的特征图，其中的浅层特征图X1∈R
69*69*256
与来自空间特征恢复模块的特征图拼接后得到特征图X7∈R
69*69*280
，将其输入基于多层转置卷积上采样的原型生成模块得到的一组与输入图像同尺寸的原型；其中，空间特征恢复模块由三组卷积核为3
×
3的门控卷积层串联卷积核为3
×
3的2D卷积层，与一个双线性插值层构成，以原图像X∈R
W*H*3
作为输入，使用门控卷积层提取图像的边缘特征，转置卷积层与双线性插值层改变通道数，最终生成特征图X6∈R
69*69*24
，将其拼接到X1∈R
69*69*256<...

【专利技术属性】
技术研发人员：曹政才，牟洪民，张港，孙伊扬，石胤斌，马哲，夏霁，
申请(专利权)人：北京化工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人