【技术实现步骤摘要】
一种面向助盲领域的指示牌语义信息提取方法
[0001]本专利技术涉及设计图像处理、深度学习
,具体为一种面向助盲领域的指示牌语义信息提取方法。
技术介绍
[0002]目前,助盲领域的研究依旧不够完善不够成熟,还远达不到能够帮助视障人士在陌生环境下自主行走的目的。助盲设备主要聚焦于帮助视障人士导航、避障,现有的研究依靠计算机视觉、激光雷达以及多传感器融合等技术实现避障,在导航方面更多的依赖于先验地图,当针对陌生环境时,必须先构建地图,也就导致降低了其实际应用性和推广性。针对这一问题,为了使视障人士能够更接近于常人一样可以在陌生的大规模室内环境下行走,本专利技术提出一种面向助盲领域的指示牌语义信息提取方法,使视障人士在陌生环境下能够像常人一样依靠读取指示牌信息来确定各个地点的方位。
[0003]计算机视觉是使用计算机及相关设备对生物视觉的一种模拟,是人工智能领域的一个重要部分,它主要任务是通过对采集的图片或视频进行处理以获得相应场景的信息。而深度学习的出现和应用,使计算机视觉在很多方面有了大的提升,如图像分类、目标 ...
【技术保护点】
【技术特征摘要】
1.一种面向助盲领域的指示牌语义信息提取方法,其特征在于,包括以下步骤:构建编码
‑
解码结构的图像描述模型,由基于视觉Transformer的计算机视觉基础模型作为编码器用于图像特征提取,使用多个标准Transformer模块构成解码器用于生成图像的语义描述;图像描述模型的预训练和微调;通过助盲设备采集超过5000张的室内场景各类指示牌图像并制作数据集用于模型的微调;通过助盲设备获得室内场景图像,使用YOLOv5方法检测图像中是否存在指示牌,如果检测到指示牌且其在图像中占比超过给定阈值,则对图像中指示牌进行提取并矫正,最后通过图像描述模型生成对指示牌的语义信息描述。2.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法,其特征在于,所述构建编码
‑
解码结构的图像描述模型,包括:基于视觉Transformer的解码器,由图像分块模块以及四个基于Swin Transformer的特征转换模块构成;Swin Transformer是用基于移位窗口的注意力层替换标准Transformer中多头自注意力层改变来的;特征转换模块1由一个线性嵌入层和两个Swin Transformer块组成;特征转换模块2、3、4均由一个块合并模块和若干个Swin Transformer块组成,特征转换模块2、4包含2个Swin Transformer块,特征转换模块3包含6个Swin Transformer块;解码器由标准的Transformer模块组成,每个标准Transforemr由多头自注意力层和前馈层构成,且每一层之前都进行层归一化处理,每两个子层之间使用残差连接。3.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法,其特征在于,所述图像描述模型的预训练过程如下:对基于Transformer的多模态模型进行预训练,采用语言模型的损失函数进行训练,对于输入图片I,生成句子{y
1,
y2,
…
,
N
},损失函数如下:其中CE为标签平滑为0.1的交叉熵损失函数。4.根据权利要求1所述的一种面向助盲领域的指示牌语义信息提取方法,其特征在于,所述图像描述模型的微调过程如下:步骤1:数据集制作;通过助盲设备采集超过5000张的室内场景各类指示牌图像,利用YOLOv5模型进行识别并裁剪出指示牌用于避免输入过多非指示牌的特征;对分割出的指示牌进行边缘检测计算出指示牌顶角坐标,使用仿射变换方法进行矫正;最后对每一个指示牌标注1个符合语义信息的描述语句作为标签;步骤2:对于一张输入的指示牌图像X∈R
W
×
H
×3,R
W
×
H
×3表示一个实数集合,其维度为(W,H,3);W和H分别表示图像的宽和高,第三维度为通道数,首先需要将图像转换为符合模型输入的队列形式,经过图像分块模块图像转换为2维序列每一个图像分块的大小为(P,P),取P=4,N=HW/P2为图像分块的数量;特征提取经过四个阶段;阶段一,输入序列X
p
经过线性嵌入层,转换为固定维数C,输出z0∈R
N
×
C
,再通过2个连续Swin Transformer块,维度不变,2个连续的Swin Transformer块计算如下:
...
【专利技术属性】
技术研发人员:曹政才,石胤斌,孙伊扬,牟洪民,夏霁,马哲,张港,
申请(专利权)人:北京化工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。