一种面向视障人士的物品智能搜索方法技术

技术编号:28376030 阅读:13 留言:0更新日期:2021-05-08 00:03
本发明专利技术公开了一种面向视障人士的物品智能搜索方法,其步骤包括:1通过基于深度学习的语音识别模型对视障人士的所需物品诉求的关键字进行提取;2构建基于深度学习的目标检测模型;3收集用于视障人士目标检测的生活物品数据集并训练目标检测模型;4搜索目标后,语音输出视障人士诉求物品位置信息。本发明专利技术能通过人工智能识别视障人士的语音诉求,智能化识别并定位物品,从而能帮助视障人士搜索所需物品。

【技术实现步骤摘要】
一种面向视障人士的物品智能搜索方法
本专利技术涉及视障人士日常搜索物品方法,特别涉及一种面向视障人士的物品智能搜索方法。
技术介绍
视障人士是社会中占有很大比重的一类弱势群体,视力残疾的他们在生活中面临很多困难,比如搜索物品,视障人士不能分辨物品类别,获取不了物品位置信息,使得难以独自获取物品。2017年全球约有2.53亿人患有视力障碍,其中3600万人失明,2.17亿人患有中度至重度视力障碍。根据第六次全国人口普查我国总人口数和全国第二次残疾人抽样调查结果推算,我国单一视力残疾的人数达1263万,如果包含多重残疾者,视力残疾的患病率为1.53%,视力残疾的人数达2055万。由此可见,在世界范围内视障人士群体数量庞大,在社会中占了很大的比重。帮助视障人士克服视觉困难是涉及民生的重大公共卫生问题和社会问题,随着信息时代的飞速发展,如果不设法缩小由于视力残疾等原因带来的数字鸿沟问题,视障人士将面临越来越严峻的挑战,有日益边缘化的危险,帮助他们克服视觉困难是重大公共卫生问题和社会问题,能极大改善他们的生活质量,减轻家庭和社会负担,同时也能促进社会和谐与稳定,助力社会经济生产活动。目前,国内外面向视障人士服务的研究没有得到足够的关注和重视,一些研究还处于起步阶段,为视障人士设计的服务也仅仅只有诸如导盲犬,盲杖,盲道等简单的工具,并且这些工具不能完全满足视障人士生活中的基本需求。此外,国内外研究者针对视障人士智能服务的研究主要集中在利用地理信息的导盲、基于专用传感器的导航、基于视障人士感知的专用视觉模型的导盲、基于视觉的可穿戴设备的导盲和避障、利用智能设备增强视障人士感知等领域等,产品大多还是以辅助出行为主,且仅对一些简单的特定标志物如红绿灯、路障等具有识别功能,并且视障人士是被动接收信息,缺少帮助视障人士主动获取周围物品信息的技术产品。而对于视障人士生活的物品识别搜索技术研究中很大程度上依靠于专用的高端设备,且一部分处于构想和实验阶段,尚未进入实用阶段。在视障人士的现实生活中,往往因为所需物品距离较远等因素存在大量对小目标的检测需求,以至于仍无法满足大量应用场景中的实际需求。
技术实现思路
本专利技术是为了解决上述现有技术存在的不足之处,提出一种面向视障人士的物品智能搜索方法,以期能通过识别视障人士的语音诉求,智能化识别并定位物品,从而帮助视障人士获取所需物品,满足实际生活需求。本专利技术为达到上述专利技术目的,采用如下技术方案:本专利技术一种面向视障人士的物品智能搜索方法的特点是按如下步骤进行:步骤1、获取视障人士的语音信息并通过深度学习的语音识别模型进行语音与文本的映射,得到匹配的关键字;再对所述关键字进行文本与图像的关系映射,得到匹配的目标图像;步骤2、构建基于深度学习的目标检测模型,所述目标检测模型是由多尺度重建模块、语义分割模块及目标检测模块组成;步骤2.1、所述多尺度特征重建模块包括:2n个密集卷积块和2n个反卷积层;每个密集卷积块是由m个卷积层跳跃连接构成:定义变量i;当i=1时,所述目标图像经过第i个密集卷积块和i个反卷积层后输出2(i)倍尺度特征a2i;当i=2,3,…,2n时,所述2(i)倍尺度特征a2i经过第i+1个密集卷积块和i+1反卷积层输出2(i+1)倍尺度特征a2(i+1),从而得到多尺度特征{a2i|i=1,2,…,2n};步骤2.2、所述语义分割模块包括:残差模块、语义分割网络的分支、包含注意力机制的一组卷积层;残差模块也包括一组卷积层;且两组卷积层的参数共享;步骤2.2.1、将所述多尺度特征{a2i|i=1,2,…,2n}经过语义分割网络的分支后输出语义多尺度特征{b2i|i=1,2,…,2n};将所述多尺度特征{a2i|i=1,2,…,2n}经过残差模块中的一组卷积层后输出残差多尺度特征{c2i|i=1,2,…,2n};将所述语义多尺度特征{b2i|i=1,2,…,2n}与残差多尺度特征{c2i|i=1,2,…,2n}进行逐点相加操作,得到融合多尺度特征{d2i|i=1,2,…,2n};步骤2.2.2、将语义多尺度特征{b2i|i=1,2,…,2n}经包含注意力机制的一组卷积层后输出注意力多尺度特征{e2i|i=1,2,…,2n};将所述多尺度特征{a2i|i=1,2,…,2n}与注意力多尺度特征{e2i|i=1,2,…,2n}进行逐点相乘操作,得到初始多尺度特征{f2i|i=1,2,…,2n};步骤2.3、所述目标检测预测模块包括自适应池化层、RPN网络、RoI池化层和全连接层;所述自适应池化层按不同池化核将初始多尺度特征{f2i|i=1,2,…,2n}进行自适应池化为同一尺寸,再合并联结为目标检测特征图,并经过RPN网络生成带有候选框的特征图,将带有候选框的特征图通过RoI池化层的处理,获得固定尺寸的特征图,最后通过所述全连接层对特征图中的物体进行检测,输出所述目标图像中物体候选框的类别及其坐标位置;步骤3、收集用于视障人士目标检测的生活物品数据集并训练深度学习的目标检测模型;步骤4、检测到目标物体后,语音输出视障人士诉求的物品位置信息;步骤4.1、采用3D传感器来获取视障人士视野中的深度图像,并以视障人士所在位置为坐标原点,以3D传感器视角的正前方为y轴,以与视障人士肩部平行的方向为x轴,以视障人士站立时与地面的垂直方向为z轴,从而构建三维空间坐标系;步骤4.2、获取视障人士的语音信息并按照步骤1的过程转换为目标物体图像;利用基于深度学习的目标检测模型分别对3D传感器实时获取的视角内的深度图像与所述目标物体图像进行检测和匹配,直到视障人士搜索到目标物体为止。与已有技术相比,本专利技术的有益效果体现在:1、本专利技术通过构建文本、图像与语音的关系映射,基于深度学习的语音识别模型对视障人士的所需物品诉求的关键字进行提取,基于深度学习的目标检测模型对物品识别和物品位置信息的感知提示,实现了一种新的帮助视障人士主动获取所需物品的智能搜索方法,解决了视障人士难以主动获取所需物品的技术难题。2、本专利技术构建一种新的能够满足视障人士主动需求的目标检测模型,模型融入了超分辨率和语义分割等部分算法,相比较传统目标检测模型,强化了低分辨率下的目标特征,丰富了尺寸较小目标的语义特征信息,从而提升了模型对小目标的检测与识别精度。3、本专利技术采用基于LSTM的深度学习模型完成语音识别任务,LSTM可以很好的实现语音信息的输入和识别结果的输出,同时能够解决传统的RNN语音识别模型梯度消失问题和过拟合以及3-5s的硬延迟问题。附图说明图1为本专利技术提出的一种面向视障人士的物品智能检索方法流程图;图2为本专利技术用于视障人士检测物品的网络模型示意图;图3为本专利技术多尺度特征重建模块结构示意图;图4为本专利技术语义分割模块结构示意图;图5为本专利技术目标检测模块结构示意图。具体实施方式本实施例中,一种面向视障人士的本文档来自技高网
...

【技术保护点】
1.一种面向视障人士的物品智能搜索方法,其特征是按如下步骤进行:/n步骤1、获取视障人士的语音信息并通过深度学习的语音识别模型进行语音与文本的映射,得到匹配的关键字;再对所述关键字进行文本与图像的关系映射,得到匹配的目标图像;/n步骤2、构建基于深度学习的目标检测模型,所述目标检测模型是由多尺度重建模块、语义分割模块及目标检测模块组成;/n步骤2.1、所述多尺度特征重建模块包括:2n个密集卷积块和2n个反卷积层;每个密集卷积块是由m个卷积层跳跃连接构成:/n定义变量i;当i=1时,所述目标图像经过第i个密集卷积块和i个反卷积层后输出2(

【技术特征摘要】
1.一种面向视障人士的物品智能搜索方法,其特征是按如下步骤进行:
步骤1、获取视障人士的语音信息并通过深度学习的语音识别模型进行语音与文本的映射,得到匹配的关键字;再对所述关键字进行文本与图像的关系映射,得到匹配的目标图像;
步骤2、构建基于深度学习的目标检测模型,所述目标检测模型是由多尺度重建模块、语义分割模块及目标检测模块组成;
步骤2.1、所述多尺度特征重建模块包括:2n个密集卷积块和2n个反卷积层;每个密集卷积块是由m个卷积层跳跃连接构成:
定义变量i;当i=1时,所述目标图像经过第i个密集卷积块和i个反卷积层后输出2(i)倍尺度特征a2i;当i=2,3,…,2n时,所述2(i)倍尺度特征a2i经过第i+1个密集卷积块和i+1反卷积层输出2(i+1)倍尺度特征a2(i+1),从而得到多尺度特征{a2i|i=1,2,…,2n};
步骤2.2、所述语义分割模块包括:残差模块、语义分割网络的分支、包含注意力机制的一组卷积层;残差模块也包括一组卷积层;且两组卷积层的参数共享;
步骤2.2.1、将所述多尺度特征{a2i|i=1,2,…,2n}经过语义分割网络的分支后输出语义多尺度特征{b2i|i=1,2,…,2n};
将所述多尺度特征{a2i|i=1,2,…,2n}经过残差模块中的一组卷积层后输出残差多尺度特征{c2i|i=1,2,…,2n};
将所述语义多尺度特征{b2i|i=1,2,…,2n}与残差多尺度特征{c2i|i=1,2,…,2n}进行逐点相加操作,得到融合多尺度特征{d2i|i=1,2,…,...

【专利技术属性】
技术研发人员:赵仲秋班名洋田卫东胡健
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1