基于双目立体视觉描述的公共场所智能导盲系统及方法技术方案

技术编号：40417724 阅读：7 留言：0更新日期：2024-02-20 22:35

本发明专利技术公开了基于双目立体视觉描述的公共场所智能导盲系统及方法，通过空间感知与探测，基于双目摄像头分别获取二维图像数据和基于深度的三维图像数据；通过精确视觉描述，构建基于图的密集视觉描述模型，基于三维图像数据特征进行物体划分，并建立物体及物体间的关系，借助注意力机制，以物体本身及物体关系作为特征，同时关注于多个物体，生成物体的三维描述信息，再引入所述二维图像数据，进行跨模态特征融合，得到最终的周围环境描述数据；最后通过人机交互模块，基于周围环境描述数据，通过耳机进行智能导盲的人机交互过程。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于神经网络及智能导盲，具体涉及基于双目立体视觉描述的公共场所智能导盲系统及方法。

技术介绍

1、现有技术中，基于无障碍设计理念研究视障人群的产品很少，视障产品的研究很匮乏。《残疾人基本辅助器俱指导目录(2021)版》中涉及到视障人群的助视器，但仅限于放大镜、低视力眼镜、电子助视器等，相对技术附加值较低。盲人群体能使用的智能产品极度稀缺。

2、现有的产品中，存在如下问题：

3、1、智能盲杖。盲杖由腕带、杖柄（手柄）、杖身（体）、杖尖构成。这类产品可以引导视障人士躲避简单障碍，基本解决了他们正常行走的问题。但在陌生和复杂的环境中，即使利用盲杖，也无法适时躲避障碍和得到有效的路况信息，安全性差，在面对不熟悉的环境时非常被动，在室内使用也会对他人造成一定程度的影响。同时，虽然辅助设备，如步行器和手杖，经常被用来帮助平衡控制，但这种设备实际上也可能会增加跌倒的风险。

4、2、电子导盲犬，导盲眼镜和导盲鞋等。该类产品的主要避障方式仅仅是通过超声波进行探测，超声装置不断向前发射超声波，当遇到障碍物时即反射回波，经超声波接收装置接收后，通过电子线路的处理，变成可听见的声音。由于其计算是通过单片机进行的，这就存在运算量小、速度慢等问题。同时功能比较单一，无法对在复杂室内场景下出行的视障人士提供必要的帮助。

5、3、brainport。该类产品利用摄像头将画面处理成电流信号传到舌头感应片上，从而使盲人形成视知觉。此产品十分新颖，运用了比较复杂的技术，但使用起来需要学习，形成一种新的通感知觉

6、4、电子信标。电子信标是一类能在较大范围内引导盲人行动的导盲系统。通过电子信标系统内的存储，以红外线的形式发送行动方位信息，视障者通过手持红外线设备就能了解询问信息。但电子信标应用在公共环境中，造价成本高，需大量投资方可正常使用，并且在室内环境中需考虑设备信号问题。

7、5、触觉手套。该类产品能计算周围障碍物与佩戴者的方位和距离，通过手套上的振动马达以触觉的形式反馈到用户的手背。这种产品虽然使用方便，但是功能单一，只能避障，无法识别具体场景，也没有经过很好的语言描述，不能比较具体的描述情景。

8、此外，orcam technologies公司开发的一款智能导盲系统orcam myeye，通过摄像头捕捉用户周围的环境图像，经计算单元对捕捉到的图像进行处理，使用计算机视觉算法识别环境中的物体、文字和人脸等特征，最终由语音输出设备将识别结果通过语音合成技术转化为语音，通过耳机传输给用户，用户通过耳机听取语音反馈，了解周围环境中的物体、文字和人脸等信息，从而帮助导航、阅读等日常活动。但该产品也存在一些潜在的缺陷和限制：（1）学习和适应过程：使用orcam myeye需要一定的学习和适应过程，用户需要熟悉系统的操作方式，并逐渐习惯依赖系统进行导航和感知，对于一些技术不熟悉或年龄较大的用户来说，学习和适应过程可能需要更长的时间和更多的努力；（2）室内导航限制：虽然orcam myeye在室内导航方面提供了一定的帮助，但其能力仍然受到室内环境的限制。例如，复杂的室内结构、不稳定的室内信号和缺乏详细的地图数据等因素可能影响系统的准确性和可靠性。

技术实现思路

1、为解决现有技术的不足，实现降低学习难度、降低成本、提升使用便捷性的目的，本专利技术采用如下的技术方案：

2、基于双目立体视觉描述的公共场所智能导盲系统，包括图像获取装置、导航装置和交互外设装置，所述图像获取装置为双目摄像装置，所述导航装置包括空间感知与探测模块、精确视觉描述模块和人机交互模块；

3、所述空间感知与探测模块，基于双目摄像装置分别获取二维图像数据和基于深度的三维图像数据；

4、所述精确视觉描述模块，构建基于图的密集视觉描述模型，基于所述三维图像数据特征进行物体划分，并建立物体及物体间的关系，借助注意力机制，以物体本身及物体关系作为特征，同时关注于多个物体，生成物体的三维描述信息，再引入所述二维图像数据，进行跨模态特征融合，得到最终的周围环境描述数据；

5、所述人机交互模块，基于周围环境描述数据，通过交互外设装置进行智能导盲的人机交互过程。

6、进一步地，所述空间感知与探测模块，获取周围环境图像信息，基于图像二维特征的数据集合，通过光学成像模型和双目相机深度模型计算视距差，基于全局优化策略的块匹配算法得到图像三维特征的数据集合。

7、进一步地，所述基于图的密集视觉描述模型，包括检测骨干模块、关系图模块和注意力模块；

8、所述检测骨干模块，包括主干网模块、投票网模块、聚类模块，主干网模块获取图像三维特征的数据为点云数据，对每一帧无序的点云数据提取全局特征，以每个点之间的空间关系作为参数对所有数据进行对齐处理，从而获得一个物体本身信息，同时不丢失其空间信息的有序数据集合，投票网模块利用经过处理的点云信息，生成每件需要检测的物体的近似中心；聚类模块对于每一个产生的中心点做聚类处理，得到分别含有各件物体所有信息的点簇；用于物体检测和划分；

9、所述关系图模块，将各个物体以物体间关系抽象为的关系图，将物体对象作为图的节点，将各个物体对象间的相互关系作为图的边，边的权值用于体现出物体间的关系程度，借助这一关系图可以将问题转换为一个在有向图上的消息传递网络问题，通过多重感知器，将每个节点的信息继续输入至下一个节点，以在增强原有信息的同时得以推测两个对象之间的空间关系特征；

10、所述注意力模块，基于注意力机制以物体本身及物体关系作为特征，同时关注于多个物体，生成物体的三维描述信息，构建教师-学生架构，引入所述二维图像数据的描述信息作为教师角色，对作为学生角色的三维描述信息进行修正，从而获得更精准的最终描述结果。

11、进一步地，为使处理结果可以可视化形式呈现，通过添加了一个proposal候选框模块对每一组点簇添加边界框，可视化后即为每个三维物体被框选出来的效果，proposal候选框模块基于簇类特征，得到目标候选框和非目标掩码，再将簇类特征基于非目标掩码进行过滤，基于得到的有效特征与目标候选框构建关系图。

12、进一步地，所述人机交互模块，基于周围环境描述数据、基于聚类得到的障碍物标定数据，以及通过语音处理模块获取的语音指令输入，经环境量化计算模块，生成导航信息和障碍物距离信息，再通过语音处理模块进行人机交互语音输出。

13、进一步地，所述注意力模块的输出结合图像三维特征的点云数据、图像二维特征的数据，基于多模态处理模块进行跨模态特征融合，再将融合结果再与注意力模块的输出进行融合，得到周围环境描述数据。

14、进一步地，所述多模态处理模块与注意力模块中的特征需要对齐。

15、进一步地，所述系统依次进行系统初始化、各装置、系统自检，自检失败则提示错误帮助本文档来自技高网...

【技术保护点】

1.基于双目立体视觉描述的公共场所智能导盲系统，包括图像获取装置、导航装置和交互外设装置，其特征在于：所述图像获取装置为双目摄像装置，所述导航装置包括空间感知与探测模块、精确视觉描述模块和人机交互模块；

2.根据权利要求1所述的基于双目立体视觉描述的公共场所智能导盲系统，其特征在于：所述空间感知与探测模块，获取周围环境图像信息，基于图像二维特征的数据集合，通过光学成像模型和双目相机深度模型计算视距差，基于全局优化策略的块匹配算法得到图像三维特征的数据集合。

3.根据权利要求1所述的基于双目立体视觉描述的公共场所智能导盲系统，其特征在于：所述基于图的密集视觉描述模型，包括检测骨干模块、关系图模块和注意力模块；

4.根据权利要求3所述的基于双目立体视觉描述的公共场所智能导盲系统，其特征在于：通过候选框模块对每一组点簇添加边界框，候选框模块基于簇类特征，得到目标候选框和非目标掩码，再将簇类特征基于非目标掩码进行过滤，基于得到的有效特征与目标候选框构建关系图。

5.根据权利要求3所述的基于双目立体视觉描述的公共场所智能导盲系统，其特征在于：

6.根据权利要求3所述的基于双目立体视觉描述的公共场所智能导盲系统，其特征在于：所述注意力模块的输出结合图像三维特征的点云数据、图像二维特征的数据，基于多模态处理模块进行跨模态特征融合，再将融合结果再与注意力模块的输出进行融合，得到周围环境描述数据。

7.根据权利要求6所述的基于双目立体视觉描述的公共场所智能导盲系统，其特征在于：所述多模态处理模块与注意力模块中的特征需要对齐。

8.根据权利要求1所述的基于双目立体视觉描述的公共场所智能导盲系统，其特征在于：所述系统依次进行系统初始化、各装置、系统自检，自检失败则提示错误帮助信息，自检成功后向盲人报告当前位置信息、向盲人回报等待指令、输入并判断导航命令的接收，接收失败时返回，继续向盲人回报等待指令，接收成功后提示盲人输入目的地，并判断是否接收到目的地输入，未接收时返回并继续提示，接收到时则进一步判断是否有精确匹配，未精确匹配时判断是否有相似匹配，无相似匹配的返回提示盲人输入目的地，有相似匹配或者有精确匹配的，则语音回报目的地信息，并进一步确认目的地，否则提示取消选择；然后对确认的目的地进行语音播报、定位目的地位置并规划路径、开始导航、进行导航工作，判断是否输入导航命令，输入了则处理导航命令并进行导航工作，否则进一步判断是否抵达目的地，未抵达时返回行导航工作，抵达时则判断是否继续导航，继续导航的，则返回向盲人报告当前位置信息这一步，否则语音播报告别词。

9.基于双目立体视觉描述的公共场所智能导盲方法，其特征在于包括如下步骤：

...

【技术特征摘要】

5.根据权利要求3所述的基于双目立体视觉描述的公共场所智能导盲系统，其特征在于：所述人机交互模块，基于周围环境描述数据、基于聚类得到的障碍物标定数据，以及通过语音处理模块获取的语音指令输入，经环境量化计算模块，生成导航信息和障碍物距离信息，再通过语音处理模块进行人机交互语音输出。

6.根据权利要求3所述的基于双目立体视觉描述的公共场所智能导...

【专利技术属性】
技术研发人员：黄启航，魏韬，杨子力，王然，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人