当前位置: 首页 > 专利查询>曹醒龙专利>正文

一种帮助视障人士出行的装置制造方法及图纸

技术编号:18381291 阅读:40 留言:0更新日期:2018-07-07 18:48
本发明专利技术提供一种帮助视障人士出行的装置,包括:深度图像计算单元,点云构建单元,地面检测单元,对象分割单元,用于去除地面及以下的点云,并基于聚类的方法进行点云分割,得到各个对象;对象跟踪单元,用于对各个对象进行跟踪,计算其在三位空间的尺寸、运动方向、运动轨迹和运动速度;对象识别单元,用于对于各个对象,投影得到图像区域,提取RGB图像,基于RGB图像进行对象识别;语音合成及输出单元,用于将对象的类型、位置、运动方向和速度合成语音,输出合成语音来通知视障人士。其为视障人士的自主决策提供了全面的信息,有效的帮助视障人士避开障碍物,提高视障人士的出行安全。

A device to help a visually impaired person travel

The invention provides a device for helping the visually impaired people travel, including the depth image calculation unit, the point cloud building unit, the ground detection unit and the object segmentation unit, which are used to remove the ground and the following point clouds, and divide the point cloud based on the clustering method to obtain each image; the object tracking unit is used for each of the objects. The object is tracked, the size of the three bit space, the direction of motion, the motion track and the speed of motion are calculated. The object recognition unit is used for each object, the image region is projected, the RGB image is extracted, the object recognition is based on the RGB image, and the speech synthesis and output single element are used for the type, location and location of the object. Synthetic speech is synthesized in motion direction and speed, and synthetic speech is output to notify the visually impaired. It provides comprehensive information for visually impaired people's autonomous decision-making, effectively helps visually impaired people avoid obstacles and improves the safety of visually impaired people.

【技术实现步骤摘要】
一种帮助视障人士出行的装置
本专利技术总体上涉及使用视觉和语音技术来进行障碍物检测和跟踪的装置,更具体地涉及使用双目相机或者立体相机的彩色图和深度图来检测障碍物并进行语音提醒的装置。
技术介绍
人类70%的感知信息来自视觉;视障人士比正常人更需要和更渴望弥补和增强。视障人士渴望能够自由的出行。户外出行,静止和移动的障碍物随时可能遇到,它们离的多远、方位如何、速度如何?如何实时发现他们并通知是帮助视障人士出行的关键所在。目前,学术界和工业界在尝试多种方法来试图解决这一问题。2014年牛津大学的史蒂芬希克斯研究使用深度传感器加OLED视觉增强的方法,将深度图像转化为音场。2014年的BrainPort项目研究将图像信息转为电极阵列的点阵,由舌头感触来尝试使大脑形成视知觉。这两种方法均需要视障人士使用设备进行相当长一段时间的训练,来尝试使视障人士自己形成一种新的对空间的感知方法。目前看,实施难度大,效果也尚需要验证。2015年9月百度的Dulight依托“百度大脑”的图像识别、人脸识别、语音识别以及深度学习等相关核心技术,打造盲人的日常生活私人助理。其结合百度大数据分析能力和自然人机交互技术,帮助盲人“洞见”真实世界,其可以把相机看到的物体等告知盲人,但无法知道物体相对于盲人的状态(距离、运动状态、尺寸等),对室外出行帮助有限。2017年微软的SeeingAI应用发布,其采用单目眼镜+深度学习技术(手机应用)的方式,主要帮助盲人来对场景进行理解、以语音方式和盲人交互。其通过摄像头对准身边的人或物就能为盲人用语言解说,充当盲人的眼睛,可进行人脸识别,并可通过语音说出此人的性别、大概年龄以及现在的情绪状况,外出买东西时也通过“SeeingAI”可以对门牌,食品信息甚至是货币进行识别再由语音报出。“SeeingAI”的诞生可以让更多的弱视群体尽可能的“独立”,与正常生活缩小差距。其存在的主要问题也是无法知道物体相对于盲人的状态(距离、运动状态、尺寸等),对室外出行帮助有限。2015年IBM和卡内基梅隆的合作项目NavCog研究使用蓝牙灯塔结合手机APP的方式来为盲人提高语音导航。这款App可以通过语音与震动两种方式为盲人导航,同时还能把盲人所处的周围环境处理为3D空间模型,通过超声波传到他们耳中,通过耳机语音或是通过创造细微的智能手机震动,提供更加精准的定位和导航。为了让盲人知道身边都有谁,它还贴心地提供了人脸扫描功能,并能告诉盲人身边的人的情绪。它的主要问题是,需要依赖于蓝牙灯塔提供信号,是一种比较方便的信号传递载体。但蓝牙灯塔在中国不多见,极大限制了其应用的可行性。此外,为帮助室外出行,导盲眼镜产品也有研发,其由电子盒和眼镜两部分组成。眼镜上装有两只超声换能器和一只耳塞机,换能器能够向前方发射和接收反射回来的超声脉冲波,盲人通过耳机发出的声音变化而感知前方的障碍物。具体的,导盲眼镜是将集成电路装置安装在眼镜架和眼镜片上,超声装置不断向前发射超声波,当遇到障碍物时即反射回来,经眼镜上的超声波接收装置接收后,通过电子线路的处理,变成可听见的声音,该声音的音调及重复频率是随着障碍物的距离改变而变化,盲人可以根据声音、音调及重复频率来判断前方有无障碍物及障碍物距离,从而避免了碰撞,使盲人行走方便,减少碰撞的痛苦,是盲人导盲引路的先进工具。导盲眼镜对小障碍物的探测范围是正前方,左右各10度、上方5度、下方35度,在离眼镜2米远的地方,可以探测到左右各0.4米、上方0.2米、下方1.4米的空间范围内的障碍物;对于大的障碍物,探测范围还要大些。探测距离分1.5米和4米两档,由电子盒上的拨动开关选择。当在一定距离内遇到障碍物时,耳机便发出声响,障碍物越近,声音重复得越急促,音调也越来越高。电源采用一节9伏6F22叠层电池,一节电池可使用60小时。使用时,先戴好眼镜,选择好距离档:在人多的地方应选1.5米的距离档,在人少的地方可选4米的距离档。该产品最大的问题是工作的视场范围小、工作距离近、无法知晓障碍物的类型、尺寸运动状态。
技术实现思路
鉴于上述情况,本专利技术提供了一种帮助视障人士出行的装置,用于克服现有技术存在的各种问题。本专利技术解决上述技术问题所采取的技术方案如下:深度图像计算单元,用于连接双目相机,并基于双目相机获取左右彩色图像,计算得到深度图像,同步输出彩色图像和深度图像;点云构建单元,基于彩色图像和深度图像,构建点云(x,y,z,r,g,b)信息,即每个点包含3维空间坐标信息和3维彩色信息;地面检测单元,基于点云的3维空间坐标信息(x,y,z)进行平面检测,输出位置最低且包含点数最多的平面作为参考地面;对象分割单元,去除地面及以下的点云,基于聚类的方法进行点云分割,得到各个对象;对象跟踪单元,对各个对象进行跟踪,计算其在三位空间的尺寸、运动方向、运动轨迹和运动速度;对象识别单元,对于各个对象,投影得到图像区域,提取RGB图像,基于RGB图像来进行对象识别;语音合成及输出单元,将对象的类型、位置、运动方向和速度合成语音,输出合成语音来通知视障人士。本专利技术同相关的帮忙盲人出行的方法相比,差异的分析如下:本专利技术,采用双目设备具有视场角大、可视范围宽的优点,通过计算得到深度图像转换为6D点云可准确描述户外空间场景。采用嵌入式计算设备,基于3D坐标和彩色信息实时计算得到地面,实时分割得到地面上的各类对象,并进行对象的实时跟踪、对象识别,然后合成语音以一种自然方式告知视障人士。该装置采用了类似于人类进行3D视觉感知的思路来理解户外环境,对光照变化有一定鲁棒性,同时其感知对象的尺寸、轨迹、运动状态和类别信息,为视障人士的自主决策提供了全面的信息。附图说明图1示出根据本专利技术的一种帮助视障人士出行装置的系统图;图2示出根据本专利技术实施例的一种帮助视障人士出行装置的功能模块图;图3示出根据本专利技术实施例的说明人类对3D空间和方向感知示意图;图4示出根据本专利技术实施例的深度图像计算单元输出RGB图和深度图示意图;图5示出根据本专利技术实施例的点云分割为不同的对象3D点云示意图;图6示出根据本专利技术实施例的对象识别的结果示意图。具体实施方式为了使本领域技术人员更好地理解本专利技术,下面结合附图和具体实施方式对本专利技术作进一步详细说明。首先,我们分析了人类进行户外出行的具体行为方式。户外出行面对的是一个真实的3维空间。人类感知3维空间采用的方式是双眼。通过双眼产生距离感和空间感。如图3所示意,人类有了空间感可确定空间的3维坐标,有了方向感。然后,感知地面的存在,地面通常是可行走的区域。看地面上是否有阻挡行走的物体。如果有,判断物体的尺寸、物体的运动方向、轨迹和速度以及物体的类型。根据地面上的这些信息大脑做出判断,我们是前进、留在原地、后退还是闪避。其次,我们分析了视障人士所处的状态,即他们的能力和缺失所在。茫然缺的是视觉感知部分,即其对其不熟悉的户外环境,其不知道3维空间中可行走区域如何、有那些对象存在影响其行走。其听觉能力通常强大,可以快速接收大量语音信息。同时,其具备完整的快速决策和相关行动能力。归纳,视障人士唯一缺乏的是室外的3D感知能力,即缺乏感知对象在何处、对象基本运动状态、对象类型的能力。基于上述分析,本专利技术的核心思路是采用类似于人类双眼的设本文档来自技高网
...
一种帮助视障人士出行的装置

【技术保护点】
1.一种帮助视障人士出行的装置,包括:深度图像计算单元,用于连接双目相机,并基于双目相机采集到的左右彩色图像,计算得到深度图像,同步输出彩色图像和深度图像;点云构建单元,用于基于彩色图像和深度图像,构建点云(x,y,z,r,g,b)信息,即每个点包含3维空间坐标信息和3维彩色信息;地面检测单元,基于点云的3维空间坐标信息(x,y,z)进行平面检测,输出位置最低且包含点数最多的平面作为参考地面;对象分割单元,用于去除地面及以下的点云,并基于聚类的方法进行点云分割,得到各个对象;对象跟踪单元,用于对各个对象进行跟踪,计算其在三位空间的尺寸、运动方向、运动轨迹和运动速度;对象识别单元,用于对于各个对象,投影得到图像区域,提取RGB图像,基于RGB图像来进行对象识别;语音合成及输出单元,用于将对象的类型、位置、运动方向和速度合成语音,输出合成语音来通知视障人士。

【技术特征摘要】
1.一种帮助视障人士出行的装置,包括:深度图像计算单元,用于连接双目相机,并基于双目相机采集到的左右彩色图像,计算得到深度图像,同步输出彩色图像和深度图像;点云构建单元,用于基于彩色图像和深度图像,构建点云(x,y,z,r,g,b)信息,即每个点包含3维空间坐标信息和3维彩色信息;地面检测单元,基于点云的3维空间坐标信息(x,y,z)进行平面检测,输出位置最低且包含点数最多的平面作为参考地面;对象分割单元,用于去除地面及以下的点云,并基于聚类的方法进行点云分割,得到各个对象;对象跟踪单元,用于对各个对象进行跟踪,计算其在三位空间的尺寸、运动方向、运动轨迹和运动速度;对象识别单元,用于对于各个对象,投影得到图像区域,提取RGB图像,基于RGB图像来进行对象识别;语音合成及输出单元,用于将对象的类型、位置、运动方向和速度合成语音,输出合成语音来通知视障人士。2.根据权利要求1的帮助视障人士出行的装置,其特征在于,所述深度计算单元,基于双目相机采集到的左右彩色图像,计算得到深度图像包括:输入左右相机标定的标定文件,其包括了两个相机各自的内参和畸变参数,以及相机的空间位置关系;基于标定文件进行左右相机图像的畸变矫正和对齐;采用校正后的左右图,基于匹配技术计算深度图像。3.根据权利要求1的帮助视障人士出行的装置,其特征在于,所述点云构建单元,用于基于彩色图像和深度图像,构建点云(x,y,z,r,g,b)信息,包括:获取彩色图像和深度图像,基于相机的投影逆变换得到3维空间的3D点云(x,y,z);获取每个点云在彩色图像中对应像素的(r,g,b)信息,得到6D点云信息(x,y,z,r,g,b)。4.根据权利要求1的帮助视障人士出行的装置,其特征在于,所述地面检测单元,基于点云的3维空间坐标信息(x,y,z)进行平面检测,输出位置最低且包含点数最多的平面作为参考地面,包括:得到3D点云(x,y,z),在3D点云中进行平面检测获得多个平面;统...

【专利技术属性】
技术研发人员:曹醒龙
申请(专利权)人:曹醒龙
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1