一种基于CNN/LSTM的盲人辅助视觉系统技术方案

技术编号：21116413 阅读：145 留言：0更新日期：2019-05-16 09:11

一种基于CNN/LSTM的盲人辅助视觉系统，包括：图像采集装置，实时采集使用者周围图像；控制系统，搭载使用大量带标注的图片预训练的深度神经网络，实时翻译出所处场景中包含的信息；语音播报系统，以语音形式播报所述信息，本发明专利技术克服了传统导盲杖、导盲犬和导盲眼镜的不便之处，同时还能丰富盲人的感官，使导盲不仅仅只是提示障碍物距离，更多的是提供一个可被感知到的世界，照顾盲人心理感受，其具有结构轻巧、方便、实时性强、精度高、成本低、便于携带，无需联网等优点。

A Blind Auxiliary Vision System Based on CNN/LSTM

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CNN/LSTM的盲人辅助视觉系统
本专利技术属于人工智能
，涉及辅助视觉系统，特别涉及一种基于CNN/LSTM的盲人辅助视觉系统。
技术介绍
在现代社会中，盲人或因病暂时失明者仍然占据社会人口中的很大一部分。其中，大多数盲人采用传统的导盲杖，导盲犬等来感知包括障碍物等的周围环境信息。但传统的导盲方式往往效率低下，导盲杖使用不便，获取周围信息时很大程度上依赖盲人自身的感觉，同时导盲杖作用范围有限，只能探知到身前一小片区域内的障碍物信息，并不能感知到完整的外部环境。导盲犬可以帮助盲人快速躲避障碍物，避免一些突发情况。但是，由于导盲犬往往需要选用特定的犬种对其进行专业训练，完成训练后才能担任导盲任务。这一训练过程繁复，耗时漫长，需要高额的费用，很难由个人承担。在盲人带着导盲犬上街时，不可避免得会影响路上的行人。而且犬科动物天性很难被一段时间的训练所泯灭，盲人需要对其进行饲养，训练，日常活动时也需要对导盲犬加以控制。因此，导盲犬不能完全满足盲人日常活动的导盲需求。市面上还有一种导盲工具，是一种基于集成电路超声波的导盲眼镜。由电子盒和眼镜两部分组成，眼镜上装有两只超声换能器和一只耳塞机，换能器能够向前方发射和接收反射回来的超声脉冲波，盲人通过耳机发出的声音变化而感知前方的障碍物。导盲眼镜具有体积小，反应灵敏和方向正确的优点。但导盲眼镜价格昂贵，且只能感知到前方障碍物与自己的距离，不能准确得知障碍物的位置信息和属性。另外，在使用导盲眼镜时，由于是通过耳机发出不同的声音来提醒盲人，在路上行走时，必须时刻注意耳机里的声音，有可能因为注意力不集中而造成其他危...

【技术保护点】
1.一种基于CNN/LSTM的盲人辅助视觉系统，其特征在于，包括：图像采集装置，实时采集使用者周围图像；控制系统，搭载使用大量带标注的图片预训练的深度神经网络，实时翻译出所处场景中包含的信息；语音播报系统，以语音形式播报所述信息。

【技术特征摘要】
1.一种基于CNN/LSTM的盲人辅助视觉系统，其特征在于，包括：图像采集装置，实时采集使用者周围图像；控制系统，搭载使用大量带标注的图片预训练的深度神经网络，实时翻译出所处场景中包含的信息；语音播报系统，以语音形式播报所述信息。2.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，所述图像采集装置为便携式相机，所述图像采集装置、控制系统和语音播报系统集成为一体，其中控制系统采用嵌入式芯片。3.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，所述翻译出的所处场景中包含的信息为当前场景中事物及各种事物之间的关系，以文字信息的形式输出。4.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，所述深度神经网络使用深度卷积神经网络，采用带有标注的数据集对神经网络进行训练，使用Dropout算法对深度卷积神经网络进行优化，再使用空洞卷积代替池化层；采用长短时记忆网络(LSTM)对深度卷积神经网络输出的特征图进行翻译，同时使用BPTT算法更新LSTM单元参数，最终输出数据集中图片标注的文字信息，得到一个能将图片信息翻译成文字信息的预训练好的深度神经网络。5.根据权利要求4所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，所述深度卷积神经网络为VGG16，所述数据集为MicrosoftCOCO数据集。6.根据权利要求4或5所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，使用深度卷积神经网络对数据集中作为训练集的部分进行处理，将图像转换为一个长度固定的特征向量，使用Dropout算法优化卷积神经网络，加速深度卷积神经网络的收敛，所述使用空洞卷积代替池化层是在卷积时向卷积核元素之间塞入空格；所述深度卷积神经网络输出的特征图与单词嵌入式向量拼接在一起，共同组成一个多模特征，送入长短时记忆网络LSTM进行翻译。7.根据权利要求6所述基于CNN/LSTM的盲人辅助视觉系统，其特征在于，卷积计算过程如下：Ij，k，j∈[0，x)，k∈[0，x)Wl，m，l∈[0，y)，m∈[0，y)其中其中，Ij，k，表示输入图像，Wl，m表示卷积对应的权重，x*x为输入层大小，y*y为卷积核大小，其中，j，k均表示像素点在图像上的位置坐标，l，m为卷积核对应权重的位置，σ为修正线性单元(Relu，rectifiedlinearunit，...

【专利技术属性】
技术研发人员：潘红光，雷心宇，黄向东，温帆，张奇，米文毓，苏涛，
申请(专利权)人：西安科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人