一种基于CNN/LSTM的盲人辅助视觉系统技术方案

技术编号:21116413 阅读:145 留言:0更新日期:2019-05-16 09:11
一种基于CNN/LSTM的盲人辅助视觉系统,包括:图像采集装置,实时采集使用者周围图像;控制系统,搭载使用大量带标注的图片预训练的深度神经网络,实时翻译出所处场景中包含的信息;语音播报系统,以语音形式播报所述信息,本发明专利技术克服了传统导盲杖、导盲犬和导盲眼镜的不便之处,同时还能丰富盲人的感官,使导盲不仅仅只是提示障碍物距离,更多的是提供一个可被感知到的世界,照顾盲人心理感受,其具有结构轻巧、方便、实时性强、精度高、成本低、便于携带,无需联网等优点。

A Blind Auxiliary Vision System Based on CNN/LSTM

【技术实现步骤摘要】
一种基于CNN/LSTM的盲人辅助视觉系统
本专利技术属于人工智能
,涉及辅助视觉系统,特别涉及一种基于CNN/LSTM的盲人辅助视觉系统。
技术介绍
在现代社会中,盲人或因病暂时失明者仍然占据社会人口中的很大一部分。其中,大多数盲人采用传统的导盲杖,导盲犬等来感知包括障碍物等的周围环境信息。但传统的导盲方式往往效率低下,导盲杖使用不便,获取周围信息时很大程度上依赖盲人自身的感觉,同时导盲杖作用范围有限,只能探知到身前一小片区域内的障碍物信息,并不能感知到完整的外部环境。导盲犬可以帮助盲人快速躲避障碍物,避免一些突发情况。但是,由于导盲犬往往需要选用特定的犬种对其进行专业训练,完成训练后才能担任导盲任务。这一训练过程繁复,耗时漫长,需要高额的费用,很难由个人承担。在盲人带着导盲犬上街时,不可避免得会影响路上的行人。而且犬科动物天性很难被一段时间的训练所泯灭,盲人需要对其进行饲养,训练,日常活动时也需要对导盲犬加以控制。因此,导盲犬不能完全满足盲人日常活动的导盲需求。市面上还有一种导盲工具,是一种基于集成电路超声波的导盲眼镜。由电子盒和眼镜两部分组成,眼镜上装有两只超声换能器和一只耳塞机,换能器能够向前方发射和接收反射回来的超声脉冲波,盲人通过耳机发出的声音变化而感知前方的障碍物。导盲眼镜具有体积小,反应灵敏和方向正确的优点。但导盲眼镜价格昂贵,且只能感知到前方障碍物与自己的距离,不能准确得知障碍物的位置信息和属性。另外,在使用导盲眼镜时,由于是通过耳机发出不同的声音来提醒盲人,在路上行走时,必须时刻注意耳机里的声音,有可能因为注意力不集中而造成其他危险。并且,导盲眼镜在使用之前需要选择距离挡,不同档位能探测的距离不同。但有些时候盲人本身并不能准确判断自己具体是处在怎样一个位置。因此,超声波导盲眼镜也有很多不便之处。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于CNN/LSTM的盲人辅助视觉系统,使用人工智能克服了传统导盲杖、导盲犬和导盲眼镜的不便之处,同时还能丰富盲人的感官,使导盲不仅仅只是提示障碍物距离,更多的是提供一个可被感知到的世界,照顾盲人心理感受,其具有结构轻巧、方便、实时性强、精度高、成本低、便于携带,无需联网等优点。为了实现上述目的,本专利技术采用的技术方案是:一种基于CNN/LSTM的盲人辅助视觉系统,包括:图像采集装置,实时采集使用者周围图像;控制系统,搭载使用大量带标注的图片预训练的深度神经网络,实时翻译出所处场景中包含的信息;语音播报系统,以语音形式播报所述信息。所述图像采集装置为便携式相机,所述图像采集装置、控制系统和语音播报系统集成为一体,其中控制系统采用嵌入式芯片。所述翻译出的所处场景中包含的信息为当前场景中事物及各种事物之间的关系,以文字信息的形式输出。所述深度神经网络使用深度卷积神经网络,采用带有标注的数据集对神经网络进行训练,使用Dropout算法对深度卷积神经网络进行优化,再使用空洞卷积代替池化层;采用长短时记忆网络(LSTM)对深度卷积神经网络输出的特征图进行翻译,同时使用BPTT算法更新LSTM单元参数,最终输出数据集中图片标注的文字信息,得到一个能将图片信息翻译成文字信息的预训练好的深度神经网络。所述深度卷积神经网络为VGG16,所述数据集为MicrosoftCOCO数据集。在训练阶段,本专利技术使用深度卷积神经网络对数据集中作为训练集的部分进行处理,将图像转换为一个长度固定的特征向量,使用Dropout算法优化卷积神经网络,加速深度卷积神经网络的收敛,所述使用空洞卷积代替池化层是在卷积时向卷积核元素之间塞入空格;所述深度卷积神经网络输出的特征图与单词嵌入式向量拼接在一起,共同组成一个多模特征,送入长短时记忆网络LSTM进行翻译。在测试阶段,本专利技术使用数据集中剩下的数据作为测试集,对训练好的网络进行测试,由LSTM生成一个单词序列的概率矩阵,矩阵中每个概率向量中最大的一个对应的单词即为预测单词,按顺序组合在一起,生成描述句子。一个单词表示为一个onehot矩阵,即每一维有且只有一个值为1的元素,其余元素均为0。字典中的每一个单词均分配到一个编号。向量的长度等于字典的长度。由于用于训练的图片自带标签,因此将这些标签中的单词转化为onehot向量,将这些向量拼接为一个一维长向量,与对应图片的特征图组合起来,形成一个多模特征。所述语音播报系统采用文字转语音软件,将深度神经网络翻译出的文字信息转化为语音,通过扩音器或耳机播放。与现有技术相比,本专利技术通过使用大量带标注的图片预训练的深度神经网络,实时翻译出所处场景中包含的信息。深度神经网络输出一些当前场景中事物(包括人,动物,其他物体)及各种事物之间的关系的文字信息,再由语音播报系统将其转换成盲人能够理解的语音信息。具有可靠,实时性强,体积小,成本低,精度高等优点,可以语音的方式帮助盲人快速获取当前所处位置的环境信息。附图说明图1是本专利技术辅助视觉实现流程图。具体实施方式下面结合附图和实施例详细说明本专利技术的实施方式。本专利技术一种基于CNN/LSTM的盲人辅助视觉系统,包括:图像采集装置,实时采集使用者周围图像,可采用小型的便携式相机实现;控制系统,可采用嵌入式芯片,搭载使用大量带标注的图片预训练的深度神经网络,实时翻译出所处场景中包含的事物(人、动物以及其他常见物体等)及各种事物之间的关系信息,以文字信息的形式输出;语音播报系统,选择语音合成软件,例如,可以选用科大讯飞公司的语音合成软件,以盲人可以理解的语音形式播报所述文字信息,通过扩音器或耳机使盲人实时获取所处环境中包含的信息,使得盲人可以快速获取周围的人,车,障碍物等环境信息及各种事物之间的关联。上述的图像采集装置、控制系统和语音播报系统可集成为一体。本专利技术中,深度神经网络使用深度卷积神经网络VGG16,采用带有标注的MicrosoftCOCO数据集对神经网络VGG16进行训练,使用Dropout算法对深度卷积神经网络VGG16进行优化,再使用空洞卷积代替池化层;采用长短时记忆网络(LSTM)对深度卷积神经网络VGG16输出的特征图进行翻译,同时使用BPTT算法更新LSTM单元参数,最终输出数据集中图片标注的文字信息,得到一个能将图片信息翻译成文字信息的预训练好的深度神经网络。VGG卷积神经网络是牛津大学2014年提出的神经网络模型,其简洁和实用性在图像分类和目标检测任务中都表现出了非常好的结果。VGG16是一个拥有16层网络的模型,它用三个3*3的卷积层叠加来代替传统卷积神经网络7*7的卷积核,在感受野不变的情况下具有更好的特征提取功能和更少的参数。由于其层数深,它的非线性特征也非常好。整个网络模型由5组包含3*3卷积核的卷积层和一个2*2最大池化组成,最后添加三个全连接层,对特征进行进一步处理。Dropout算法是当神经网络在进行前向传导时,让某个神经元的激活值以一定的概率停止工作,可以有效防止网络过拟合,减少训练时间。在卷积神经网络中,为了提取图片特征,往往会采用池化层。但是,随着网络深度的提升,池化层不断作用,图片尺寸越来越小,这样许多细节信息不可避免会丢失。因此采用空洞卷积代替池化层,在参数不变的情况下拓宽感受野,保留图片细节信息本文档来自技高网
...

【技术保护点】
1.一种基于CNN/LSTM的盲人辅助视觉系统,其特征在于,包括:图像采集装置,实时采集使用者周围图像;控制系统,搭载使用大量带标注的图片预训练的深度神经网络,实时翻译出所处场景中包含的信息;语音播报系统,以语音形式播报所述信息。

【技术特征摘要】
1.一种基于CNN/LSTM的盲人辅助视觉系统,其特征在于,包括:图像采集装置,实时采集使用者周围图像;控制系统,搭载使用大量带标注的图片预训练的深度神经网络,实时翻译出所处场景中包含的信息;语音播报系统,以语音形式播报所述信息。2.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统,其特征在于,所述图像采集装置为便携式相机,所述图像采集装置、控制系统和语音播报系统集成为一体,其中控制系统采用嵌入式芯片。3.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统,其特征在于,所述翻译出的所处场景中包含的信息为当前场景中事物及各种事物之间的关系,以文字信息的形式输出。4.根据权利要求1所述基于CNN/LSTM的盲人辅助视觉系统,其特征在于,所述深度神经网络使用深度卷积神经网络,采用带有标注的数据集对神经网络进行训练,使用Dropout算法对深度卷积神经网络进行优化,再使用空洞卷积代替池化层;采用长短时记忆网络(LSTM)对深度卷积神经网络输出的特征图进行翻译,同时使用BPTT算法更新LSTM单元参数,最终输出数据集中图片标注的文字信息,得到一个能将图片信息翻译成文字信息的预训练好的深度神经网络。5.根据权利要求4所述基于CNN/LSTM的盲人辅助视觉系统,其特征在于,所述深度卷积神经网络为VGG16,所述数据集为MicrosoftCOCO数据集。6.根据权利要求4或5所述基于CNN/LSTM的盲人辅助视觉系统,其特征在于,使用深度卷积神经网络对数据集中作为训练集的部分进行处理,将图像转换为一个长度固定的特征向量,使用Dropout算法优化卷积神经网络,加速深度卷积神经网络的收敛,所述使用空洞卷积代替池化层是在卷积时向卷积核元素之间塞入空格;所述深度卷积神经网络输出的特征图与单词嵌入式向量拼接在一起,共同组成一个多模特征,送入长短时记忆网络LSTM进行翻译。7.根据权利要求6所述基于CNN/LSTM的盲人辅助视觉系统,其特征在于,卷积计算过程如下:Ij,k,j∈[0,x),k∈[0,x)Wl,m,l∈[0,y),m∈[0,y)其中其中,Ij,k,表示输入图像,Wl,m表示卷积对应的权重,x*x为输入层大小,y*y为卷积核大小,其中,j,k均表示像素点在图像上的位置坐标,l,m为卷积核对应权重的位置,σ为修正线性单元(Relu,rectifiedlinearunit,...

【专利技术属性】
技术研发人员:潘红光雷心宇黄向东温帆张奇米文毓苏涛
申请(专利权)人:西安科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1