基于智能眼镜的视障辅助中文文本阅读系统技术方案

技术编号:14662807 阅读:79 留言:0更新日期:2017-02-17 10:07
本发明专利技术提供基于智能眼镜的视障辅助中文文本阅读系统,系统包括高清摄像头、扬声器、蓝牙、安卓手机、头戴式微型显示屏、条状电脑处理器、高性能大容量电池、太阳能电池等。安卓手机包括App控制模块、图像文字识别模块、语言传输模块、蓝牙传输模块等。本发明专利技术不仅可以实现对文档中字符的识别,还能对自然场景文本进行定位、识别。该系统具有定位与识别精度高、成本低廉、鲁棒性好、自动化程度高等特点,可广泛服务于视力欠佳者,为其提供在阅读及生活上的帮助。

【技术实现步骤摘要】

本专利技术属于模式识别与人工智能
,特别是涉及基于智能眼镜的视障辅助中文文本阅读系统
技术介绍
以智能眼镜为代表的可穿戴设备极大拓宽了消费电子产品市场的规模。谷歌公司于2012年发布的谷歌眼镜受到了业界的广泛关注,极大激发了业界对可穿戴设备的兴趣,掀起了可穿戴技术革新的浪潮。众多科技龙头企业和初创团队纷纷紧跟潮流,Facebook以20亿美元的天价并购了Oculus,三星内部将Gearglass视为重点项目,微软在2015年1月发布的Hololens更将智能眼镜的发展推向了又一个高潮,该款全息眼镜将虚拟与现实有机结合,实现了更丰富的交互性。预计在未来的几年内,智能眼镜将成为可穿戴设备市场中应用最为广泛的产品之一。对智能眼镜来说,目前最大的挑战是如何实现更好的交互性能,能否有效提升交互效率,直接关系着智能眼镜能否大规模进入消费市场。以语音控制为例,开发者必须考虑可能出现的各种情况,例如不同语种和方言的差异。随着种类丰富的可穿戴产品的不断推出,可穿戴设备市场的规模不断扩大,产业的活跃度得到了极大提升。在可预见的未来,可穿戴产品极有可能成为继平板电脑和智能手机后,全球科技产业新的爆发增长点。
技术实现思路
本专利技术旨在提升视力不佳者的生活质量,借助智能眼镜实现包括文本识别、语音传输在内的多种功能,提供基于智能眼镜的视障辅助中文文本阅读系统。该系统采用高清摄像头进行文本图像采集,能够快速、精确地提取和识别文字信息,并且将识别出来的文本信息用语音方式反馈给使用者。本专利技术采用的技术方案如下。基于智能眼镜的视障辅助中文文本阅读系统,其包括高清摄像头、扬声器、蓝牙、安卓手机、头戴式微型显示屏、条状电脑处理器、高性能大容量电池和太阳能电池;所述包括高性能大容量电池、太阳能电池、高清摄像头、扬声器、蓝牙、头戴式微型显示屏均位智能眼睛中并分别与条状电脑处理器连接,安卓手机通过自身的蓝牙功能与所述蓝牙连接,高性能大容量电池和太阳能电池为系统的各构成部分供电;所述高清摄像头用于实现自然场景图像的采集,并将图像传输到智能眼镜中保存;使用者只需带上眼镜,打开眼镜开关,由智能眼镜的图像采集模块触发摄像头,进行自然场景图像采集;所述蓝牙实现与手机的短距离通信,使用者打开手机蓝牙模块,与智能眼镜的蓝牙配对,通过手机端App发送操作命令给智能眼镜;所述扬声器实现将场景文本识别结果传输给使用者;所述安卓手机实现对智能眼镜的控制,通过发送指令操作智能眼镜;所述头戴式微型显示屏,实现对处理后信息的投放,便于使用者观看;所述条状电脑处理器,对图像信息进行处理并控制系统中各构成部分的工作。进一步地,所述安卓手机包括App控制模块、图像文字识别模块、语言传输模块和蓝牙传输模块;通过手机上的蓝牙模块与智能眼镜进行通信,其中App控制模块上的功能包括开启、关闭智能眼镜和选择省电模式、工作模式;安卓手机的图像文字识别模块对自然场景图像中的文本进行处理;图像文字识别模块采用了端对端的文本识别方法进行自然场景文本的识别,其中端对端是针对场景文字识别中文本检测与字符识别的关系而言;图像文字识别模块首先基于滑动窗口对图像进行分割,利用卷积神经网络CNN模型进一步识别分割区域中是否包含文本信息,图像文字识别模块还对输入的原图像进行归一化和随机变形处理,用以增强定位效果,将处理后的图像输入卷积神经网络CNN模型,该卷积神经网络CNN模型结构为:第一层卷积层,采用5*5大小的卷积核;第一max_pooling层,采用2*2的核,第二层卷积层,采用3*3的卷积核;第二max_pooling层,采用2*2的核,随后的三、四、五卷积层,都采用3*3的卷积核;第五max_pooling层,采用2*2的核;第一层全连接:4096维,将第五层max-pooling的输出连接成为一个一维向量,作为该层的输入;第二层全连接:4096维;最后Softmax层:输出为1000;若分割区域中包含文本信息,则判断其周围是否也含有文本信息,将文本信息合并起来,然后使用另一个训练好的CNN卷积模型识别定位的文本区域,该CNN模型与文本定位过程使用的CNN模型相似,最后将识别结果信息返回保存;所述语言传输模块将识别出来的文本用语音的方式传递给使用者,或当使用者开启导航模式时,实时推送给使用者;语言传输模块接入百度语音API,使用中文描素使用者看到的文本;若使用者觉得语音模块意义不大,那也能在App上关闭语音功能或者在智能眼睛上关闭语音功能按钮;手机的蓝牙传输模块通过对系统的蓝牙进行数据传输,完成与手机的通信功能。进一步地,使用者将通过安卓手机App控制模块或者操作智能眼镜来选择模式,模式有两种状态,一种是待机模式,就是会关闭所有的智能功能,在这种状态下,智能眼镜和普通镜一样;当选择在工作模式的状态下,使用者能自主选择关闭或者打开智能眼镜的任何一个功能;然后系统根据使用者的选择,调整智能眼镜的功能,智能眼镜对外部输入的信息进行处理,处理的信息包括图像信息、位置信息;信息处理完成后,把输出的结果呈现给使用者。进一步地,图像处理模块接收到自然场景图像后,将利用滑动窗口分割图像、滑动窗口的大小为16*16,对整张图片从起点开始进行分割,利用训练好的文本定位模型对图像进行识别,判断是否含有文本信息,如果有,再对相邻区域进行判断,如果有,就对这两个图像信息进行合并,直至合并区域超过阈值。然后借助之前训练的识别模型对合并后的区域进行,最后将结果输出给使用者。本专利技术与现有智能眼镜的设计相比,具有如下优点:(1)利用高清摄像头进行自然场景图像的采集,蓝牙传输,系统结构简单,使用方便,硬件成本低。不同的智能眼镜有其相应的配套功能,同时,为了保证系统运行速度,同种智能眼镜在不同工作模式下可移除不必要的功能触发和后台运行,有效减少系统功耗,增强系统使用效率。(2)由于加入了图像文本识别模块,本专利技术在特定的场合应用具有极大的优势,视力不佳者使用这样的专利技术,可直接以语音方式获取识别结果,或者借助本专利技术来实现环境感知及定位,为出行带来极大的便利。(3)本专利技术具备价格低廉、性价比高、实用性强、适应性广等特点,在可穿戴产品市场上具备一定的竞争力,能够推动可穿戴设备进一步发展。附图说明图1是实例中基于智能眼镜的视障辅助中文文本阅读系统的工作流程图。图2是实例中的文本识别流程图。具体实施方式下面结合附图对本专利技术作进一步具体地描述,但本专利技术的实施方式不限于此。基于智能眼镜的视障辅助中文文本阅读系统,包括高清摄像头、扬声器、蓝牙、安卓手机、头戴式微型显示屏、条状电脑处理器、高性能大容量电池和太阳能电池;所述包括高性能大容量电池、太阳能电池、高清摄像头、扬声器、蓝牙、头戴式微型显示屏均位智能眼睛中并分别与条状电脑处理器连接,安卓手机通过自身的蓝牙功能与所述蓝牙连接,高性能大容量电池和太阳能电池为系统的各构成部分供电。所述高清摄像头实现自然场景图像的采集,并将图像传输到高性能智能眼镜中保存。使用者只需带上眼镜,打开眼镜开关,由图像采集模块触发摄像头,进行自然场景图像采集,并保存到系统中。所述蓝牙实现与手机的短距离通信,使用者打开手机蓝牙模块,与智能眼镜的蓝牙配对,通过手机端App发送相关的操作给智能眼镜。所述扬声器实现将场景文本识本文档来自技高网...
基于智能眼镜的视障辅助中文文本阅读系统

【技术保护点】
基于智能眼镜的视障辅助中文文本阅读系统,其特征在于包括高清摄像头、扬声器、蓝牙、安卓手机、头戴式微型显示屏、条状电脑处理器、高性能大容量电池和太阳能电池;所述包括高性能大容量电池、太阳能电池、高清摄像头、扬声器、蓝牙、头戴式微型显示屏均位智能眼睛中并分别与条状电脑处理器连接,安卓手机通过自身的蓝牙功能与所述蓝牙连接,高性能大容量电池和太阳能电池为系统的各构成部分供电;所述高清摄像头用于实现自然场景图像的采集,并将图像传输到智能眼镜中保存;使用者只需带上眼镜,打开眼镜开关,触发高清摄像头,进行自然场景图像采集;所述蓝牙实现与手机的短距离通信,使用者打开手机蓝牙模块,与智能眼镜的蓝牙配对,通过手机端App发送操作命令给智能眼镜;所述扬声器实现将场景文本识别结果传输给使用者;所述安卓手机实现对智能眼镜的控制,通过发送指令操作智能眼镜;所述头戴式微型显示屏,实现对处理后信息的投放,便于使用者观看;所述条状电脑处理器,对图像信息进行处理并控制系统中各构成部分的工作。

【技术特征摘要】
1.基于智能眼镜的视障辅助中文文本阅读系统,其特征在于包括高清摄像头、扬声器、蓝牙、安卓手机、头戴式微型显示屏、条状电脑处理器、高性能大容量电池和太阳能电池;所述包括高性能大容量电池、太阳能电池、高清摄像头、扬声器、蓝牙、头戴式微型显示屏均位智能眼睛中并分别与条状电脑处理器连接,安卓手机通过自身的蓝牙功能与所述蓝牙连接,高性能大容量电池和太阳能电池为系统的各构成部分供电;所述高清摄像头用于实现自然场景图像的采集,并将图像传输到智能眼镜中保存;使用者只需带上眼镜,打开眼镜开关,触发高清摄像头,进行自然场景图像采集;所述蓝牙实现与手机的短距离通信,使用者打开手机蓝牙模块,与智能眼镜的蓝牙配对,通过手机端App发送操作命令给智能眼镜;所述扬声器实现将场景文本识别结果传输给使用者;所述安卓手机实现对智能眼镜的控制,通过发送指令操作智能眼镜;所述头戴式微型显示屏,实现对处理后信息的投放,便于使用者观看;所述条状电脑处理器,对图像信息进行处理并控制系统中各构成部分的工作。2.根据权利要求1所述的基于智能眼镜的视障辅助中文文本阅读系统,其特征在于:所述安卓手机包括App控制模块、图像文字识别模块、语言传输模块和蓝牙传输模块;通过手机上的蓝牙模块与智能眼镜进行通信,其中App控制模块上的功能包括开启、关闭智能眼镜和选择省电模式、工作模式;安卓手机的图像文字识别模块对自然场景图像中的文本进行处理;图像文字识别模块采用了端对端的文本识别方法进行自然场景文本的识别,其中端对端是针对场景文字识别中文本检测与字符识别的关系而言;图像文字识别模块首先基于滑动窗口对图像进行分割,利用卷积神经网络CNN模型进一步识别分割区域中是否包含文本信息,图像文字识别模块还对输入的原图像进行归一化和随机变形处理,用以增强定位效果,将处理后的图像输入卷积神经网络CNN模型,该卷积神经网络CNN模型结构为:第一层卷积层,采用5*5大小的卷积核;第一max_pooling层,采用2*2的核,第二层卷积层,采用3*3的卷积核;第二m...

【专利技术属性】
技术研发人员:高学饶钦程
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1