当前位置: 首页 > 专利查询>韶关学院专利>正文

一种基于OCR和TTS的视障者阅读装置制造方法及图纸

技术编号:30064843 阅读:23 留言:0更新日期:2021-09-15 11:17
本实用新型专利技术涉及一种基于OCR和TTS的视障者阅读装置,包括:微电脑单元、语音识别单元、摄像头以及语音播放器;所述微电脑单元分别与所述语音播放器、所述摄像头以及所述语音识别单元电连接;所述语音识别单元用于识别语音指令,所述语音指令包括阅读指令,所述语音识别单元还用于将所述阅读指令发送给所述微电脑单元;所述微电脑单元用于根据所述阅读指令,驱动所述摄像头对待阅读文字进行抓拍,得到文字图像;所述微电脑单元还用于对所述文字图像进行文字识别,得到文本数据,并根据所述文本数据得到语音流,以及将所述语音流发送给所述语音播放器进行播放。本实用新型专利技术所述的基于OCR和TTS的视障者阅读装置操作简易且阅读效率高。率高。率高。

【技术实现步骤摘要】
一种基于OCR和TTS的视障者阅读装置


[0001]本技术涉及电子阅读设备
,特别是涉及一种基于OCR和TTS的视障者阅读装置。

技术介绍

[0002]对于视力障碍者来说,阅读有两种方式,要么依照传统的方式,通过盲文来阅读,要么通过盲人阅读器或读屏软件等工具来进行电子阅读。对于前者,视力障碍者仅能阅读已经翻译成盲文的阅读资料,资料来源有限、价格昂贵,且阅读效率低;对于后者,现今市场上的盲人阅读器必须首先导入电子书籍,并以此作为阅读来源,在时间上存在一定滞后性;而读屏软件则仅能读取电脑屏幕上的文字,对于海量的纸质文件则无从下手,对于视力障碍者来说体验不佳。

技术实现思路

[0003]基于此,本技术的目的在于,提供一种基于OCR和TTS的视障者阅读装置,视障者可以通过语音控制来触发装置进行对待阅读的文字拍照,对照片进行文字识别,最后合成语音播放出来,其操作简易且阅读效率高。
[0004]一种基于OCR和TTS的视障者阅读装置,包括:
[0005]微电脑单元、语音识别单元、摄像头以及语音播放器;
[0006]所述微电脑单元分别与所述语音播放器、所述摄像头以及所述语音识别单元电连接;
[0007]所述语音识别单元用于识别语音指令,所述语音指令包括阅读指令,所述语音识别单元还用于将所述阅读指令发送给所述微电脑单元;
[0008]所述微电脑单元用于根据所述阅读指令,驱动所述摄像头对待阅读文字进行抓拍,得到文字图像;
[0009]所述微电脑单元还用于对所述文字图像进行文字识别,得到文本数据,并根据所述文本数据得到语音流,以及将所述语音流发送给所述语音播放器进行播放;其中,所述语音流记载有所述待阅读文字的内容。
[0010]本技术所述的基于OCR和TTS的视障者阅读装置,通过语音进行控制,最后以语音播放形式读出待阅读的文字,便于视障者操作,且阅读效率高。
[0011]进一步地,还包括服务器,所述微电脑单元与所述服务器信号连接;
[0012]所述微电脑单元还用于将所述文本数据发送给所述服务器;
[0013]所述服务器用于通过百度语音合成API根据所述文本数据得到所述语音流,并将所述语音流发送给所述微电脑单元。
[0014]进一步地,所述微电脑单元包括OCR模块,所述OCR模块用于通过谷歌的开源OCR算法对所述文字图像进行文字识别。
[0015]进一步地,所述语音识别单元包括ASR管理模块以及ASR模块;
[0016]所述ASR管理模块用于对语音指令的声纹信息进行学习并记录;
[0017]所述ASR模块用于根据所述记录的声纹信息对语音指令进行识别并将识别结果发送给所述ASR管理模块;
[0018]所述ASR管理模块还用于将所述识别结果发送给所述微电脑单元。
[0019]进一步地,还包括手势识别模块,所述手势识别模块与所述微电脑单元电连接;
[0020]所述手势识别模块用于通过对预设的手势进行识别,并产生阅读指令,以及将所述阅读指令发送给所述微电脑单元。
[0021]进一步地,所述微电脑单元包括还用于对所述文字图像进行边缘检测算法处理或者二值化算法处理,使所述文字图像成像内容更加清晰。
[0022]进一步地,所述语音识别单元还包括麦克风,所述麦克风设有隔音棉,所述隔音棉仅在一个方向预留一个收音孔。
[0023]进一步地,还包括LED灯,所述LED灯通过继电器与所述语音识别单元电连接;
[0024]所述语音识别单元还用于根据所述语音指令的识别结果驱动所述LED灯打开或关闭。
[0025]进一步地,还包括机箱,所述机箱主体材料为铝型材,所述机箱的外壳为轻质雪佛板;
[0026]所述LED灯为一灯带,环绕设置在所述机箱中;
[0027]所述机箱设有感应口、阅读区和密封区域;
[0028]所述感应口用于给用户进行手势感应操作;
[0029]所述密封区域用于收纳所述微电脑单元、语音播放器、以及语音识别单元,以保护电路并防止用户误操作;
[0030]所述阅读区用于放置待阅读的文件。
[0031]进一步地,所述微电脑单元为树莓派3B;所述ASR管理模块为STC89C52单片机;所述ASR模块为LD3320语音识别芯片;所述手势识别模块为E18

D80NK红外感应器。
[0032]为了更好地理解和实施,下面结合附图详细说明本技术。
附图说明
[0033]图1为本技术实施例一提供的一种基于OCR和TTS的视障者阅读装置的结构框图;
[0034]图2为本技术实施例二提供的一种基于OCR和TTS的视障者阅读装置的结构框图图。
具体实施方式
[0035]实施例一
[0036]请参阅图1,本技术实施例一提供的一种基于OCR和TTS的视障者阅读装置(以下简称本装置)包括微电脑单元10、语音识别单元20、摄像头30、语音播放器40、手势识别模块50、LED灯60以及显示屏70,所述微电脑单元10分别与所述语音识别单元20、所述摄像头30、所述语音播放器40、手势识别模块50以及显示屏70电连接,所述LED灯60与所述语音识别单元20电连接。
[0037]所述微电脑单元10具有文字识别功能以及语音获取功能。
[0038]其中,所述文字识别功能指对包含文字内容的文字图像进行文字识别,得到文本数据。
[0039]在一个实施例中,所述微电脑单元10采用OCR(Optical Character Recognition,光学字符识别)技术来实现文字识别,其通过识别软件将图像中的文字转换成文本格式。传统的技术OCR基于数字图像处理和传统的机器学习等方法对图像进行处理和特征提取,然而图像模糊和扭曲等问题使其识别效果极差。
[0040]在一个优选的实施例中,为了提高识别率,在进行文字识别之前对文字图像进行预处理。所述预处理过程包括:通过阈值分割法和/或边缘检测算法对文字图像上的每个像素进行处理;通过高斯滤波算法对其进行除噪,使得成像内容更加清晰。
[0041]在一个优选的实施例中,所述微电脑单元10通过开源算法OPENCV对图像进行预处理,并通过谷歌开源的Tesseract

OCR引擎来进行文字识别。相对于传统的模板匹配算法和级联器,通过所述Tesseract

OCR引擎训练的模型,可以识别多种格式的文字图像并将其转化为文本数据,且所述Tesseract

OCR引擎支持60多种语言,方便视障者对不同语言阅读时的无缝衔接。
[0042]所述语音获取功能指根据所述文本数据得到语音流,并将所述语音流发送给所述播放器40,控制所述播放器40对所述语音流进行播放。
[0043]具体地,所述微电脑单元10采用TTS(Text To Speech,从文本到语音)技术来本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR和TTS的视障者阅读装置,其特征在于,包括:微电脑单元、语音识别单元、摄像头以及语音播放器;所述微电脑单元分别与所述语音播放器、所述摄像头以及所述语音识别单元电连接;所述语音识别单元用于识别语音指令,所述语音指令包括阅读指令,所述语音识别单元还用于将所述阅读指令发送给所述微电脑单元;所述微电脑单元用于根据所述阅读指令,驱动所述摄像头对待阅读文字进行抓拍,得到文字图像;所述微电脑单元还用于对所述文字图像进行文字识别,得到文本数据,并根据所述文本数据得到语音流,以及将所述语音流发送给所述语音播放器进行播放;其中,所述语音流记载有所述待阅读文字的内容。2.根据权利要求1所述的基于OCR和TTS的视障者阅读装置,其特征在于:还包括服务器,所述微电脑单元与所述服务器信号连接;所述微电脑单元还用于将所述文本数据发送给所述服务器;所述服务器用于通过百度语音合成API根据所述文本数据得到所述语音流,并将所述语音流发送给所述微电脑单元。3.根据权利要求2所述的基于OCR和TTS的视障者阅读装置,其特征在于:所述微电脑单元包括OCR模块,所述OCR模块用于通过谷歌的开源OCR算法对所述文字图像进行文字识别。4.根据权利要求2所述的基于OCR和TTS的视障者阅读装置,其特征在于:所述语音识别单元包括ASR管理模块以及ASR模块;所述ASR管理模块用于对语音指令的声纹信息进行学习并记录;所述ASR模块用于根据所述记录的声纹信息对语音指令进行识别并将识别结果发送给所述ASR管理模块;所述ASR管理模块还用于将所述识别结果发送给所述微电脑单元。5.根据权利要求4所述的基于OCR和TTS的视障...

【专利技术属性】
技术研发人员:张德钱李宇航廖斌强丁凡杨森泉
申请(专利权)人:韶关学院
类型:新型
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1