一种基于OCR和TTS的低视力阅读助视系统技术方案

技术编号:12164839 阅读:68 留言:0更新日期:2015-10-08 00:11
本发明专利技术提供一种基于OCR和TTS的低视力阅读助视系统,包括:图像采集模块,用于扫描阅读对象,采集并输出图像;处理模块,包括:OCR文字识别单元,与图像采集模块连接,用于接收图像,对图像进行图像预处理和单字识别,得到图像对应的文本文件;TTS引擎单元,与OCR文字识别单元连接,用于将文本文件转换为音频文件;输出模块,与处理模块连接,用于同步输出文本文件和音频文件。本发明专利技术结合了OCR和TTS技术,通过图像采集模块对阅读对象进行扫描并采集图像,通过处理模块对采集的图像进行处理并最终通过输出模块同步输出文本和对应的音频,从而为用户实现了听读为主、目视辅助的阅读方式,具有使用便捷、缓解眼部疲劳等优点。

【技术实现步骤摘要】

本专利技术涉及电子阅读设备
,尤其涉及一种基于OCR和TTS的低视力阅读助视系统
技术介绍
低视力患者及老年人在阅读书报、文件、说明书等图文时存在不同程度的障碍,传统方式是借助放大镜,但因其仅为光学放大,存在放大倍数有限、边缘变形等问题,因此在欧美等发达国家,基本已淘汰了放大镜,普遍使用电子助视装置等改善低视力人群阅读障碍的高科技产品,但是低视力人群在长时间使用眼睛的状况下会引起视力恶化。随着终端技术、软件技术的发展,特别是智能终端技术、OCR技术与TTS技术的发展,为OCR技术与TTS技术的结合提供了可行性。文字识别技术(Optical Character Recognit1n,简称OCR)即通过光学技术对文字进行识别,是自动识别技术研宄和应用领域中的一种重要技术。它能够将文字自动识别录入到电脑中,适用于建立网络图书馆,将纸质书籍扫描,以文件的形式存入电脑然后通过OCR文字识别软件识别需要的文字就可以文本文件的形式显示。语音合成技术(Text To Speech,简称TTS),涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术。与一些用预先录制的声音文件实现发声的应用程序相比,TTS的发声引擎只有几兆大小,不需要大量的声音文件支持,因此可以节省很大的储存空间,并且可以朗读预先未知的任何语句。现在已经有许多应用软件应用TTS技术实现语音功能,例如一些播音软件可以用来读小说或作校对工作,还可以朗读电子邮件,一些电子词典可以读出单词,还可以用于查询中心自动播放服务信息等。
技术实现思路
在下文中给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术提供一种降低眼部使用频率、同时实现阅读的基于OCR和TTS的低视力阅读助视系统。本专利技术提供一种基于OCR和TTS的低视力阅读助视系统,包括:图像采集模块,用于扫描阅读对象,采集并输出图像;处理模块,包括:OCR文字识别单元,与所述图像采集模块连接,用于接收所述图像,对所述图像进行图像预处理和单字识别,得到所述图像对应的文本文件;TTS引擎单元,与所述OCR文字识别单元连接,用于将所述文本文件转换为音频文件;输出模块,与所述处理模块连接,用于同步输出所述文本文件和所述音频文件。本专利技术提供的基于OCR和TTS的低视力阅读助视系统结合了 OCR文字识别技术和TTS语音识别技术,通过图像采集模块对阅读对象进行扫描并采集图像,通过处理模块对采集的图像进行处理并最终通过输出模块同步显示阅读文本和输出对应的音频,从而为用户实现了听读为主、目视辅助的阅读方式。用户还可通过键盘或触摸屏设置显示模式,例如黑底白字、白底黑字、护眼模式等显示模式,进一步缓解眼部疲劳,实现了辅助低视力患者、老视人群及盲人用户进行阅读的作用。综上所述,本专利技术具有使用便捷、缓解眼部疲劳等优点。【附图说明】参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图1为本专利技术一种基于OCR和TTS的低视力阅读助视系统的一种实施方式的系统结构示意图。图2为本专利技术一种基于OCR和TTS的低视力阅读助视系统的一种优选实施方式的系统结构示意图。图3为本专利技术一种基于OCR和TTS的低视力阅读助视系统的另一种优选实施方式的系统结构示意图。附图标记说明:10图像采集模块20用户输入模块30处理模块50输出模块301OCR文字识别单元303TTS引擎单元501显示单元503音频输出单元【具体实施方式】下面参照附图来说明本专利技术的实施例。在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和处理的表示和描述。图1为本专利技术一种基于OCR和TTS的低视力阅读助视系统的一种实施方式的系统结构示意图。如图1所示,在本实施方式中,本专利技术的基于OCR和TTS的低视力阅读助视系统包括:图像采集模块10,用于扫描阅读对象,采集并输出图像;处理模块30,包括:OCR文字识别单元301,与图像采集模块10连接,用于接收所述图像,对所述图像进行图像预处理和单字识别,得到所述图像对应的文本文件;TTS引擎单元303,与OCR文字识别单元301连接,用于将所述文本文件转换为音频文件;输出模块50,与处理模块30连接,用于同步输出所述文本文件和所述音频文件。具体地,图像采集模块10通常为扫描仪、摄像头或其它具有相同功效的扫描/拍摄设备,通过图像采集模块10将报纸、书籍等阅读对象采集并输入到计算机中,从而实现原稿数字化。OCR识别正确率的前提条件是文档图像的扫描质量较高。恰当地选择扫描分辨率及相关参数、较高的摄像头分辨率,是保证文字图像清楚、特征不丢失的关键。此外,待扫描的阅读对象尽可能地放置端正,以保证预处理检测的倾斜角较小,在进行倾斜校正后,文字图像的变形就较小。这些简单的操作,会使OCR识别正确率有所提高。反之,由于扫描设置不当,文字的断笔过多可能会分检出半个文字的图像,文字断笔和笔画粘连会造成部分特征丢失,在将文字图像的特征与特征库比较时,会使其特征距离加大,识别错误率上升。图像预处理即分检所述接收的图像中的每一个文字图像,以及进行单字识别之前的一些准备工作,包括图像净化处理,即去掉原始图像当前第1页1 2 本文档来自技高网...

【技术保护点】
一种基于OCR和TTS的低视力阅读助视系统,其特征在于,包括:图像采集模块,用于扫描阅读对象,采集并输出图像;处理模块,包括:OCR文字识别单元,与所述图像采集模块连接,用于接收所述图像,对所述图像进行图像预处理和单字识别,得到所述图像对应的文本文件;TTS引擎单元,与所述OCR文字识别单元连接,用于将所述文本文件转换为音频文件;输出模块,与所述处理模块连接,用于同步输出所述文本文件和所述音频文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:高铁塔
申请(专利权)人:北京奥美达科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1