一种基于OCR和TTS的低视力阅读助视系统技术方案

技术编号：12164839 阅读：68 留言：0更新日期：2015-10-08 00:11

本发明专利技术提供一种基于OCR和TTS的低视力阅读助视系统，包括：图像采集模块，用于扫描阅读对象，采集并输出图像；处理模块，包括：OCR文字识别单元，与图像采集模块连接，用于接收图像，对图像进行图像预处理和单字识别，得到图像对应的文本文件；TTS引擎单元，与OCR文字识别单元连接，用于将文本文件转换为音频文件；输出模块，与处理模块连接，用于同步输出文本文件和音频文件。本发明专利技术结合了OCR和TTS技术，通过图像采集模块对阅读对象进行扫描并采集图像，通过处理模块对采集的图像进行处理并最终通过输出模块同步输出文本和对应的音频，从而为用户实现了听读为主、目视辅助的阅读方式，具有使用便捷、缓解眼部疲劳等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电子阅读设备
，尤其涉及一种基于OCR和TTS的低视力阅读助视系统。
技术介绍
低视力患者及老年人在阅读书报、文件、说明书等图文时存在不同程度的障碍，传统方式是借助放大镜，但因其仅为光学放大，存在放大倍数有限、边缘变形等问题，因此在欧美等发达国家，基本已淘汰了放大镜，普遍使用电子助视装置等改善低视力人群阅读障碍的高科技产品，但是低视力人群在长时间使用眼睛的状况下会引起视力恶化。随着终端技术、软件技术的发展，特别是智能终端技术、OCR技术与TTS技术的发展，为OCR技术与TTS技术的结合提供了可行性。文字识别技术(Optical Character Recognit1n，简称OCR)即通过光学技术对文字进行识别，是自动识别技术研宄和应用领域中的一种重要技术。它能够将文字自动识别录入到电脑中，适用于建立网络图书馆，将纸质书籍扫描，以文件的形式存入电脑然后通过OCR文字识别软件识别需要的文字就可以文本文件的形式显示。语音合成技术(Text To Speech，简称TTS)，涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术，是中文信息处理领域的一项前沿技术。与一些用预先录制的声音文件实现发声的应用程序相比，TTS的发声引擎只有几兆大小，不需要大量的声音文件支持，因此可以节省很大的储存空间，并且可以朗读预先未知的任何语句。现在已经有许多应用软件应用TTS技术实现语音功能，例如一些播音软件可以用来读小说或作校对工作，还可以朗读电子邮件，一些电子词典可以读出单词，还可以用于查询中心自动播放服务信息等。
技术实现思路
在下文中给出...

【技术保护点】
一种基于OCR和TTS的低视力阅读助视系统，其特征在于，包括：图像采集模块，用于扫描阅读对象，采集并输出图像；处理模块，包括：OCR文字识别单元，与所述图像采集模块连接，用于接收所述图像，对所述图像进行图像预处理和单字识别，得到所述图像对应的文本文件；TTS引擎单元，与所述OCR文字识别单元连接，用于将所述文本文件转换为音频文件；输出模块，与所述处理模块连接，用于同步输出所述文本文件和所述音频文件。

【技术特征摘要】

【专利技术属性】
技术研发人员：高铁塔，
申请(专利权)人：北京奥美达科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人