一种辅助盲人阅读的文本转换方法及系统技术方案

技术编号:20428244 阅读:40 留言:0更新日期:2019-02-23 09:35
本发明专利技术涉及辅助阅读领域,公开了一种辅助盲人阅读的文本转换方法。包括以下过程:对文字位置检测网络和识别网络分别进行训练;采用训练的文字位置检测网络检测待阅读文字的位置,并通过语音指导算法指导盲人移动视野,以获得不同位置的文字信息;采用训练的文字位置识别网络对不同位置的文字进行识别,并通过文字拼接算法,将不同位置的识别结果拼接成完整语义的内容后转换为语音阅读。本方案使用深度学习进行文字检测与识别,速度快,且在复杂场景下保持较高的精度;使用语音提示实现自动拼接出整个页面的完整内容并进行语音播放,对页面大小没有限制,避免阅读信息不完整对盲人造成困惑。本发明专利技术还公开了一种辅助盲人阅读的文本转换系统。

【技术实现步骤摘要】
一种辅助盲人阅读的文本转换方法及系统
本专利技术涉及辅助阅读
,特别是一种辅助盲人阅读的文本转换方法及系统。
技术介绍
现有的印刷读物都是针对正常人设计的,盲人因其视力缺陷无法阅读,只能看一些翻译成盲文的读物或有声读物来获取信息、学习知识。但这些读物数量非常有限,盲人阅读艰难致文盲率居高不下,他们丧失了最直观的信息获取方式,以至于被边缘化,造成无法融入社会这一严重后果。随着计算机科学的发展,很多人为解决盲人不能像正常人一样阅读印刷品的问题而设计出一系列的产品,其中比较有代表性的方法是浙江大学推出的戴在手指头上的盲人阅读器,将之套在食指上后,直接用它去“触摸”书本等文字信息,扫描仪会自动将掠过的文字扫描识别,然后通过一个点阵将这些文字转换为凸起、凹下的盲文,从而让盲人朋友识别出这些盲文,进而理解其对应文字信息的意思。但是这类阅读器却存在以下问题:盲人看不见,手指的地方不对;或移动的方向错误会出现逻辑错误,让盲人不知道所以然;需要盲人不断地变更手指落点,效率低;而且阅读时对文字大小限制大,对于一些无法触及的文字无法阅读,所以实用性受到很大限制。
技术实现思路
本专利技术所要解决的技术问题是:针对上述存在的问题,提供了一种辅助盲人阅读的文本转换方法及系统。本专利技术采用的技术方案如下:一种辅助盲人阅读的文本转换方法,包括以下过程:步骤1,对文字位置检测网络和识别网络分别进行训练;步骤2,采用训练的文字位置检测网络检测待阅读文字的位置,并通过语音指导算法指导盲人移动视野,以获得不同位置的文字信息;步骤3,采用训练的文字位置识别网络对不同位置的文字进行识别,并通过文字拼接算法,将不同位置的识别结果拼接成完整语义的内容后转换为语音阅读。进一步的,所述语音指导算法的具体过程为:A、将接受到的视频帧进行文字位置检测,计算文本特征并得到视频帧内所有文本行区域的定位框;B、对检测输出的定位框进行后处理,去除误判或信息不完整的定位框;C、根据从左到右移动过程中定位框在视频帧中的相对位置,语音指导盲人移动待阅读的读物,使得摄像头视野落于读物的左上角;D、继续语音指导盲人移动待阅读的印刷读物,将视野从左上角开始,从左向右移动,直到读物的右边缘结束,完成一次扫描;E、根据检测定位框在视频帧中的相对位置,指导盲人移动待阅读的读物,使得摄像头视野落于读物未扫描区域的左上角;F、重复步骤D、E,直至扫描完整个待阅读的读物页面。进一步的,所述文字拼接算法的具体方法步骤为:a、初始化一个字符串数组用于存储拼接结果,初始状态下为空;b、将当前视频帧及对应的检测定位框送入识别网络,得到识别的多行文字结果;c、对识别得到的多行文字提取前5个字符,得到待比较的多行文字;d、将待比较的多行文字逐一与存储结果中的字符串的子串进行相似度的比较,得到满足条件的相似子串的位置;e、将视频帧的文字结果追加到相应位置;f、重复步骤b、c、d、e,直至扫描完整个待阅读的读物页面。本专利技术还公开了一种辅助盲人阅读的文本转换系统,包括:检测网络训练单元和识别网络训练单元,用于对文字位置检测网络和识别网络分别进行训练;文字信息获取单元,用于采用训练的文字位置检测网络检测待阅读文字的位置,并通过语音指导算法指导盲人移动视野,以获得不同位置的文字信息;语音转换单元,采用训练的文字位置识别网络对不同位置的文字进行识别,并通过文字拼接算法,将不同位置的识别结果拼接成完整语义的内容后转换为语音阅读。进一步的,所述所述文字信息获取单元还包括语音指导算法单元,用于:A、将接受到的视频帧进行文字位置检测,计算文本特征并得到视频帧内所有文本行区域的定位框;B、对检测输出的定位框进行后处理,去除误判或信息不完整的定位框;C、根据定位框在视频帧中的相对位置,语音指导盲人移动待阅读的读物,使得摄像头视野落于读物的左上角;D、继续语音指导盲人移动待阅读的印刷读物,将视野从左上角开始,从左向右移动,直到读物的右边缘结束,完成一次扫描;E、根据从左到右移动过程中检测定位框在视频帧中的相对位置,指导盲人移动待阅读的读物,使得摄像头视野落于读物未扫描区域的左上角;F、重复步骤D、E,直至扫描完整个待阅读的读物页面。进一步的,所述语音转换单元还包括文字拼接算法单元,用于:a、初始化一个字符串数组用于存储拼接结果,初始状态下为空;b、将当前视频帧及对应的检测定位框送入识别网络,得到识别的多行文字结果;c、对识别得到的多行文字提取前5个字符,得到待比较的多行文字;d、将待比较的多行文字逐一与存储结果中的字符串的子串进行相似度的比较,得到满足条件的相似子串的位置;e、将视频帧的文字结果追加到相应位置;f、重复步骤b、c、d、e,直至扫描完整个待阅读的读物页面。与现有技术相比,采用上述技术方案的有益效果为:使用深度学习进行文字检测与识别,检测识别速度快,且在复杂场景下都能保持较高的精度;使用语音提示,通过盲人移动读物的页面即可自动拼接出整个页面的完整内容,对阅读材料的页面大小没有限制;可以使用语音播报出具有完整语义的页面文字信息,避免阅读信息不完整对盲人造成困惑;全套系统能够搭载在一块携带性非常高的移动装置上实现。附图说明图1是本专利技术辅助盲人阅读的文本转换方法的流程示意图。图2是本专利技术语音指导算法流程示意图。图3是本专利技术文字拼接算法流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。实施例1如图1所示,一种辅助盲人阅读的文本转换方法,包括以下过程:步骤1,对文字位置检测网络和识别网络分别进行训练;步骤2,采用训练的文字位置检测网络检测待阅读文字的位置,并通过语音指导算法指导盲人移动视野,以获得不同位置的文字信息;步骤3,采用训练的文字位置识别网络对不同位置的文字进行识别,并通过文字拼接算法,将不同位置的识别结果拼接成完整语义的内容后转换为语音阅读。实施例1的辅助盲人阅读的文本转换方法,在检测出文字位置的基础上通过语音交互,指导盲人移动视野以获得不同位置的文字信息,并通过文字拼接算法将不同位置的识别文字结果拼接成具有完整语义的内容后转换为语音阅读。能够搭载在一块携带性非常高的移动装置上实现,并且在低延迟的场景下保持较高的识别精度。实施例2优选地,在实施例1的基础上,如图2所示,所述语音指导算法的具体过程为:A、采用摄像头图像采集模块,实时获取大小为640像素*480像素的视频帧,并将稳定的帧频率输出;将大小为640像素*480像素的视频帧进行文字位置检测,计算文本特征并得到视频帧内所有文本行区域的定位框,每个定位框包含其4个顶点的坐标。B、对检测输出的定位框进行后处理,后处理包括去除短边长小于一定阈值的文字框,本具体实施例采用的是20像素。后处理还包括依次判断每个定位框的4个顶点,如果其存在某个顶点距离输入图像边缘小于50像素,也去除对应的文字框,实现去除误判或信息不完整的定位框;C、根据定位框在视频本文档来自技高网...

【技术保护点】
1.一种辅助盲人阅读的文本转换方法,其特征在于,包括以下过程:步骤1,对文字位置检测网络和识别网络分别进行训练;步骤2,采用训练的文字位置检测网络检测待阅读文字的位置,并通过语音指导算法指导盲人移动视野,以获得不同位置的文字信息;步骤3,采用训练的文字位置识别网络对不同位置的文字进行识别,并通过文字拼接算法,将不同位置的识别结果拼接成完整语义的内容后转换为语音阅读。

【技术特征摘要】
1.一种辅助盲人阅读的文本转换方法,其特征在于,包括以下过程:步骤1,对文字位置检测网络和识别网络分别进行训练;步骤2,采用训练的文字位置检测网络检测待阅读文字的位置,并通过语音指导算法指导盲人移动视野,以获得不同位置的文字信息;步骤3,采用训练的文字位置识别网络对不同位置的文字进行识别,并通过文字拼接算法,将不同位置的识别结果拼接成完整语义的内容后转换为语音阅读。2.如权利要求1所述的辅助盲人阅读的文本转换方法,其特征在于,所述语音指导算法的具体过程为:A、将接受到的视频帧进行文字位置检测,计算文本特征并得到视频帧内所有文本行区域的定位框;B、对检测输出的定位框进行后处理,去除误判或信息不完整的定位框;C、根据从左到右移动过程中定位框在视频帧中的相对位置,语音指导盲人移动待阅读的读物,使得摄像头视野落于读物的左上角;D、继续语音指导盲人移动待阅读的印刷读物,将视野从左上角开始,从左向右移动,直到读物的右边缘结束,完成一次扫描;E、根据检测定位框在视频帧中的相对位置,指导盲人移动待阅读的读物,使得摄像头视野落于读物未扫描区域的左上角;F、重复步骤D、E,直至扫描完整个待阅读的读物页面。3.如权利要求2所述的辅助盲人阅读的文本转换方法,其特征在于,所述文字拼接算法的具体方法步骤为:a、初始化一个字符串数组用于存储拼接结果,初始状态下为空;b、将当前视频帧及对应的检测定位框送入识别网络,得到识别的多行文字结果;c、对识别得到的多行文字提取前5个字符,得到待比较的多行文字;d、将待比较的多行文字逐一与存储结果中的字符串的子串进行相似度的比较,得到满足条件的相似子串的位置;e、将视频帧的文字结果追加到相应位置;f、重复步骤b、c、d、e,直至扫描完整个待阅读的读物页面。4.一种辅助盲人阅读的文本转换系统,其...

【专利技术属性】
技术研发人员:李宏亮孙旭
申请(专利权)人:成都快眼科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1