【技术实现步骤摘要】
基于文件扫描的文字识别方法、终端及存储装置
[0001]本专利技术涉及在文字扫描领域,尤其涉及一种基于文件扫描的文字识别方法、终端及存储装置。
技术介绍
[0002]当前,计算机输入法主要有五笔输入法、拼音输入法、手写输入法等类型。当我们进行资料收集时,经常需要将大量纸质文档中的文字录入计算机中,如果通过上述几种输入法进行录入,费时又费力。目前,文件扫描是实现文字录入的有效工具。现有技术中,文件扫描通常借助光学字符识别(OCR,Optical Character Recognition)技术,将需要的文字拍摄为图像,然后对图像进行识别,即可实现快速录入。
[0003]但是,使用OCR功能进行文字识别后,在输出扫描的文件时存在以下两个缺陷:
[0004]1、输出TXT文件时,每次识别只能把单词合并成字符串段落,再把段落拼接上换行符,输出到TXT文件中。这种方法,只能获得文字内容,而丢失文字中字体大小、段落缩进、段落行高以及段落之间的间距,无法完整复原原有文档排版结构。
[0005]2.输出PDF文件时, ...
【技术保护点】
【技术特征摘要】
1.一种基于文件扫描的文字识别方法,其特征在于,所述基于文件扫描的文字识别方法包括:S101:获取每个字符的位置,根据所述位置获取所述字符所在的行、段落,并获取所述行、段落的位置信息;S102:获取字符的字高,根据所述字高获取所述字符渲染后的字宽,通过所述字宽、字高以及字符所在行的行宽对所述字高进行修正,并根据修正后的字高获取所述段落中每一个字符的大小;S103:合并段落中的行文本,计算所述段落的行高,根据所述段落的位置信息、字符的大小以及段落的行高输出扫描的文字。2.如权利要求1所述的基于文件扫描的文字识别方法,其特征在于,所述根据所述位置获取所述字符所在的行、段落的步骤具体包括:根据所述位置获取位于同一行/同一段落的字符,根据所述行获取位于同一段落的字符或根据所述段落获取位于同一行的字符。3.如权利要求2所述的基于文件扫描的文字识别方法,其特征在于,所述根据所述位置获取位于同一行的字符的步骤具体包括:根据所述位置获取所述字符在垂直于行方向上的排序,根据所述排序遍历所述字符,判断所述字符与上一个字符在垂直于行方向上的距离以及高度差是否均小于第一预设值;若是,则确定所述字符与上一个字符位于同一行;若否,则确定所述字符与上一个字符不位于同一行。4.如权利要求2所述的基于文件扫描的文字识别方法,其特征在于,所述根据所述行获取位于同一段落的字符的步骤具体包括:根据所述行在垂直于行方向上的排序遍历所述行,判断所述行与上一行的在垂直于行方向上的距离以及高度差均满足预设条件;若是,则确定所述行与上一行位于同一段落;若否,则确定所述行与上一行不位于同一段落。5.如权利要求1所述的基于文件扫描的文字识别方法,其特征在于,所述根据所述字...
【专利技术属性】
技术研发人员:黄宽议,李高飞,余振中,
申请(专利权)人:广州维梦科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。