一种基于决策树的OCR文本还原方法、设备及存储介质技术

技术编号:38861120 阅读:28 留言:0更新日期:2023-09-17 10:03
本发明专利技术提供了一种基于决策树的OCR文本还原方法、设备及存储介质,包括:对OCR识别的文本框进行预处理;提取文本框特征,并基于文本框特征构建决策树;根据决策树,对文本框进行分类与合并,还原文本原始布局。本发明专利技术针对OCR的识别结果进行后处理,通过应用决策树分析文本框的多项特征,识别文本框内容类别:如标题、章节、页码、段落等,然后进行分类与合并,以还原文本的原始布局,避免了OCR识别结果中的文本框被错误分类、排列或重叠的情况,解决了文本内容不连贯、文本的格式和布局容易错乱的问题。题。题。

【技术实现步骤摘要】
一种基于决策树的OCR文本还原方法、设备及存储介质


[0001]本专利技术涉及文字识别
,特别涉及一种基于决策树的OCR文本还原方法、设备及存储介质。

技术介绍

[0002]为进一步提高文档信息的可访问性并方便管理,需要对文档进行文本内容识别,将图像和扫描图中的文本转换为可编辑、可搜索的文本。最早的文档识别技术就是基于OCR方法,它使用光学字符识别技术将文档中的文字提取出来。近年来,随着科学技术的快速发展,渐渐出现了基于深度学习的和基于计算机视觉的文档识别技术。基于深度学习的文档识别技术虽然在图像处理上有了显著进展,但需要大规模的数据集训练,并耗费大量的计算资源和时间。基于计算机视觉的文档识别技术在表格解析上已经被广泛应用,但它也需要消耗大量资源训练,并且对于特殊结构的表格仍可能发生解析错误或丢失部分信息。反观OCR技术具备较高的成熟度和稳定性,可用于多种类型文档,随着算法改进其识别结果准确度高,支持多种语言,还有许多商业和开源引擎可供选择。因此,当前OCR识别技术仍然是最常用的文档识别技术。
[0003]尽管OCR技术的识别准确本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于决策树的OCR文本还原方法,其特征在于,包括:对OCR识别的文本框进行预处理;提取文本框特征,并基于文本框特征构建决策树;根据决策树,对文本框进行分类与合并,还原文本原始布局。2.根据权利要求1所述的基于决策树的OCR文本还原方法,其特征在于,所述预处理包括:对每个文本框进行编号,记录其初始内容;将文本框的所有英文字符转换为小写;去除文本框中的特殊字符。3.根据权利要求2所述的基于决策树的OCR文本还原方法,其特征在于,所述特殊字符包括非数字、非字母、非中文、非标点、非空格的字符。4.根据权利要求2或3所述的基于决策树的OCR文本还原方法,其特征在于,所述提取文本框特征过程包括:提取每个文本框的字数、行数以及在整个文档中的位置;提取每个文本框的长度、宽度以及字体;提取每个文本框中数字比例、字母比例以及包含的关键字。5.根据权利要求4所述的基于决策树的OCR文本还原方法,其特征在于,所述关键字为能表示文本框内容的含义的关键字,通过正则表达式来识别。6.根据权利要求4所述的基于决策树的OCR文本还原方法,其特征在于,所述构建决策树包括:根节点:判断是否包含关键字;是则根据关键字类型对文本框分类,包括:章节节点判断:根据文本框的宽...

【专利技术属性】
技术研发人员:刘法白建亮阎德劲郑大安雷文强向元新熊可欣袁焦丁栋威邓欣顾海燕奂锐谢明华孙国东
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1