一种基于决策树的OCR文本还原方法、设备及存储介质技术

技术编号：38861120 阅读：28 留言：0更新日期：2023-09-17 10:03

本发明专利技术提供了一种基于决策树的OCR文本还原方法、设备及存储介质，包括：对OCR识别的文本框进行预处理；提取文本框特征，并基于文本框特征构建决策树；根据决策树，对文本框进行分类与合并，还原文本原始布局。本发明专利技术针对OCR的识别结果进行后处理，通过应用决策树分析文本框的多项特征，识别文本框内容类别：如标题、章节、页码、段落等，然后进行分类与合并，以还原文本的原始布局，避免了OCR识别结果中的文本框被错误分类、排列或重叠的情况，解决了文本内容不连贯、文本的格式和布局容易错乱的问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于决策树的OCR文本还原方法、设备及存储介质

[0001]本专利技术涉及文字识别
，特别涉及一种基于决策树的OCR文本还原方法、设备及存储介质。

技术介绍

[0002]为进一步提高文档信息的可访问性并方便管理，需要对文档进行文本内容识别，将图像和扫描图中的文本转换为可编辑、可搜索的文本。最早的文档识别技术就是基于OCR方法，它使用光学字符识别技术将文档中的文字提取出来。近年来，随着科学技术的快速发展，渐渐出现了基于深度学习的和基于计算机视觉的文档识别技术。基于深度学习的文档识别技术虽然在图像处理上有了显著进展，但需要大规模的数据集训练，并耗费大量的计算资源和时间。基于计算机视觉的文档识别技术在表格解析上已经被广泛应用，但它也需要消耗大量资源训练，并且对于特殊结构的表格仍可能发生解析错误或丢失部分信息。反观OCR技术具备较高的成熟度和稳定性，可用于多种类型文档，随着算法改进其识别结果准确度高，支持多种语言，还有许多商业和开源引擎可供选择。因此，当前OCR识别技术仍然是最常用的文档识别技术。
[0003]尽管...

【技术保护点】

【技术特征摘要】
1.一种基于决策树的OCR文本还原方法，其特征在于，包括：对OCR识别的文本框进行预处理；提取文本框特征，并基于文本框特征构建决策树；根据决策树，对文本框进行分类与合并，还原文本原始布局。2.根据权利要求1所述的基于决策树的OCR文本还原方法，其特征在于，所述预处理包括：对每个文本框进行编号，记录其初始内容；将文本框的所有英文字符转换为小写；去除文本框中的特殊字符。3.根据权利要求2所述的基于决策树的OCR文本还原方法，其特征在于，所述特殊字符包括非数字、非字母、非中文、非标点、非空格的字符。4.根据权利要求2或3所述的基于决策树的OCR文本还原方法，其特征在于，所述提取文本框特征过程包括：提取每个文本框的字数、行数以及在整个文档中的位置；提取每个文本框的长度、宽度以及字体；提取每个文本框中数字比例、字母比例以及包含的关键字。5.根据权利要求4所述的基于决策树的OCR文本还原方法，其特征在于，所述关键字为能表示文本框内容的含义的关键字，通过正则表达式来识别。6.根据权利要求4所述的基于决策树的OCR文本还原方法，其特征在于，所述构建决策树包括：根节点：判断是否包含关键字；是则根据关键字类型对文本框分类，包括：章节节点判断：根据文本框的宽...

【专利技术属性】
技术研发人员：刘法，白建亮，阎德劲，郑大安，雷文强，向元新，熊可欣，袁焦，丁栋威，邓欣，顾海燕，奂锐，谢明华，孙国东，
申请(专利权)人：中国电子科技集团公司第十研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人