一种基于决策树的OCR文本还原方法、设备及存储介质技术

技术编号:38861120 阅读:12 留言:0更新日期:2023-09-17 10:03
本发明专利技术提供了一种基于决策树的OCR文本还原方法、设备及存储介质,包括:对OCR识别的文本框进行预处理;提取文本框特征,并基于文本框特征构建决策树;根据决策树,对文本框进行分类与合并,还原文本原始布局。本发明专利技术针对OCR的识别结果进行后处理,通过应用决策树分析文本框的多项特征,识别文本框内容类别:如标题、章节、页码、段落等,然后进行分类与合并,以还原文本的原始布局,避免了OCR识别结果中的文本框被错误分类、排列或重叠的情况,解决了文本内容不连贯、文本的格式和布局容易错乱的问题。题。题。

【技术实现步骤摘要】
一种基于决策树的OCR文本还原方法、设备及存储介质


[0001]本专利技术涉及文字识别
,特别涉及一种基于决策树的OCR文本还原方法、设备及存储介质。

技术介绍

[0002]为进一步提高文档信息的可访问性并方便管理,需要对文档进行文本内容识别,将图像和扫描图中的文本转换为可编辑、可搜索的文本。最早的文档识别技术就是基于OCR方法,它使用光学字符识别技术将文档中的文字提取出来。近年来,随着科学技术的快速发展,渐渐出现了基于深度学习的和基于计算机视觉的文档识别技术。基于深度学习的文档识别技术虽然在图像处理上有了显著进展,但需要大规模的数据集训练,并耗费大量的计算资源和时间。基于计算机视觉的文档识别技术在表格解析上已经被广泛应用,但它也需要消耗大量资源训练,并且对于特殊结构的表格仍可能发生解析错误或丢失部分信息。反观OCR技术具备较高的成熟度和稳定性,可用于多种类型文档,随着算法改进其识别结果准确度高,支持多种语言,还有许多商业和开源引擎可供选择。因此,当前OCR识别技术仍然是最常用的文档识别技术。
[0003]尽管OCR技术的识别准确性已经取得了显著的进步,但在文本较为复杂、模糊或扭曲的文本、低分辨率图像等具有挑战性的情况下,识别后的文本可能仍然无法完全保留原始文档的格式和布局,导致识别结果与原文不一致。这时后处理方法就会发挥作用:对于已知样式和模板的文档,可以根据样式规则和模板信息进行还原,但这种方法无法处理格式未知的文档。还可以通过自然语言处理技术,对OCR识别结果进行语义分析和实体识别,提取文本中的关键信息、命名实体、关系等,从而还原原始文档中的语义结构和信息,但这种方法需要耗费大量资源进行模型训练,还需要纳入特定领域的实体知识。所以,当前最常用的OCR文本后处理方法是文本布局分析法,通过分析OCR识别结果中文本块的相对位置关系,对多个文本框进行距离计算或聚类,来还原原始文档的布局结构。然而,目前许多文本布局分析法只关注了文本框的相对位置信息,却很少关注诸如字体、数字比例、特定关键字等其他特征。
[0004]针对现有研究情况,当前面向文档的OCR识别技术后处理方法有如下问题:1.现有的后处理技术对所识别文本结构的还原能力较差,可能让文本被错误地分类或合并,影响识别结果地准确性和连续性;2.缺乏对字体、数字比例、特定关键字等其他多种特征的关注。

技术实现思路

[0005]针对现有技术中存在的问题,提供了一种基于决策树的OCR文本还原方法、设备及存储介质,决策树分析文本框的多项特征,对文本框进行分类和合并,实现了文本还原,可以解决文本框被错误分类、排列或重叠的问题。
[0006]本专利技术采用的技术方案如下: 一种基于决策树的OCR文本还原方法,包括:
对OCR识别的文本框进行预处理;提取文本框特征,并基于文本框特征构建决策树;根据决策树,对文本框进行分类与合并,还原文本原始布局。
[0007]进一步的,所述预处理包括:对每个文本框进行编号,记录其初始内容;将文本框的所有英文字符转换为小写;去除文本框中的特殊字符。
[0008]进一步的,所述特殊字符包括非数字、非字母、非中文、非标点、非空格的字符。
[0009]进一步的,所述提取文本框特征过程包括:提取每个文本框的字数、行数以及在整个文档中的位置;提取每个文本框的长度、宽度以及字体;提取每个文本框中数字比例、字母比例以及包含的关键字。
[0010]进一步的,所述关键字为能表示文本框内容的含义的关键字,例如“图1”,“表2”,“1.1”“2.1”等。这些关键字的格式由专家根据经验制定,可通过正则表达式来识别。
[0011]进一步的,所述构建决策树包括:根节点:判断是否包含关键字;是则根据关键字类型对文本框分类,包括:章节节点判断:根据文本框的宽度、字体、关键字数量,细分章节等级;图表节点判断;根据文本框的字体、位置、关键字特征,确定所属图表;否则直接根据文本框长度、宽度、字体、位置等对文本框进行分类;标题节点判断:文本框宽度最宽,处于页面中最高位置;页码节点判断:若包含关键字“页”“page”,则其余内容均为数字,若不包含关键字,则全为数字;长度小于一行,处于页面中最高或最低位置;段落节点判断:根据数字比例以及字母比例特征,确定段落类型。
[0012]进一步的,所述分类与合并过程包括:将所有文本框按照决策树进行分类;根据文本框编号,复原每个文本框的初始内容以及位置排布;对同一类别内位置相邻、字体一致、宽度相同的文本框进行合并。
[0013]本专利技术第二方面提出了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现上述的基于决策树的OCR文本还原方法。
[0014]本专利技术第三方面提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的基于决策树的OCR文本还原方法。
[0015]与现有技术相比,采用上述技术方案的有益效果为:本专利技术关注了文本框除位置外的多项特征,使用决策树对文本框进行分类再合并,避免了位置相近的文本框被错误分类的情况,能够基于文本的不同类别进行针对性还原。
附图说明
[0016]图1为本专利技术提出的基于决策树的OCR文本还原方法流程图。
[0017]图2为本专利技术一实施例中预处理流程图。
[0018]图3为本专利技术一实施例中特征提取流程图。
[0019]图4为本专利技术一实施例中决策树构建流程图。
[0020]图5为本专利技术一实施例中分类与合并流程图。
具体实施方式
[0021]下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0022]实施例1OCR(optical character recognition,光学字符识别)算法将图像或扫描件中的文字识别为包含文本内容、长度、宽度、位置等特征的文本框,但还需要对文本框进行格式复原才能够流畅地阅读。由于现有的OCR识别过程中容易错误对文本框进行分类或合并,更多的只考虑位置特征而缺乏对更多其他特征的关注,为了解决这个问题,本专利技术实施例提出了一种基于决策树的OCR文本还原方法,针对OCR的识别结果进行后处理,通过应用决策树分析文本框的多项特征,对标题、章节、页码、段落和框图中的文本框进行分类与合并,以还原文本的原始布局,避免了OCR识别结果中的文本框被错误分类、排列或重叠的情况,解决了文本内容不连贯、文本的格式和布局容易错乱的问题。如图1所示,具体方案如下:步骤S101、对OCR识别的文本框进行预处理。
[0023]如图2所示,在本实施例中,预处理主要包括:先对每个文本框进行编号,并记录初始内容,便于后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于决策树的OCR文本还原方法,其特征在于,包括:对OCR识别的文本框进行预处理;提取文本框特征,并基于文本框特征构建决策树;根据决策树,对文本框进行分类与合并,还原文本原始布局。2.根据权利要求1所述的基于决策树的OCR文本还原方法,其特征在于,所述预处理包括:对每个文本框进行编号,记录其初始内容;将文本框的所有英文字符转换为小写;去除文本框中的特殊字符。3.根据权利要求2所述的基于决策树的OCR文本还原方法,其特征在于,所述特殊字符包括非数字、非字母、非中文、非标点、非空格的字符。4.根据权利要求2或3所述的基于决策树的OCR文本还原方法,其特征在于,所述提取文本框特征过程包括:提取每个文本框的字数、行数以及在整个文档中的位置;提取每个文本框的长度、宽度以及字体;提取每个文本框中数字比例、字母比例以及包含的关键字。5.根据权利要求4所述的基于决策树的OCR文本还原方法,其特征在于,所述关键字为能表示文本框内容的含义的关键字,通过正则表达式来识别。6.根据权利要求4所述的基于决策树的OCR文本还原方法,其特征在于,所述构建决策树包括:根节点:判断是否包含关键字;是则根据关键字类型对文本框分类,包括:章节节点判断:根据文本框的宽...

【专利技术属性】
技术研发人员:刘法白建亮阎德劲郑大安雷文强向元新熊可欣袁焦丁栋威邓欣顾海燕奂锐谢明华孙国东
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1