文档字号的识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35095484 阅读:19 留言:0更新日期:2022-10-01 16:58
本申请涉及一种文档字号的识别方法、装置、计算机设备、存储介质和计算机程序产品,结合人工智能技术进行计算机视觉识别和处理,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括:获取待处理的文档图片,检测文档图片中各文本行的初始行高度;根据文档图片的文档版面信息确定至少一个待处理的文本块;根据初始行高度确定行高度统计信息,并基于行高度统计信息确定与相应待处理的文本块对应的目标行高度;基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到文档图片中各文本块分别对应的目标字号。采用本方法能够解决出现原本相同字号的标题或段落识别到的字号大小不一的问题。号的标题或段落识别到的字号大小不一的问题。号的标题或段落识别到的字号大小不一的问题。

【技术实现步骤摘要】
文档字号的识别方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种文档字号的识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分。计算机文字识别(Optical Character Recognition,OCR)是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。
[0003]现有技术方案主要通过OCR技术进行文本行检测,并基于OCR的识别结果直接得到文本行的字号。这种方式对于文本行检测精度的依赖较高,文本行字号的识别效果具有比较大的波动性,识别出的字号准确性较低,导致文档还原时出现原本文档字号相同但是还原出的文档字号不同的情况,进而影响文档还原的准确性。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种文档字号的识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]一方面,本申请提供了一种文档字号的识别方法。所述方法包括:
[0006]获取待处理的文档图片,检测所述文档图片中各文本行的初始行高度;
[0007]识别所述文档图片的文档版面信息,并根据所述文档版面信息确定至少一个待处理的文本块,每个待处理的文本块中包括有至少一个相连续的文本行;
[0008]对于任一待处理的文本块,根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,并基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度;
[0009]基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到所述文档图片中各文本块分别对应的目标字号。
[0010]另一方面,本申请还提供了一种文档字号的识别装置。所述装置包括:
[0011]获取模块,用于获取待处理的文档图片,检测所述文档图片中各文本行的初始行高度;
[0012]处理模块,用于识别所述文档图片的文档版面信息,并根据所述文档版面信息确定至少一个待处理的文本块,每个待处理的文本块中包括有至少一个相连续的文本行;
[0013]所述处理模块,还用于对于任一待处理的文本块,根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度;
[0014]输出模块,用于基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到所述文档图片中各文本块分别对应的目标字号。
[0015]另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述文档字号的识别方法的步骤。
[0016]另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文档字号的识别方法的步骤。
[0017]另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述文档字号的识别方法的步骤。
[0018]上述文档字号的识别方法、装置、计算机设备、存储介质和计算机程序产品,通过对文档图片进行检测与识别,得到文档图片中的文本行和文档版面信息,根据文档版面信息对各个文本行进行分组,从而确定待处理的文本块,由此可以并行处理各分组以提高效率,并方便后续的统计分析;基于文本行的初始行高度确定行高度统计信息,再基于行高度统计信息计算得到目标行高度,使得文本块中各个文本行的高度统一,由此,在基于预先设置的字号映射规则得到目标字号时,所得到的各个文本行的字号也相应统一,由此能够解决出现原本相同字号的标题或段落识别到的字号大小不一的问题,文档还原的准确性更高。
附图说明
[0019]图1为一个实施例中文档字号的识别方法的应用环境图;
[0020]图2为一个实施例中文档字号的识别方法的流程示意图;
[0021]图3为一个实施例中文本行的示意图;
[0022]图4为一个实施例中检测框的示意图;
[0023]图5为一个实施例中文档图片包括的文本块的示意图;
[0024]图6为一个实施例中计算行高度统计信息的示意图;
[0025]图7为一个实施例中文档字号的识别方法的架构示意图;
[0026]图8为一个实施例中文档字号的识别方法的处理步骤的流程示意图;
[0027]图9为一个实施例中对文本块的字号进行标记的示意图;
[0028]图10为一个实施例中文档字号的识别装置的结构框图;
[0029]图11为一个实施例中计算机设备的内部结构图。
具体实施方式
[0030]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0031]在文档还原和文档重建等领域,通常需要将非可编辑格式的文档转换成可编辑格式的文档。非可编辑格式例如为PDF(Portable Document Format,可携带文档格式)、图片格式等。图片格式例如包括JPG/JPEG(Joint Photographic Experts Group,联合图像专家组)、PNG(Portable Network Graphics,便携式网络图形)、以及TIF(Tag Image File Format,标签图像文件格式)等。
[0032]对于PDF文档,现有方式中通常是将PDF文档按页逐一转换成文档图片,再通过OCR技术识别文档图片中的文字,按照识别到的文字的字号等信息在新建的可编辑格式的空文档中输入相应的文字,并根据所识别到的文字的位置进行排版。对于图片格式的文档也是类似的处理方式。对于字号的识别,现有方式中基于OCR识别技术识别文字高度,并根据字号映射规则直接得到各个文本行的字号。通过这种方式得到的可编辑文档的可读性和易读性严重依赖于OCR识别的精度,而由于原文档中文字内容及形式的多样化,对于字号的识别效果具有较大的波动性,往往出现原文档中文字的字号相同、但还原或重建得到的可编辑文档中字号大小不一的情况,导致文档还原的准确性降低,并且严重影响了还原后的文档的可读性和美观性。
[0033]有鉴于此,本申请实施例提供一种结合人工智能技术的文档字号的识别方法,通过对文档图片进行检测识别文本行,并基于文档版面信息基于文档版面信息对各个文本行进行重组,得到待处理的文本块,并按照不同的处理策略对不同的文本块进行处理,根据文本块的行高度统计信息计算文本块中文本行的目标行高度,再基于字号映射规则进行字号映射和优化修正,由此得到各个文本块在实际文档中的字号。由此,通过上述方式对原本可能不统一的、存在波动的文本行的高度信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档字号的识别方法,其特征在于,所述方法包括:获取待处理的文档图片,检测所述文档图片中各文本行的初始行高度;识别所述文档图片的文档版面信息,并根据所述文档版面信息确定至少一个待处理的文本块,每个待处理的文本块中包括有至少一个相连续的文本行;对于任一待处理的文本块,根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,并基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度;基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到所述文档图片中各文本块分别对应的目标字号。2.根据权利要求1所述的方法,其特征在于,所述检测所述文档图片中各文本行的初始行高度,包括:对所述文档图片进行特征提取,得到多张不同尺度的特征图;对所述多张不同尺度的特征图进行特征融合,得到融合特征图;基于所述融合特征图进行文本行检测处理,得到包括有包围文本行的目标检测框,并将所述目标检测框的高度作为所述文本行的初始行高度。3.根据权利要求1所述的方法,其特征在于,所述识别所述文档图片的文档版面信息,并根据所述文档版面信息确定至少一个待处理的文本块,包括:基于所述文档图片进行文档版面识别处理,得到所述文档图片中包括的多个文本块,以及每个文本块各自对应的版块类别;获取目标版块类别,所述目标版块类别至少包括标题版块类别和段落版块类别中的一种;将与所述目标版块类别对应的文本块,作为待处理的文本块。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述文档图片的文档版面信息,建立以待处理的文本块为索引的数据存储结构,所述数据存储结构中包括有多个分组,每个分组对应一个待处理的文本块;将属于同一待处理的文本块的文本行,均存储至所述数据存储结构中相应待处理的文本块对应的分组中;各个分组用于并行对各自所存储的文本行进行行高度的调整,得到相应文本块所对应的目标行高度。5.根据权利要求1所述的方法,其特征在于,所述文档版面信息包括所述文档图片中包括的多个文本块,以及每个文本块各自对应的版块类别,所述版块类别包括页边版块类别;所述方法还包括:将对应于页边版块类别的预设文本字号,作为所述页边版块类别所对应的文本块对应的文本字号。6.根据权利要求1所述的方法,其特征在于,所述根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,并基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度,包括:根据相应待处理的文本块所包括的文本行的初始行高度,计算相应待处理的文本块中文本行的行高度均值;基于相应待处理的文本块中文本行的行高度均值,确定相应待处理的文本块对应的目
标行高度。7.根据权利要求6所述的方法,其特征在于,所述基于相应待处理的文本块中文本行的行高度均值,确定相应待处理的文本块对应的目标行高度,包括...

【专利技术属性】
技术研发人员:曹润东
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1