文档字号的识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：35095484 阅读：19 留言：0更新日期：2022-10-01 16:58

本申请涉及一种文档字号的识别方法、装置、计算机设备、存储介质和计算机程序产品，结合人工智能技术进行计算机视觉识别和处理，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括：获取待处理的文档图片，检测文档图片中各文本行的初始行高度；根据文档图片的文档版面信息确定至少一个待处理的文本块；根据初始行高度确定行高度统计信息，并基于行高度统计信息确定与相应待处理的文本块对应的目标行高度；基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度，得到文档图片中各文本块分别对应的目标字号。采用本方法能够解决出现原本相同字号的标题或段落识别到的字号大小不一的问题。号的标题或段落识别到的字号大小不一的问题。号的标题或段落识别到的字号大小不一的问题。

全部详细技术资料下载

【技术实现步骤摘要】
文档字号的识别方法、装置、计算机设备和存储介质

[0001]本申请涉及计算机
，特别是涉及一种文档字号的识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]文字识别是计算机视觉研究领域的分支之一，归属于模式识别和人工智能，是计算机科学的重要组成部分。计算机文字识别(Optical Character Recognition，OCR)是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。
[0003]现有技术方案主要通过OCR技术进行文本行检测，并基于OCR的识别结果直接得到文本行的字号。这种方式对于文本行检测精度的依赖较高，文本行字号的识别效果具有比较大的波动性，识别出的字号准确性较低，导致文档还原时出现原本文档字号相同但是还原出的文档字号不同的情况，进而影响文档还原的准确性。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种文档字号的识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]一方面，本申请提供了一种文档字号的识别方法。所述方法包括：
[0006]获取待处理的文档图片，检测所述文档图片中各文本行的初始行高度；
[0007]识别所述文档图片的文档版面信息，并根据所述文档版面信息确定至少一个待处理的文本块，每个待处理的文本块中包括有至少一个相连续的文本行；
[0008]对于任一待处理的文本块，根据相应待处理的文本块所包括的文本行的...

【技术保护点】

【技术特征摘要】
1.一种文档字号的识别方法，其特征在于，所述方法包括：获取待处理的文档图片，检测所述文档图片中各文本行的初始行高度；识别所述文档图片的文档版面信息，并根据所述文档版面信息确定至少一个待处理的文本块，每个待处理的文本块中包括有至少一个相连续的文本行；对于任一待处理的文本块，根据相应待处理的文本块所包括的文本行的初始行高度，确定行高度统计信息，并基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度；基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度，得到所述文档图片中各文本块分别对应的目标字号。2.根据权利要求1所述的方法，其特征在于，所述检测所述文档图片中各文本行的初始行高度，包括：对所述文档图片进行特征提取，得到多张不同尺度的特征图；对所述多张不同尺度的特征图进行特征融合，得到融合特征图；基于所述融合特征图进行文本行检测处理，得到包括有包围文本行的目标检测框，并将所述目标检测框的高度作为所述文本行的初始行高度。3.根据权利要求1所述的方法，其特征在于，所述识别所述文档图片的文档版面信息，并根据所述文档版面信息确定至少一个待处理的文本块，包括：基于所述文档图片进行文档版面识别处理，得到所述文档图片中包括的多个文本块，以及每个文本块各自对应的版块类别；获取目标版块类别，所述目标版块类别至少包括标题版块类别和段落版块类别中的一种；将与所述目标版块类别对应的文本块，作为待处理的文本块。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于所述文档图片的文档版面信息，建立以待处理的文本块为索引的数据存储结构，所述数据存储结构中包括有多个分组，每个分组对应一个待处理的文本块；将属于同一待处理的文本块的文本行，均存储至所述数据存储结构中相应待处理的文本块对应的分组中；各个分组用于并行对各自所存储的文本行进行行高度的调整，得到相应文本块所对应的目标行高度。5.根据权利要求1所述的方法，其特征在于，所述文档版面信息包括所述文档图片中包括的多个文本块，以及每个文本块各自对应的版块类别，所述版块类别包括页边版块类别；所述方法还包括：将对应于页边版块类别的预设文本字号，作为所述页边版块类别所对应的文本块对应的文本字号。6.根据权利要求1所述的方法，其特征在于，所述根据相应待处理的文本块所包括的文本行的初始行高度，确定行高度统计信息，并基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度，包括：根据相应待处理的文本块所包括的文本行的初始行高度，计算相应待处理的文本块中文本行的行高度均值；基于相应待处理的文本块中文本行的行高度均值，确定相应待处理的文本块对应的目
标行高度。7.根据权利要求6所述的方法，其特征在于，所述基于相应待处理的文本块中文本行的行高度均值，确定相应待处理的文本块对应的目标行高度，包括...

【专利技术属性】
技术研发人员：曹润东，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人