一种加粗字体识别方法、装置及电子设备制造方法及图纸

技术编号:32966138 阅读:14 留言:0更新日期:2022-04-09 11:22
本申请公开了一种加粗字体识别方法、装置及电子设备,该方法包括:获取识别文档的行区域对应的面积;判定行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比;若是,则确定行区域为第一字体加粗区域;否则,确定行区域为非第一字体加粗区域。基于上述方法确定出识别文档中的行区域是否为字体加粗区域,不需要通过人工比对,方便快捷。方便快捷。方便快捷。

【技术实现步骤摘要】
一种加粗字体识别方法、装置及电子设备


[0001]本申请涉及数据处理
,特别是涉及一种加粗字体识别方法、装置及电子设备。

技术介绍

[0002]目前,在对印刷文档进行处理的过程中通常用到光学字符识别(Optical Character Recognition,OCR)技术,OCR技术为:通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入信息。
[0003]使用OCR技术,可以省略将印刷文档由人工输入到计算机的过程,但是印刷文档中的加粗字体通常为文档的重点内容,而OCR技术无法对印刷文档中的加粗字体进行标记,导致生成的识别文档中无法体现出重点内容,因此,急需一种方法能够对印刷文档中的加粗字体进行识别。
[0004]现阶段,对加粗字体进行识别的方法,主要是将OCR处理后生成的识别文档与原始印刷文档进行比对,然后由人工在识别文档中标记出加粗字体,这种加粗字体识别方法消耗大量的人力成本及时间成本,不够方便快捷。

技术实现思路

[0005]本申请提供了一种加粗字体识别方法、装置及电子设备,通过判定识别文档中的行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比,来确定出识别文档中的行区域是否为字体加粗区域,这种加粗字体识别方法不需要通过人工比对,方便快捷。
[0006]第一方面,本申请提供了一种加粗字体识别方法,所述方法包括:
[0007]获取识别文档的行区域对应的面积,其中,所述识别文档为将原始文档经过光学字符识别OCR后生成的文档;
[0008]判定所述行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比;
[0009]若是,则确定所述行区域为第一字体加粗区域;
[0010]否则,确定所述行区域为非第一字体加粗区域。
[0011]通过上述方法,通过判定识别文档中的行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比,来确定出识别文档中的行区域是否为字体加粗区域,这种加粗字体识别方法不需要通过人工比对,方便快捷。
[0012]在一种可能的设计中,所述在获取识别文档的行区域对应的面积之前,还包括:
[0013]对所述原始文档进行OCR处理,生成所述识别文档;
[0014]提取所述识别文档的所述行区域坐标;
[0015]根据所述行区域坐标,计算所述行区域对应的面积。
[0016]通过上述方法,计算行区域对应的面积,用于后续判断行区域是否为字体加粗区域。
[0017]进一步,所述判定所述行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比,包括:
[0018]计算原始文档中的同一行区域对应的像素区域面积;
[0019]计算所述行区域对应的面积与所述像素区域面积之间的所述第一占比;
[0020]判定所述第一占比是否大于所述第一预设占比。
[0021]在一种可能的设计中,在确定所述行区域为第一字体加粗区域之后,还包括:
[0022]计算所述行区域所在页面的整体面积与所述原始文档中同一页面对应的整体像素块之间的第二占比;
[0023]判定所述第二占比是否大于第二预设占比;
[0024]若是,则确定所述行区域为第二字体加粗区域;
[0025]否则,确定所述行区域为非第二字体加粗区域。
[0026]通过上述方法,对确定出的第一字体加粗区域进行进一步确认,得到准确率更高的第二字体加粗区域。
[0027]第二方面,本申请提供了一种加粗字体识别装置,所述装置包括:
[0028]获取模块,用于获取识别文档的行区域对应的面积,其中,所述识别文档为将原始文档经过光学字符识别OCR后生成的文档;
[0029]判定模块,用于判定所述行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比;
[0030]确定模块,用于若所述第一占比大于所述第一预设占比,则确定所述行区域为第一字体加粗区域;若所述第一占比小于或等于所述第一预设占比,确定所述行区域为非第一字体加粗区域。
[0031]在一种可能的设计中,所述装置还包括:
[0032]处理模块,用于对所述原始文档进行OCR处理,生成所述识别文档;
[0033]提取模块,用于提取所述识别文档的所述行区域坐标;
[0034]计算模块,用于根据所述行区域坐标,计算所述行区域对应的面积。
[0035]进一步,所述计算模块还用于计算原始文档中的同一行区域对应的像素区域面积;计算所述行区域对应的面积与所述像素区域面积之间的所述第一占比;
[0036]所述判定模块还用于判定所述第一占比是否大于所述第一预设占比。
[0037]在一种可能的设计中,所述计算模块,还用于计算所述行区域所在页面的整体面积与所述原始文档中同一页面对应的整体像素块之间的第二占比;
[0038]所述判定模块,还用于判定所述第二占比是否大于第二预设占比;
[0039]所述确定模块,还用于若所述第二占比大于所述第二预设占比,则确定所述行区域为第二字体加粗区域;若所述第二占比小于或等于所述第二预设占比,确定所述行区域为非第二字体加粗区域。
[0040]第三方面,本申请提供了一种电子设备,包括:
[0041]存储器,用于存放计算机程序;
[0042]处理器,用于执行所述存储器上所存放的计算机程序时,实现上述加粗字体识别
方法步骤。
[0043]第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述加粗字体识别方法步骤。
[0044]基于上述加粗字体识别方法,通过判定识别文档中的行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比,来确定出识别文档中的行区域是否为字体加粗区域,这种加粗字体识别方法不需要通过人工比对,方便快捷。
[0045]上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果参照上述针对第一方面或者第一方面中的各种可能方案可以达到的技术效果说明,这里不再重复赘述。
附图说明
[0046]图1为本申请提供的一种加粗字体识别方法的流程图;
[0047]图2为本申请提供的一种行区域示意图;
[0048]图3为本申请提供的另一种行区域示意图;
[0049]图4为本申请提供的一种加粗字体识别装置的结构示意图;
[0050]图5为本申请提供的一种电子设备结构示意图。
具体实施方式
[0051]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。方法实施例中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种加粗字体识别方法,其特征在于,所述方法包括:获取识别文档的行区域对应的面积,其中,所述识别文档为将原始文档经过光学字符识别OCR后生成的文档;判定所述行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比;若是,则确定所述行区域为第一字体加粗区域;否则,确定所述行区域为非第一字体加粗区域。2.如权利要求1所述的方法,其特征在于,所述在获取识别文档的行区域对应的面积之前,还包括:对所述原始文档进行OCR处理,生成所述识别文档;提取所述识别文档的所述行区域坐标;根据所述行区域坐标,计算所述行区域对应的面积。3.如权利要求1所述的方法,其特征在于,所述判定所述行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比,包括:计算原始文档中的同一行区域对应的像素区域面积;计算所述行区域对应的面积与所述像素区域面积之间的所述第一占比;判定所述第一占比是否大于所述第一预设占比。4.如权利要求1所述的方法,其特征在于,在确定所述行区域为第一字体加粗区域之后,还包括:计算所述行区域所在页面的整体面积与所述原始文档中同一页面对应的整体像素块之间的第二占比;判定所述第二占比是否大于第二预设占比;若是,则确定所述行区域为第二字体加粗区域;否则,确定所述行区域为非第二字体加粗区域。5.一种加粗字体识别装置,其特征在于,所述装置包括:获取模块,用于获取识别文档的行区域对应的面积,其中,所述识别文档为将原始文档经过光学字符识别OCR后生成的文档;判定模块,用于判定所述行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比...

【专利技术属性】
技术研发人员:万晓东
申请(专利权)人:新奥新智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1