一种加粗字体识别方法、装置及电子设备制造方法及图纸

技术编号：32966138 阅读：14 留言：0更新日期：2022-04-09 11:22

本申请公开了一种加粗字体识别方法、装置及电子设备，该方法包括：获取识别文档的行区域对应的面积；判定行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比；若是，则确定行区域为第一字体加粗区域；否则，确定行区域为非第一字体加粗区域。基于上述方法确定出识别文档中的行区域是否为字体加粗区域，不需要通过人工比对，方便快捷。方便快捷。方便快捷。

全部详细技术资料下载

【技术实现步骤摘要】
一种加粗字体识别方法、装置及电子设备

[0001]本申请涉及数据处理
，特别是涉及一种加粗字体识别方法、装置及电子设备。

技术介绍

[0002]目前，在对印刷文档进行处理的过程中通常用到光学字符识别(Optical Character Recognition，OCR)技术，OCR技术为：通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入信息。
[0003]使用OCR技术，可以省略将印刷文档由人工输入到计算机的过程，但是印刷文档中的加粗字体通常为文档的重点内容，而OCR技术无法对印刷文档中的加粗字体进行标记，导致生成的识别文档中无法体现出重点内容，因此，急需一种方法能够对印刷文档中的加粗字体进行识别。
[0004]现阶段，对加粗字体进行识别的方法，主要是将OCR处理后生成的识别文档与原始印刷文档进行比对，然后由人工在识别文档中标记出加粗字体，这种加粗字体识别方法消耗大量的人力成本及时间成本，不够方便快捷。

技术实现思路

[0005]本申请提供了一种加粗字体识别方法、装置及电子设备，通过判定识别文档中的行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比，来确定出识别文档中的行区域是否为字体加粗区域，这种加粗字体识别方法不需要通过人工比对，方便快捷。
[0006]第一方面，本申请提供了一种加粗字体识别方法，所述方法包括：
[0007]获取识别文...

【技术保护点】

【技术特征摘要】
1.一种加粗字体识别方法，其特征在于，所述方法包括：获取识别文档的行区域对应的面积，其中，所述识别文档为将原始文档经过光学字符识别OCR后生成的文档；判定所述行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比；若是，则确定所述行区域为第一字体加粗区域；否则，确定所述行区域为非第一字体加粗区域。2.如权利要求1所述的方法，其特征在于，所述在获取识别文档的行区域对应的面积之前，还包括：对所述原始文档进行OCR处理，生成所述识别文档；提取所述识别文档的所述行区域坐标；根据所述行区域坐标，计算所述行区域对应的面积。3.如权利要求1所述的方法，其特征在于，所述判定所述行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比是否大于第一预设占比，包括：计算原始文档中的同一行区域对应的像素区域面积；计算所述行区域对应的面积与所述像素区域面积之间的所述第一占比；判定所述第一占比是否大于所述第一预设占比。4.如权利要求1所述的方法，其特征在于，在确定所述行区域为第一字体加粗区域之后，还包括：计算所述行区域所在页面的整体面积与所述原始文档中同一页面对应的整体像素块之间的第二占比；判定所述第二占比是否大于第二预设占比；若是，则确定所述行区域为第二字体加粗区域；否则，确定所述行区域为非第二字体加粗区域。5.一种加粗字体识别装置，其特征在于，所述装置包括：获取模块，用于获取识别文档的行区域对应的面积，其中，所述识别文档为将原始文档经过光学字符识别OCR后生成的文档；判定模块，用于判定所述行区域对应的面积与原始文档中同一行区域对应的像素区域面积之间的第一占比...

【专利技术属性】
技术研发人员：万晓东，
申请(专利权)人：新奥新智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人