一种金融类pdf扫描件的文本识别方法及装置制造方法及图纸

技术编号:30321306 阅读:18 留言:0更新日期:2021-10-09 23:44
本发明专利技术公开了一种金融类pdf扫描件的文本识别方法,它包括创建图像生成模板;在图像生成模板中插入模板信息,使用图像生成模板生成训练图像利用生成的训练图像作为训练数据,训练文本识别模型;使用文本识别模型识别pdf扫描件。本发明专利技术还公开了一种金融类pdf扫描件的文本识别装置,包括模板创建模块、训练图像生成模块、文本识别模型训练模块、文本识别服务模块、校验模块。本发明专利技术的一种金融类pdf扫描件的文本识别方法及装置,无需大量人工标注,能够在字体模糊、方向倾斜、水印等复杂情况下实现对pdf扫描件的自动识别,且识别效率高,提高了pdf扫描件的识别准确率。了pdf扫描件的识别准确率。了pdf扫描件的识别准确率。

【技术实现步骤摘要】
一种金融类pdf扫描件的文本识别方法及装置


[0001]本专利技术属于文本识别
,更具体地说,涉及一种金融类pdf扫描件的文本识别方法及装置。

技术介绍

[0002]近年来,深度学习技术在图形图像、自然语言处理、自动驾驶等多个领域得到大量应用,且表现效果要明显优于传统方法。
[0003]在文本信息处理中,存在大量不同样式的图像。当前技术对于图像信息的提取仍存在许多问题。如需要大量的标注语料,需要海量的文字排列组合,需要不同字体和大小,图像的背景色和版面类型也多种多样,也有字体模糊,方向倾斜,水印等复杂情况。仅仅依赖于标注既依赖于大量人工,也容易出错,性价比较低。

技术实现思路

[0004]1、要解决的问题
[0005]针对现有技术中在对pdf扫描件进行文本识别时图像信息难以提取且工作量大、容易出错的问题,本专利技术提供一种金融类pdf扫描件的文本识别方法及装置,利用模板创建技术有效解决了人工标注的费时低效的问题,并利用深度学习的最新成果进一步提升识别效果。
[0006]2、技术方案
[0007]为解决上述问题,本专利技术采用如下的技术方案。
[0008]一种金融类pdf扫描件的文本识别方法,包括:
[0009]步骤1、创建图像生成模板;
[0010]步骤2、在图像生成模板中插入模板信息,使用图像生成模板生成训练图像;
[0011]步骤3、利用生成的训练图像作为训练数据,训练文本识别模型;
[0012]步骤4、使用文本识别模型识别pdf扫描件。
[0013]其优选的技术方案为:
[0014]如上所述的一种金融类pdf扫描件的文本识别方法,所述的模板信息包括版面、字体、背景以及水印样式。
[0015]如上所述的一种金融类pdf扫描件的文本识别方法,所述的模板信息来自于扫描件、非扫描件或随机生成。
[0016]如上所述的一种金融类pdf扫描件的文本识别方法,所述的文本识别模型包括:
[0017]文本倾斜度检测模型,用于检测整个图像页面的文本倾斜度,并对倾斜文本摆正;
[0018]文字检测模型,用于倾斜文本摆正后,检测每一行文字所在的文本框坐标;
[0019]文字识别模型,用于根据文本框坐标,识别文本框坐标所在文本框内的每一个文字;
[0020]文本结构化模型,用于把经文字识别模型识别的多行文字转化为结构化数据。
[0021]如上所述的一种金融类pdf扫描件的文本识别方法,步骤4之后,还包括:对文本识别模型的识别结果进行校验。
[0022]如上所述的一种金融类pdf扫描件的文本识别方法,所述文本识别校验包括:
[0023]步骤31、根据文本倾斜度检测模型的检测结果,对比文本倾斜度检测模型检测的文本倾斜度与实际角度的误差,若超过5
°
则判断为检测错误;
[0024]步骤32、根据文字检测模型的检测结果,对比文字检测模型检测的文本区域与实际区域的IOU误差,若误差超过20%则判断为检测错误;
[0025]步骤33、根据文字识别模型的识别结果,对比文字识别模型识别的文字内容与实际内容是否一样,若不一样则判断为识别错误;
[0026]步骤34、根据文本结构化模型的处理结果,对比文本结构化模型生成的结构化数据与实际是否一样,若不一样则判断为结构化处理错误。
[0027]作为本申请的另一个方面还提供了一种实施如上任一项所述的一种金融类pdf扫描件的文本识别方法的装置,包括模板创建模块、训练图像生成模块、文本识别模型训练模块、文本识别服务模块、校验模块;
[0028]所述模板创建模块用于创建图像生成模板;
[0029]所述训练图像生成模块用于根据图像生成模板生成训练图像;
[0030]所述模型训练模块用于利用生成的训练图像作为训练数据,训练文本识别模型;
[0031]所述文本识别服务模块,用于根据训练好的文本识别模型识别pdf扫描件;
[0032]所述校验模块,用于对文本识别服务模块的识别结果进行校验。
[0033]其优选的技术方案为:
[0034]如上所述的装置,所述图像生成模板的模板信息来自于扫描件、非扫描件或随机生成。
[0035]3、有益效果
[0036]相比于现有技术,本专利技术的有益效果为:
[0037](1)本专利技术在创建图像生成模板时,在图像生成模板上插入模板信息,其中,模板信息既可以来自于pdf扫描件,也可以来自于非扫描件或随机生成,从而保证训练前文本识别模型数据建立的全面性,为后续文本识别模型训练的文本识别准确率提供保障;
[0038](2)本专利技术的文本识别模型在进行文本识别时,文本识别模型能够首先对训练图像中的文本进行检测,避免文本倾斜,再通过文字检测模型确定其中的文本框坐标,再基于文字识别模型识别文本框坐标所在文本框内的每一个文字;最后,通过文本结构化模型把经文字识别模型识别的多行文字转化为结构化数据,完成pdf扫描件的文本识别;本申请提出的金融类pdf扫描件的文本识别方法,无需大量人工标注,能够在字体模糊、方向倾斜、水印等复杂情况下实现对pdf扫描件的自动识别,且识别效率高,提高了pdf扫描件的识别准确率;
[0039](3)本专利技术的文本识别模型在对使用图像生成模板生成的训练图像进行训练时,能够在文本识别模型的识别过程建立校检机制,针对文本倾斜度较大、IOU误差较大以及识别文字不一致的情况建立校检标准,以能够使模型能够分别在方向倾斜、字体模糊、水印等复杂情况下实现对pdf扫描件的自动识别,为pdf扫描件的文本识别提供了一个新的解决方案,适用性能广,具有良好的使用前景。
附图说明
[0040]图1为本专利技术的一种金融类pdf扫描件的文本识别方法的流程图;
[0041]图2为本专利技术文本识别模型的架构示意图;
[0042]图3为本专利技术的文本识别校验的流程图;
[0043]图4为本专利技术的一种金融类pdf扫描件的文本识别装置的结构框图;
[0044]图中:1、模板创建模块;2、训练图像生成模块;3、文本识别模型训练模块;4、文本识别服务模块;5、校验模块。
具体实施方式
[0045]下面结合具体实施例和附图对本专利技术进一步进行描述。
[0046]实施例1
[0047]如图1~2所示,一种金融类pdf扫描件的文本识别方法,包括:
[0048]步骤1、创建图像生成模板。本实施例中,具体地,创建图像生成模板的目的在于能够在模板对各文本图像样本中的文本图像进行,得到各文本图像样本对应的扩充文本图像样本。
[0049]步骤2、在图像生成模板中插入模板信息,使用图像生成模板生成训练图像。
[0050]所述的模板信息包括版面、字体、背景以及水印样式。所述的模板信息来自于扫描件、非扫描件或随机生成。在步骤2中,使用模板与随机生成的文字,或者从其他数据源随机采样的文字,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种金融类pdf扫描件的文本识别方法,其特征在于:包括:步骤1、创建图像生成模板;步骤2、在图像生成模板中插入模板信息,使用图像生成模板生成训练图像;步骤3、利用生成的训练图像作为训练数据,训练文本识别模型;步骤4、使用文本识别模型识别pdf扫描件。2.根据权利要求1所述的一种金融类pdf扫描件的文本识别方法,其特征在于:所述的模板信息包括版面、字体、背景以及水印样式。3.根据权利要求1所述的一种金融类pdf扫描件的文本识别方法,其特征在于:所述的模板信息来自于扫描件、非扫描件或随机生成。4.根据权利要求1所述的一种金融类pdf扫描件的文本识别方法,其特征在于:所述的文本识别模型包括:文本倾斜度检测模型,用于检测整个图像页面的文本倾斜度,并对倾斜文本摆正;文字检测模型,用于倾斜文本摆正后,检测每一行文字所在的文本框坐标;文字识别模型,用于根据文本框坐标,识别文本框坐标所在文本框内的每一个文字;文本结构化模型,用于把经文字识别模型识别的多行文字转化为结构化数据。5.根据权利要求4所述的一种金融类pdf扫描件的文本识别方法,其特征在于:步骤4之后,还包括:对文本识别模型的识别结果进行校验。6.根据权利要求5所述的一种金融类pdf扫描件的文本识别方法,其特征在于:所述文本识别校验包括:...

【专利技术属性】
技术研发人员:金鑫李鹏辉
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1