一种金融类pdf扫描件的文本识别方法及装置制造方法及图纸

技术编号：30321306 阅读：18 留言：0更新日期：2021-10-09 23:44

本发明专利技术公开了一种金融类pdf扫描件的文本识别方法，它包括创建图像生成模板；在图像生成模板中插入模板信息，使用图像生成模板生成训练图像利用生成的训练图像作为训练数据，训练文本识别模型；使用文本识别模型识别pdf扫描件。本发明专利技术还公开了一种金融类pdf扫描件的文本识别装置，包括模板创建模块、训练图像生成模块、文本识别模型训练模块、文本识别服务模块、校验模块。本发明专利技术的一种金融类pdf扫描件的文本识别方法及装置，无需大量人工标注，能够在字体模糊、方向倾斜、水印等复杂情况下实现对pdf扫描件的自动识别，且识别效率高，提高了pdf扫描件的识别准确率。了pdf扫描件的识别准确率。了pdf扫描件的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种金融类pdf扫描件的文本识别方法及装置

[0001]本专利技术属于文本识别
，更具体地说，涉及一种金融类pdf扫描件的文本识别方法及装置。

技术介绍

[0002]近年来，深度学习技术在图形图像、自然语言处理、自动驾驶等多个领域得到大量应用，且表现效果要明显优于传统方法。
[0003]在文本信息处理中，存在大量不同样式的图像。当前技术对于图像信息的提取仍存在许多问题。如需要大量的标注语料，需要海量的文字排列组合，需要不同字体和大小，图像的背景色和版面类型也多种多样，也有字体模糊，方向倾斜，水印等复杂情况。仅仅依赖于标注既依赖于大量人工，也容易出错，性价比较低。

技术实现思路

[0004]1、要解决的问题
[0005]针对现有技术中在对pdf扫描件进行文本识别时图像信息难以提取且工作量大、容易出错的问题，本专利技术提供一种金融类pdf扫描件的文本识别方法及装置，利用模板创建技术有效解决了人工标注的费时低效的问题，并利用深度学习的最新成果进一步提升识别效果。
[0006]2、技术方案
[0007]为解决上述问题，本专利技术采用如下的技术方案。
[0008]一种金融类pdf扫描件的文本识别方法，包括：
[0009]步骤1、创建图像生成模板；
[0010]步骤2、在图像生成模板中插入模板信息，使用图像生成模板生成训练图像；
[0011]步骤3、利用生成的训练图像作为训练数据，训练文本识别模型；
[0012]步骤4、使用文本识别模型...

【技术保护点】

【技术特征摘要】
1.一种金融类pdf扫描件的文本识别方法，其特征在于：包括：步骤1、创建图像生成模板；步骤2、在图像生成模板中插入模板信息，使用图像生成模板生成训练图像；步骤3、利用生成的训练图像作为训练数据，训练文本识别模型；步骤4、使用文本识别模型识别pdf扫描件。2.根据权利要求1所述的一种金融类pdf扫描件的文本识别方法，其特征在于：所述的模板信息包括版面、字体、背景以及水印样式。3.根据权利要求1所述的一种金融类pdf扫描件的文本识别方法，其特征在于：所述的模板信息来自于扫描件、非扫描件或随机生成。4.根据权利要求1所述的一种金融类pdf扫描件的文本识别方法，其特征在于：所述的文本识别模型包括：文本倾斜度检测模型，用于检测整个图像页面的文本倾斜度，并对倾斜文本摆正；文字检测模型，用于倾斜文本摆正后，检测每一行文字所在的文本框坐标；文字识别模型，用于根据文本框坐标，识别文本框坐标所在文本框内的每一个文字；文本结构化模型，用于把经文字识别模型识别的多行文字转化为结构化数据。5.根据权利要求4所述的一种金融类pdf扫描件的文本识别方法，其特征在于：步骤4之后，还包括：对文本识别模型的识别结果进行校验。6.根据权利要求5所述的一种金融类pdf扫描件的文本识别方法，其特征在于：所述文本识别校验包括：...

【专利技术属性】
技术研发人员：金鑫，李鹏辉，
申请(专利权)人：上海犀语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人