票据识别方法、装置、设备、计算机存储介质和程序产品制造方法及图纸

技术编号:33628958 阅读:12 留言:0更新日期:2022-06-02 01:29
本申请涉及一种票据识别方法、装置、设备、存储介质和程序产品。所述方法包括:获取待识别票据图像;对所述待识别票据图像进行文本区域检测得到若干文本区域;对所述文本区域进行分类;将不同分类的所述文本区域输入至对应的文字识别模型中以得到票据文字识别结果。采用本方法能够提高文字识别的精度。本方法能够提高文字识别的精度。本方法能够提高文字识别的精度。

【技术实现步骤摘要】
票据识别方法、装置、设备、计算机存储介质和程序产品


[0001]本申请涉及图像识别
,特别是涉及一种多文字识别方法、装置、设备、存储介质和程序产品。

技术介绍

[0002]随着图像识别技术的发展,出现了OCR技术,OCR能够快速识别图像中的文字,因此有大量研究人员将OCR技术应用到支票识别中,例如MitekSystems公司的CheckQuest产品已应用于Bank of Thayer,Mount Prospect National Bank等多家银行;法国A2iA公司的A2iA

CheckReader产品也应用于美国、法国等多家商业银行;南京理工大学与中创软件联合研制了金融专用OCR系统;北京惠融金通影像信息技术有限公司和清华大学自动化系联合提出了一个支票自动识别系统,成功应用在中国工商银行的银行系统中。
[0003]但支票存在多种版式以及手写支票中底色和印章干扰、不同类型的字体混杂、手写不规范、三排章盖章错位以及部分字段变淡等因素,使用传统的图像识别技术难以进行精确识别。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够精确识别的票据识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种票据识别方法,该方法包括:
[0006]获取待识别票据图像;
[0007]对待识别票据图像进行文本区域检测得到若干文本区域;
[0008]对文本区域进行分类;
[0009]将不同分类的文本区域输入至对应的文字识别模型中以得到票据文字识别结果。
[0010]在其中一个实施例中,上述对文本区域进行分类,包括:
[0011]对文本区域进行分类,得到印刷体文本区域和手写体文本区域;
[0012]将不同分类的文本区域输入至对应的文字识别模型中以得到票据文字识别结果,包括:
[0013]分别识别印刷体文本区域和手写体文本区域中的文本内容,得到印刷体文本和手写体文本。
[0014]在其中一个实施例中,上述对待识别票据图像进行文本区域检测得到若干文本区域之前,还包括:
[0015]对待识别票据图像进行角度矫正。
[0016]在其中一个实施例中,上述对待识别票据图像进行角度矫正,包括:
[0017]对待识别票据图像的旋转角度进行分类;
[0018]根据待识别票据图像的旋转角度的类型,对待识别票据图像进行角度矫正。
[0019]在一个实施例中,上述对待识别票据图像进行文本区域检测得到若干文本区域是
通过预先训练得到的文本区域检测模型处理得到的;
[0020]上述对文本区域进行分类是通过预先训练得到的文本区域分类模型处理得到的;
[0021]上述分别识别印刷体文本区域和手写体文本区域中的文本内容,得到印刷体文本和手写体文本是通过预先训练得到的印刷体识别模型和手写体识别模型处理得到的;
[0022]上述对待识别票据图像的旋转角度进行分类时是通过预先训练的角度分类模型进行处理得到的;
[0023]其中,文本区域检测模型的训练、文本区域分类模型、印刷体识别模型、手写体识别模型和角度分类模型的训练过程包括:
[0024]读取第一图像,标注第一图像中文本区域的位置、文本区域的类型、印刷体内容、手写体内容和旋转角度;
[0025]根据第一图像与对应的文本区域的位置进行训练得到文本区域检测模型;
[0026]根据第一图像与对应的文本区域的类型进行训练得到文本区域分类模型;
[0027]根据第一图像与对应的印刷体内容训练得到印刷体识别模型;
[0028]根据第一图像与对应的手写体内容进行训练得到手写体识别模型;
[0029]根据第一图像与对应的旋转角度进行训练得到角度分类模型。
[0030]在其中一个实施例中,上述手写体识别模型是基于目标字典方式训练得到的,目标字典包括日期、账号、密码、大写金额和小写金额的目标字符识别。
[0031]在其中一个实施例中,上述第一图像包括真实票据图像与预先合成的票据图像;其中,预先合成的票据图像的合成过程包括:
[0032]获取票据模板;
[0033]通过按照预设规则生成的手写体文本和印刷体文本对票据模板进行填充,并生成标注文件。
[0034]在其中一个实施例中,上述将不同分类的文本区域输入至对应的文字识别模型中以得到票据文字识别结果之后,包括:
[0035]将识别结果与预设的模板进行模板匹配,以提取目标字段信息。
[0036]在其中一个实施例中,上述通将识别结果与预设的模板进行模板匹配,以提取目标字段信息,包括:
[0037]将识别结果与预设模板进行模板匹配;
[0038]当识别结果与预设模板匹配成功时,根据预设模板进行字段匹配得到字段位置和字段内容;
[0039]根据字段内容与字段信息的位置关系,获取字段信息候选集;
[0040]通过预设的匹配规则,从字段信息候选集中确定字段对应的唯一字段信息,并输出结构化数据。
[0041]第二方面,本申请还提供了一种票据识别装置,该装置包括:
[0042]图像获取模块,用于获取待识别票据图像;
[0043]文本区域检测模块,用于对待识别票据图像进行文本区域检测得到若干文本区域;
[0044]文本区域分类模块,用于对文本区域进行分类;
[0045]文本区域识别模块,用于将不同分类的文本区域输入至对应的文字识别模型中以
得到票据文字识别结果。
[0046]第三方面,本申请还提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面实施例中的提供的防调试方法的步骤。
[0047]第四方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面实施例中的提供的防调试方法的步骤。
[0048]第五方面,本申请还提供了一种计算机程序产品,该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面实施例中的提供的防调试方法的步骤。
[0049]上述票据识别方法、装置、设备、存储介质和程序产品,通过对获取的待识别票据图像进行文本区域检测可以得到若干文本区域,再对得到的若干文本区域进行分类,最后将不同分类的文本区域输入至对应的文本识别模型中得到票据文字识别,这样能够提高文字识别的精度。
附图说明
[0050]图1为一个实施例中票据识别方法的应用环境图;
[0051]图2为一个实施例中票据识别方法的流程示意图;
[0052]图3为一个实施例中底纹干扰场景示意图;
[0053]图4为另一个实施例中提取目标字段信息的示意图;
[0054]图5为一个实施例中印章干扰的示意图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种票据识别方法,其特征在于,所述方法包括:获取待识别票据图像;对所述待识别票据图像进行文本区域检测得到若干文本区域;对所述文本区域进行分类;将不同分类的所述文本区域输入至对应的文字识别模型中以得到票据文字识别结果。2.根据权利要求1所述的方法,其特征在于,所述对所述文本区域进行分类,包括:对所述文本区域进行分类,得到印刷体文本区域和手写体文本区域;所述将不同分类的所述文本区域输入至对应的文字识别模型中以得到票据文字识别结果,包括:分别识别所述印刷体文本区域和所述手写体文本区域中的文本内容,得到印刷体文本和手写体文本。3.根据权利要求1所述的方法,其特征在于,所述对所述待识别票据图像进行文本区域检测得到若干文本区域之前,还包括:对所述待识别票据图像进行角度矫正。4.根据权利要求3所述的方法,其特征在于,所述对所述待识别票据图像进行角度矫正,包括:对所述待识别票据图像的旋转角度进行分类;根据所述待识别票据图像的旋转角度的类型,对所述待识别票据图像进行角度矫正。5.根据权利要求1

4任意一项所述的方法,所述对所述待识别票据图像进行文本区域检测得到若干文本区域是通过预先训练得到的文本区域检测模型处理得到的;所述对所述文本区域进行分类是通过预先训练得到的文本区域分类模型处理得到的;所述分别识别所述印刷体文本区域和所述手写体文本区域中的文本内容,得到所述印刷体文本和所述手写体文本是通过预先训练得到的印刷体识别模型和手写体识别模型处理得到的;其中,所述文本区域检测模型的训练、所述文本区域分类模型、所述印刷体识别模型和所述手写体识别模型的训练过程包括:读取第一图像,标注所述第一图像中文本区域的位置、文本区域的类型、印刷体内容、手写体内容和旋转角度;根据所述第一图像与对应的所述文本区域的位置进行训练得到所述文本区域检测模型;根据所述第一图像与对应的所述文本区域的类型进行训练得到所述文本区域分类模型;根据所述第一图像与对应的所述印刷体内容训练得到所述印刷体识别模型;根据所述第一图像与对应的所述手写体内容进行训练得到所述手写体识别模型;根据所...

【专利技术属性】
技术研发人员:周丹雅李捷王巍陈鹏宇厉超张瑞雪
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1