一种带标签的票据信息识别方法技术

技术编号:37457401 阅读:15 留言:0更新日期:2023-05-06 09:29
本发明专利技术公开了一种带标签的票据信息识别方法,包括以下步骤:1)获取票据文本的图像;2)从模板数据库中获取所有票据的模板图像信息;3)对模板图像和票据文本图像逐一进行模板匹配,获得与票据文本图像匹配的模板信息;然后根据匹配的模板信息对票据文本图像进行尺寸和角度的一致性调整;4)根据模板信息提供的文本区域标签信息获取标签对应文本区域的坐标范围,通过文本区域的坐标范围从票据文本图像中截取对应的文本区域图像;5)采用OCR图像文本识别技术对文本区域图像中的文本内容进行识别和提取,生成文本识别结果;6)将标签和对应的文本识别结果组合,获得结构化键值对。本发明专利技术方法能提高票据信息识别的速度和准确率。发明专利技术方法能提高票据信息识别的速度和准确率。发明专利技术方法能提高票据信息识别的速度和准确率。

【技术实现步骤摘要】
一种带标签的票据信息识别方法


[0001]本专利技术涉及图像处理技术,尤其涉及一种带标签的票据信息识别方法。

技术介绍

[0002]物流行业中货物进出对账的过程中需要对进出库票据信息进行录入,方便后续进行查找,目前,对于票据的归档方法主要依靠人力进行梳理,耗费大量人力和时间,随着OCR识别技术的成功应用,OCR识别技术已经成为将纸质文档转换为电子文档的主要手段,该技术能大大便利人们的信息录入工作,将检测得到的文本行图像数据归一化到固定高度之后,需要使用通用文字识别技术,将图像对应的文本内容识别出来。目前文本行图像数据由于受光照、几何变换、背景、字体、风格、分辨率等的影响,形状纹理尺寸变化多端,对识别工作提出了挑战,因此不能有效地应对恶劣情况如票据的畸变、透视、打印体墨迹断裂及脏污等情况,同时使用时识别的精确度低。

技术实现思路

[0003]本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种带标签的票据信息识别方法。
[0004]本专利技术解决其技术问题所采用的技术方案是:一种带标签的票据信息识别方法,包括以下步骤:
[0005]1)获取票据文本的图像;
[0006]2)从模板数据库中获取所有票据的模板图像信息;
[0007]3)对模板图像和票据文本图像逐一进行模板匹配,获得与票据文本图像匹配的模板信息;然后根据匹配的模板信息对票据文本图像进行尺寸和角度的一致性调整;
[0008]4)获得调整后的票据文本图像后,根据模板信息提供的文本区域标签信息获取标签对应文本区域的坐标范围,通过文本区域的坐标范围从票据文本图像中截取对应的文本区域图像;
[0009]5)采用OCR图像文本识别技术对文本区域图像中的文本内容进行识别和提取,生成文本识别结果;
[0010]6)将标签和对应的文本识别结果组合,获得结构化键值对。
[0011]按上述方案,所述模板数据库采用各类别票据图片作为模板图片,根据对应的标签内容框确定模板图片中的文本区域,并记录框体坐标作为模板信息保存至数据库中。
[0012]按上述方案,所述步骤3)中获得与票据文本图像匹配的模板信息,具体如下:
[0013]3.1)根据模板图片尺寸大小对票据文本图像的图片尺寸进行调整;
[0014]3.2)对模板图片和票据文本图像进行高斯滤波;
[0015]3.3)通过ORB算法对模板图片和票据文本图像进行关键点提取;
[0016]3.4)将模板图片和票据文本图像关键点进行匹配,若当前模板图片和票据文本图像不匹配,则更换下一张模板图片;
[0017]并重复步骤3.1)至3.4)直至获得匹配的模板或不存在与票据文本图像匹配的模板;
[0018]3.5)根据匹配的关键点计算图像映射变换矩阵,并将票据文本图像变换为模板图像的尺寸和偏转角度。
[0019]按上述方案,所述步骤3.4)中将模板图片和票据文本图像的关键点进行匹配后,判断当前模板图像和票据文本图像是否匹配为通过计算图片变换的旋转角度e1、缩放比e2以及平移量e3作为评估模板图片和票据文本图像匹配度的评估指标进行评估,判断逻辑如下:
[0020]3.4.1)若当前模板图像和票据文本图像的e1、e2、e3均小于设定阈值,则判定模板图片和票据文本图像为匹配,并不在考虑其他模板;
[0021]3.4.2)若所有模板图像和票据文本图像的e1、e2、e3均存在至少一个值大于设定阈值,则记录三个指标中超出设定阈值的最大比例值;遍历所有模板后,寻找e值最小对应的模板,若e值小于设定比例值则该模板被判定为匹配,反之判断不存在与票据文本图像匹配的模板。
[0022]按上述方案,所述步骤5)中使用OCR算法从文本区域图像中提取文本时,其中存在多行文本时,根据文本位置坐标按行判定先后顺序提取文本并对提取的文本进行拼接。
[0023]本专利技术产生的有益效果是:
[0024]本专利技术方法能提高票据信息识别的速度和准确率。
附图说明
[0025]下面将结合附图及实施例对本专利技术作进一步说明,附图中:
[0026]图1是本专利技术实施例的方法流程图;
[0027]图2是本专利技术实施例对票据文本图像模板匹配的流程图。
[0028]图3是本专利技术实施例对文本区域图像进行文本提取的流程图。
具体实施方式
[0029]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0030]如图1所示,一种带标签的票据信息识别方法,包括以下步骤:
[0031]1)获取票据文本图像;
[0032]2)从模板数据库中获取所有模板信息;
[0033]3)对模板图像和票据文本图像逐一进行模板匹配;
[0034]4)获得对应模板信息后,根据模板信息提供的文本区域标签信息获取标签对应文本区域的坐标,通过文本区域的坐标从票据文本图像中截取对应的文本区域图像;
[0035]5)采用OCR图像文本识别技术对文本区域图像中的文本内容进行识别和提取,生成文本识别结果;
[0036]6)将标签和对应的文本识别结果组合,获得结构化键值对。
[0037]如图2所示,对应图1中图像匹配步骤的方法,通过将输入的票据文本图片与模板
数据库中的模板图片逐一匹配,从而获取对应的模板信息,具体实现步骤如下:
[0038]3.1)根据模板图片尺寸大小调整票据文本图像的图片尺寸;
[0039]3.2)对模板图片和票据文本图像进行高斯滤波;
[0040]3.3)通过ORB算法对模板图片和票据文本图像进行关键点提取;
[0041]3.4)将模板图片和票据文本图像关键点进行匹配,若当前模板图片和票据文本图像不匹配,则更换下一张模板图片并重复步骤2;
[0042]3.5)根据匹配的关键点计算图像映射变换矩阵,并将票据文本图像变换为接近模板图像的尺寸和偏转角度;
[0043]如图2所示,在本专利技术实施例中包含图像匹配的方法的判定方法。通过将模板图片和票据文本图像的关键点进行匹配后,计算图片变换的旋转角度(e1)、缩放比(e2)以及平移量(e3)作为评估模板图片和票据文本图像匹配度的评估指标,判断逻辑如下:
[0044]1、当一个模板的e1、e2、e3均小于设定阈值则判定模板图片和票据文本图像为匹配,并不在考虑其他模板;
[0045]2、当一个模板的e1、e2、e3存在至少一个值未小于阈值设定阈值,则记录三个指标中超出设定阈值的最大比例值;当所有模板中不存在直接可以判定为匹配的模板,则寻找所有模板记录值中最大比例值最小的模板,若该模板的e1、e2、e3超出设定阈值的值小于一定范围则该模板判定为匹配,反之判定不存在与票据文本图像匹配的模板;
[0046]基于模板标签和OCR的文本提取方法如图3所示,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种带标签的票据信息识别方法,其特征在于,包括以下步骤:1)获取票据文本的图像;2)从模板数据库中获取所有票据的模板图像信息;3)对模板图像和票据文本图像逐一进行模板匹配,获得与票据文本图像匹配的模板信息;然后根据匹配的模板信息对票据文本图像进行尺寸和角度的一致性调整;4)获得调整后的票据文本图像后,根据模板信息提供的文本区域标签信息获取标签对应文本区域的坐标范围,通过文本区域的坐标范围从票据文本图像中截取对应的文本区域图像;5)采用OCR图像文本识别技术对文本区域图像中的文本内容进行识别和提取,生成文本识别结果;6)将标签和对应的文本识别结果组合,获得结构化键值对。2.根据权利要求1所述的带标签的票据信息识别方法,其特征在于,所述模板数据库采用各类别票据图片作为模板图片,根据对应的标签内容框确定模板图片中的文本区域,并记录框体坐标作为模板信息保存至数据库中。3.根据权利要求1所述的带标签的票据信息识别方法,其特征在于,所述步骤3)中获得与票据文本图像匹配的模板信息,具体如下:3.1)根据模板图片尺寸大小对票据文本图像的图片尺寸进行调整;3.2)对模板图片和票据文本图像进行高斯滤波;3.3)通过ORB算法对模板图片和票据文本图像进行关键点提取;3.4)将模板图片和票据文本图像关键点进行匹配,若当...

【专利技术属性】
技术研发人员:袁斌包剑奕吕峰曾凡旭张文瑛钱雯锦苗青
申请(专利权)人:长江新丝路国际投资发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1