票据进行批量OCR识别方法及系统技术方案

技术编号:35120269 阅读:17 留言:0更新日期:2022-10-05 09:49
一种票据进行批量OCR识别方法和系统。它包括:对待批量识别的票据图像进行预处理;获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。本发明专利技术就是充分利用相关性强的单据,通过语义关联分析及知识跨单据迁移,动态调整后续识别字符的权重,从而提高文本识别的正确率。率。率。

【技术实现步骤摘要】
票据进行批量OCR识别方法及系统


[0001]本专利技术涉及图像识别领域,尤其票据进行批量OCR识别方法及系统。

技术介绍

[0002]票据是在涉及经济、运输等业务的载明交易、事项实际情况的书面证明,货款的支付、权利凭证的纸质或电子依据。可以以票据作为提取、消费、权限的依据,由于种类多种多样,故票据的模式匹配、定位和识别十分的困难。
[0003]虽然由于票据五花八门的种类,例如发票、机票、火车票、收据、凭条、存根、购物券等,这些不同的票据,特征词位置不一样,敏感词的表达形式也各有差异,数字的大小写也无规范,故如果票据数量多的话,在审计工作中,审计规则的内容集合,包括:发票类型、单位名称、金额的审计规则的集合,类别多种多样,故通过人工进行识别判断十分的困难,极易出错。
[0004]中国南方电网有限责任公司在201911404676.6公开了一种基于特征检测的OCR识别票据问题的方法及系统,通过对票据图像进行背景消除并去噪处理得到第一图像;对第一图像做投影变换并去除分隔符后识别字符得到票据文本;抽取票据文本的关键词组合;将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息,有效的解决了原始文件字迹清晰度、整洁度等较难识别问题,能够大批量的导入票据,并快速的对票据进行相似度识别,利用基于文本字符特征的智能识别的智能检校实现OCR识别纠错,进一步提高准确率,根据定位出的风险点快速减少了审计的工作量,提升了此类信息化系统的用户体验
[0005]该专利虽然解决了一张票据的99%的OCR识别问题,或者可以通过人工智能做针对性训练,但识别率还是无法达到99%,还是需要大量的人力录入及复核工作,并且因为过多的人工参与,不但准确率很难保证,而且容易造成信息泄露等安全风险以及数字金融服务时对必须规避人为操作造成的道德风险。
[0006]同时在对产业数字化时,经常需要对大量同种类型的票据进行批量化的扫描及文本识别结构化数据提取。这种情况下待识别的票据,是一种样式的票据,每张单据之间只是有部分内容是变动的,而且相邻的票据的内容,进行语义分析时,相关性一般比较大,如何提高同种类型票据批量化文本识别的正确率,这是本行业急需要解决的问题。

技术实现思路

[0007]本专利技术提供一种票据进行批量OCR识别方法,以解决同种类型票据批量化文本识别的正确率的问题。
[0008]一种票据进行批量OCR识别方法,它包括:
[0009]对待批量识别的票据图像进行预处理;
[0010]获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
[0011]基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
[0012]模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
[0013]批量OCR识别之前还包括:预先通过人工标注每一模板的匹配锚点和关键词字符区,得到匹配模板库的匹配模板;
[0014]“当前待识别票据对比匹配模板的匹配锚点及关键词字符区计算其相似度”进一步包括:
[0015]当前待识别票据通过至少三个锚点确定来坐标体系,按左上角与左下角的连线和左上角与右上角的连线形成垂直角,分别作为当前票据坐标体系的横轴与纵轴;
[0016]当前待识别票据与每一匹配模块的坐标体系对应,等比找到所述待识别票据相应锚点和对应的关键词字符区,所述对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,匹配度最高的为所述票据对应的相似度最高匹配模板。
[0017]“对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,只需确认该些字符是否与所述匹配模板上的字符是否匹配”进一步包括:
[0018]当前待识别票据找到关键词字符区块,分别对每一块进行批量识别数据提取,与一匹配模块对应关键词字符区的字符或字符串,匹配计算相似度得到相似度向量,再通过欧几里德距离算法计算向量距离,从而得到相似度。
[0019]“通过跨票据计算相对应区域的汉明距离通过欧几里德距离算法计算向量距离”进一步包括:
[0020]欧几里德距离是指多维空间两点间的距离,这是一种用直尺测量出来的距离,当前待识别票据中关键词字符区的字符与模板对应关键词字符区的字符分别标记为(x1,x2,x3....xn)和(y1,y2,y3.....yn),则欧几里德距离的计算公式为:
[0021][0022]通过一一对待识别票据的关键词字符区的字符与匹配模板中对应区域的字符进行相似度计算,可得到匹配模块对应的相似度,以得到匹配模板库中相似度最高的匹配模块。
[0023]“通过跨票据计算相对应区域的汉明距离”进一步包括:
[0024]当前票据的待识别字符区域与N个关联票据分别计算对应区域的汉明距离,每一汉明距离的计算进一步包括:
[0025]当前票据的待识别字符区域的字符串或字符,当前关联票据的对应区域的字符串或字符进行汉明距离计算,汉明距离表示两个相同长度字对应位不同的数量,以d(x,y)表示两个字x,y之间的汉明距离,对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离,即
[0026][0027]这里i=0,1,..n

1,x,y都是n位的编码,表示异或
[0028]两个等长字符串str1与str2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数,由此得到当前票据的待识别字符区域与对应所述N个关联票据分别计算对应区域的最小替换次数。
[0029]对待批量识别的票据图像进行预处理进一步包括倾斜较正、图像二值化、图像去噪在内其中至少一种处理,
[0030]所述图像去噪进一步包括:通过对比相邻的像素点,判断一个像素点是否是噪点,以目标像素点为中心的九宫格,计算该像素点周围的8个像素点中不是背景点的个数,如果大于给定的界定值,则说明目标点是字符内某个像素点的几率大些,故该点不能作为噪点处理,否则作为噪点处理,所述给定的界定值是通过图片噪点数目、噪点粘连,根据不同场景的表格图像特征,对比找到值。
[0031]一种票据进行批量OCR识别系统,它包括:
[0032]视频采集装置:用于对待批量识别的票据进行图像采集;
[0033]存储器,用于存储匹配模板库,其进一步存储每一匹配模板的匹配锚点和关键词字符区信息;
[0034]处理器,其进一步包括:
[0035]预处理模块:用于对待批量识别的票据图像进行预处理;
[0036]相似度最高匹配模板计算模块:用于获取所述待批量识别票据图像的票据数据,通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种票据进行批量OCR识别方法,其特征在于,包括:对待批量识别的票据图像进行预处理;获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。2.如权利要求1所述的票据进行批量OCR识别方法,其特征在于,批量OCR识别之前还包括:预先通过人工标注每一模板的匹配锚点和关键词字符区,得到匹配模板库的匹配模板;“当前待识别票据对比匹配模板的匹配锚点及关键词字符区计算其相似度”进一步包括:当前待识别票据通过至少三个锚点确定来坐标体系,按左上角与左下角的连线和左上角与右上角的连线形成垂直角,分别作为当前票据坐标体系的横轴与纵轴;当前待识别票据与每一匹配模块的坐标体系对应,等比找到所述待识别票据相应锚点和对应的关键词字符区,所述对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,匹配度最高的为所述票据对应的相似度最高匹配模板。3.如权利要求2所述的批量OCR识别方法,其特征在于,“对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,只需确认该些字符是否与所述匹配模板上的字符是否匹配”进一步包括:当前待识别票据找到关键词字符区块,分别对每一块进行批量识别数据提取,与一匹配模块对应关键词字符区的字符或字符串,匹配计算相似度得到相似度向量,再通过欧几里德距离算法计算向量距离,从而得到相似度。4.如权利要求3所述的票据进行批量OCR识别方法,其特征在于,“通过跨票据计算相对应区域的汉明距离通过欧几里德距离算法计算向量距离”进一步包括:欧几里德距离是指多维空间两点间的距离,这是一种用直尺测量出来的距离,当前待识别票据中关键词字符区的字符与模板对应关键词字符区的字符分别标记为(x1,x2,x3....xn)和(y1,y2,y3.....yn),则欧几里德距离的计算公式为:通过一一对待识别票据的关键词字符区的字符与匹配模板中对应区域的字符进行相似度计算,可得到匹配模块对应的相似度,以得到匹配模板库中相似度最高的匹配模块。5.如权利要求1所述的的票据进行批量OCR识别方法,其特征在于,“通过跨票据计算相对应区域的汉明距离”进一步包括:当前票据的待识别字符区域与N个关联...

【专利技术属性】
技术研发人员:丁雯王义山
申请(专利权)人:上海聚均科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1