票据进行批量OCR识别方法及系统技术方案

技术编号：35120269 阅读：17 留言：0更新日期：2022-10-05 09:49

一种票据进行批量OCR识别方法和系统。它包括：对待批量识别的票据图像进行预处理；获取所述待批量识别票据图像的票据数据，通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配，从所述匹配模板库中得到相似度最高的匹配模板；基于识别出来相似度最高的所述匹配模板，匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域；模糊匹配该批量待识别票据图像的所述待识别字符区域，通过跨票据计算相对应区域的汉明距离，动态调整候选字符信息的权重，以此提高识别率。本发明专利技术就是充分利用相关性强的单据，通过语义关联分析及知识跨单据迁移，动态调整后续识别字符的权重，从而提高文本识别的正确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
票据进行批量OCR识别方法及系统

[0001]本专利技术涉及图像识别领域，尤其票据进行批量OCR识别方法及系统。

技术介绍

[0002]票据是在涉及经济、运输等业务的载明交易、事项实际情况的书面证明，货款的支付、权利凭证的纸质或电子依据。可以以票据作为提取、消费、权限的依据，由于种类多种多样，故票据的模式匹配、定位和识别十分的困难。
[0003]虽然由于票据五花八门的种类，例如发票、机票、火车票、收据、凭条、存根、购物券等，这些不同的票据，特征词位置不一样，敏感词的表达形式也各有差异，数字的大小写也无规范，故如果票据数量多的话，在审计工作中，审计规则的内容集合，包括：发票类型、单位名称、金额的审计规则的集合，类别多种多样，故通过人工进行识别判断十分的困难，极易出错。
[0004]中国南方电网有限责任公司在201911404676.6公开了一种基于特征检测的OCR识别票据问题的方法及系统，通过对票据图像进行背景消除并去噪处理得到第一图像；对第一图像做投影变换并去除分隔符后识别字符得到票据文本；抽取票据文本的关键词组合；将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集；若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息，有效的解决了原始文件字迹清晰度、整洁度等较难识别问题，能够大批量的导入票据，并快速的对票据进行相似度识别，利用基于文本字符特征的智能识别的智能检校实现OCR识别纠错，进一步提高准确率，根据定位出的风险点快速减少了审计的工作量，提升了此类信息化系统的用户体验...

【技术保护点】

【技术特征摘要】
1.一种票据进行批量OCR识别方法，其特征在于，包括：对待批量识别的票据图像进行预处理；获取所述待批量识别票据图像的票据数据，通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配，从所述匹配模板库中得到相似度最高的匹配模板；基于识别出来相似度最高的所述匹配模板，匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域；模糊匹配该批量待识别票据图像的所述待识别字符区域，通过跨票据计算相对应区域的汉明距离，动态调整候选字符信息的权重，以此提高识别率。2.如权利要求1所述的票据进行批量OCR识别方法，其特征在于，批量OCR识别之前还包括：预先通过人工标注每一模板的匹配锚点和关键词字符区，得到匹配模板库的匹配模板；“当前待识别票据对比匹配模板的匹配锚点及关键词字符区计算其相似度”进一步包括：当前待识别票据通过至少三个锚点确定来坐标体系，按左上角与左下角的连线和左上角与右上角的连线形成垂直角，分别作为当前票据坐标体系的横轴与纵轴；当前待识别票据与每一匹配模块的坐标体系对应，等比找到所述待识别票据相应锚点和对应的关键词字符区，所述对应关键词字符区进行批量识别数据提取时，只需确认该些字符是否与所述匹配模板上的字符是否匹配，匹配度最高的为所述票据对应的相似度最高匹配模板。3.如权利要求2所述的批量OCR识别方法，其特征在于，“对应关键词字符区进行批量识别数据提取时，只需确认该些字符是否与所述匹配模板上的字符是否匹配，只需确认该些字符是否与所述匹配模板上的字符是否匹配”进一步包括：当前待识别票据找到关键词字符区块，分别对每一块进行批量识别数据提取，与一匹配模块对应关键词字符区的字符或字符串，匹配计算相似度得到相似度向量，再通过欧几里德距离算法计算向量距离，从而得到相似度。4.如权利要求3所述的票据进行批量OCR识别方法，其特征在于，“通过跨票据计算相对应区域的汉明距离通过欧几里德距离算法计算向量距离”进一步包括：欧几里德距离是指多维空间两点间的距离，这是一种用直尺测量出来的距离，当前待识别票据中关键词字符区的字符与模板对应关键词字符区的字符分别标记为(x1，x2，x3....xn)和(y1，y2，y3.....yn)，则欧几里德距离的计算公式为：通过一一对待识别票据的关键词字符区的字符与匹配模板中对应区域的字符进行相似度计算，可得到匹配模块对应的相似度，以得到匹配模板库中相似度最高的匹配模块。5.如权利要求1所述的的票据进行批量OCR识别方法，其特征在于，“通过跨票据计算相对应区域的汉明距离”进一步包括：当前票据的待识别字符区域与N个关联...

【专利技术属性】
技术研发人员：丁雯，王义山，
申请(专利权)人：上海聚均科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人