票据识别方法、电子设备、存储介质及装置制造方法及图纸

技术编号：24997051 阅读：42 留言：0更新日期：2020-07-24 17:59

公开了一种票据识别方法、电子设备、存储介质及装置。方法包括：基于每个票据的票面特征建立包括多个识别区域定位模板的票据模板库；识别用户上传的票据图片的票面特征并基于票面特征匹配对应的识别区域定位模板；基于识别区域定位模板对票据图片进行裁切处理获得票据图片的多个图像切片；通过OCR自动识别算法识别每个图像切片中的字段，并筛选出存在重叠的票据字段的图像切片以及OCR自动识别算法无法准确识别的模糊图像切片；对存在重叠的票据字段的图像切片进行过滤处理并提取对应的字段信息；对模糊图像切片建立对应的人工识别派单任务分发至多个众包人员。实现了全方位的提高了票据图片的识别精度与效率。

全部详细技术资料下载

【技术实现步骤摘要】
票据识别方法、电子设备、存储介质及装置
本专利技术涉及数据处理领域，更具体地，涉及一种票据识别方法、电子设备、存储介质及装置。
技术介绍
OCR(OpticalCharacterRecognition，光学字符识别)是模式识别领域中重要的研究方向。近年来，随着移动设备的快速更新迭代，以及移动互联网的快速发展，使得OCR有更为广泛的应用场景，从以往的扫描文件的字符识别，到现在应用到自然场景中图片文字的识别，如识别身份证、银行卡、门牌、票据及各类网络图片中的文字。大型企业、机构、医院体检、保险行业等都有海量的票据需要进行信息的采集、录入以及电子化存档。目前票据数字化管理程度还比较低，常采用的手动录入、人工建档的方式劳动强度大、效率低且成本开支大，而且容易出错。虽然目前能利用机器学习方法基于OCR技术进行票据识别，但识别精度不高，这样就会造成票据多种信息的错误，无法快速建档，提高工作效率。因此，有必要开发一种票据识别方法，以提高票据数据的识别精度和识别效率。
技术实现思路
本专利技术提出了一种票...

【技术保护点】
1.一种票据识别方法，其特征在于，包括：/n采集多个不同票据的票面特征，基于每个票据的票面特征建立包括多个识别区域定位模板的票据模板库；/n识别用户上传的票据图片的票面特征，并基于所述票面特征从模板库中匹配对应的识别区域定位模板；/n基于所述识别区域定位模板对所述票据图片进行裁切处理，以获得所述票据图片中对应多个不同区域票据字段的多个图像切片；/n通过OCR自动识别算法识别每个所述图像切片中的字段，并筛选出存在重叠的票据字段的图像切片以及所述OCR自动识别算法无法准确识别的模糊图像切片；/n对所述存在重叠的票据字段的图像切片进行过滤处理并提取对应的字段信息；/n对所述模糊图像切片建立对应的人工...

【技术特征摘要】
1.一种票据识别方法，其特征在于，包括：
采集多个不同票据的票面特征，基于每个票据的票面特征建立包括多个识别区域定位模板的票据模板库；
识别用户上传的票据图片的票面特征，并基于所述票面特征从模板库中匹配对应的识别区域定位模板；
基于所述识别区域定位模板对所述票据图片进行裁切处理，以获得所述票据图片中对应多个不同区域票据字段的多个图像切片；
通过OCR自动识别算法识别每个所述图像切片中的字段，并筛选出存在重叠的票据字段的图像切片以及所述OCR自动识别算法无法准确识别的模糊图像切片；
对所述存在重叠的票据字段的图像切片进行过滤处理并提取对应的字段信息；
对所述模糊图像切片建立对应的人工识别派单任务，并将所述人工识别派单任务同时分发至多个众包人员；
接收人工识别返回的人工识别字段信息，并将所述人工识别字段信息与所述OCR自动识别算法识别出的字段信息分别进行结构化输出。

2.根据权利要求1所述的票据识别方法，其特征在于，基于每个票据的票面特征建立包括多个识别区域定位模板的票据模板库包括：
基于每个票据的所述票面特征获取每个票据中必要的票据字段、票据类别及所属单位信息的所在位置，建立对应每个票据的识别区域定位模板；
将每个识别区域定位模板与对应票据的票据类别及所属单位信息进行关联，并建立包括多个识别区域定位模板的票据模板库；其中，
所述识别区域定位模板包括对应所述票据图片的中多个必要的票据字段所在位置的多个框选识别区域，且每个所述框选识别区域对应不同的字段属性。

3.根据权利要求2所述的票据识别方法，其特征在于，识别用户上传的票据图片的票面特征，并基于所述票面特征从模板库中匹配对应的识别区域定位模板包括：
识别用户上传的票据图片的票据类别及所属单位信息，并基于识别结果通过精确匹配方法或模糊匹配方法从所述票据模板库中匹配对应的识别区域定位模板。

4.根据权利要求2所述的票据识别方法，其特征在于，获得所述票据图片中对应多个不同区域票据字段的多个图像切片的同时还包括：
使每个图像切片关联一个对应所在框选识别区域的所述字段属性；
对所述存在重叠的票据字段的图像切片进行过滤处理并提取对应的字段信息包括：
基于所述图像切片关联的字段属性对所述图像切片中的多个重叠票据字段进行过滤处理，并只对与所述字段属性对应的票据字段进行字段信息识别提取，同时将识别提取出的字段信息进行结构化数据输出。

5.根据权利要求2所述的票据识别方法，其特征在于，对所述模糊图像切片建立对应的人工识别派单任务，并将所述人工识别派单任务同时分发至多个众包人员包括：
基于所述模糊图像切片的字段属性判断所述模糊图像切片中是否存在隐私信息；
若存在隐私信息，则对所述...

【专利技术属性】
技术研发人员：孟波川，黄煦，李建，
申请(专利权)人：安诚迈科北京信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人