票据信息处理方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:35307539 阅读:25 留言:0更新日期:2022-10-22 12:58
本发明专利技术提供了一种票据信息处理方法、装置、电子设备及计算机存储介质,该方法包括:根据票据的OCR识别结果,对票据进行结构化处理,以获得票据对应的结构化信息,结构化信息包括票据中的关键词和关键词对应的关键词内容;获取预设的标准词库,标准词库包括不同关键词对应的标准词;根据待纠正的关键词内容对应的关键词,从标准词库中确定候选标准词;使用候选标准词对待纠正的关键词内容进行纠正。本发明专利技术实施例中,根据待纠正的关键词内容对应的关键词在预设的标准词库中确定与之对应的候选标准词,使用候选标准词对待纠正的关键词内容进行纠正,以使得获取到的票据信息更贴近标准词库,提高票据信息识别的准确率。提高票据信息识别的准确率。提高票据信息识别的准确率。

【技术实现步骤摘要】
票据信息处理方法、装置、电子设备及计算机存储介质


[0001]本专利技术涉及一种图像识别
,尤其涉及一种票据信息处理方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]现有的票据信息识别一般依赖于OCR(Optical

Character

Recognition,光学字符识别)技术,一般指通过电子设备(例如扫描仪或者数码相机等)检查纸上打印的字符,通过检测亮、暗的模式确定字符形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,将非结构化的票据数据转化为结构化数据,以实现票据信息的提取,供文字处理软件进一步编辑加工的技术。
[0003]但是,目前OCR技术对于票据的识别存在精度不足的问题,容易出现字符识别错误的情况,因此,市场上亟需一种可以提高票据识别效率的处理方法、装置、电子设备及计算机存储介质。

技术实现思路

[0004]本专利技术实施例提本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种票据信息处理方法,其特征在于,包括:根据票据的OCR识别结果,对所述票据进行结构化处理,以获得所述票据对应的结构化信息,所述结构化信息包括票据中的关键词和所述关键词对应的关键词内容;获取预设的标准词库,所述标准词库包括不同关键词对应的标准词;根据待纠正的关键词内容对应的关键词,从所述标准词库中确定候选标准词;使用所述候选标准词对所述待纠正的关键词内容进行纠正。2.根据权利要求1所述的方法,其特征在于,所述根据待纠正的关键词内容对应的关键词,从所述标准词库中确定候选标准词,包括:从所述标准词库中选取标准词对应的关键词与待纠正的关键词内容所属的关键词一致的标准词作为候选标准词。3.根据权利要求1或2所述的方法,其特征在于,所述使用所述候选标准词对所述待纠正的关键词内容进行纠正,包括:若所述待纠正的关键词内容的关键词包括地址,则按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段;针对各所述地址片段,确定所述地址片段与所述候选标准词之间的相似度;若存在相似度大于设定的地址阈值的标准词,则使用所述相似度大于阈值的候选标准词替换所述地址片段。4.根据权利要求3所述的方法,其特征在于,所述按照地址划分规则对用于指示地址的关键词内容进行切分,以获得切分出的多个地址片段,包括:使用正则表达式从所述关键词内容中切分出省级、市级、区级、具体地址级中至少一级地址片段。5.根据权利要求1或2所述的方法,其特征在于,所述使用所述候选标准词对所述待纠正的关键词内容进行纠正,包括:若所述待纠正的关键词内容对应的关键词包括金额,则基于金额类的候选标准词,确定金额的汉字金额和数字金额的对应关系;从指示金额的关键词内容中获取汉字金额的字符串;使用金额类的候选标准词对所述汉字金额的字符串进行纠正。6.根据权利要求5所述的方法,其特征在于,所述使用金额类的候选标准词对所述汉字金额的字符串进行纠正,包括:针对汉字金额的字符串中的各字符,获取各字符对应的OCR识别结果中置信度最高的前K个预测字符;若所述前K个预测字符中包含金额类的候选标准词,则将所述字符确定...

【专利技术属性】
技术研发人员:李国库佟德超
申请(专利权)人:盐城金堤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1