票据识别方法及装置制造方法及图纸

技术编号:23766459 阅读:37 留言:0更新日期:2020-04-11 20:05
本申请公开了一种票据识别方法及装置,涉及计算机视觉技术领域。具体实现方案为:预先从多个排版样式不同的票据中,提取出名称不同但含义相同的字段,将该些字段存储在第一集合中,需要票据识别时,利用该关键字段集合,自动将待识别的票据中的含义相似的字段提取出来作为关键字段,进而得到待识别票据的结构化信息,票据识别准确度高。

Bill identification method and device

【技术实现步骤摘要】
票据识别方法及装置
本公开实施例涉及人工智能(ArtificialIntelligence,AI)
,尤其涉及一种票据识别方法及装置。
技术介绍
目前,人们在日常生活和工作会涉及各种票据,如银行回单、发票、行程单、保险单、火车票、快递单等,这使得金融、教育、企业记账、审计、保险等行业对票据识别的需求越来越强烈。票据识别也称之为票据结构化,票据结构化是指利用预先设定的模板,从票据中提取出数据,并将提取出的数据填充到模板中得到结构化信息的过程,其中,模板是按照票据的排版样式设定的。以票据为银行回单为例,模板包含收款人姓名、付款人姓名、金额等字段,从银行回单中提取出具体的收款人姓名、付款人姓名、具体金额等,并填充在模板的相应位置,从而得到结构化信息。目前,互联网公司提供的票据识别包括银行回单识别、增值税发票识别、火车票识别、定额发票识别等。但是,对于同一类发票而言,属于该类别的票据的排版样式可能有多个,且不同排版样式中的关键字段(key)不同。例如,同是银行回单,不同银行的银行回单的排版样式不同,甚至同一银行的各个分行的银行回单的排版样式也不同。此时,如果针对每种排版样式设定模板,则成本高、过程复杂、容易出错,进而导致票据识别容易出错。
技术实现思路
本公开实施例提供一种票据识别方法及装置,基于可覆盖同一类别的多个排版样式的弱模板识别票据,从而提高票据识别的准确性。第一方面,本申请实施例提供一种票据识别方法,包括:接收票据识别请求指令;响应所述票据识别请求指令,对待识别票据的光学字符识别OCR文本进行预处理,以得到第一集合,所述第一集合包含所述OCR文本的至少一个字段;根据所述第一集合和第二集合,确定第三集合,所述第二集合包含至少一个关键字段,所述第三集合是所述第一集合和所述第二集合的交集,所述第二集合是根据多个样本票据得到的,所述待识别票据与所述样本票据属于同一种类型但排版样式不同;从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值;根据所述第三集合中的各个关键字段和各个关键字段分别对应的值,生成所述待识别票据的结构化信息并显示。采用该种方案,预先从多个排版样式不同的票据中,提取出名称不同但含义相同的字段,将该些字段存储在第一集合中,需要票据识别时,利用该关键字段集合,自动将待识别的票据中的含义相似的字段提取出来作为关键字段,进而得到待识别票据的结构化信息,票据识别准确度高。一种可行的设计中,所述根据所述第一集合和第二集合,确定第三集合,包括:对于所述第二集合中的每一个关键字段,判断所述第一集合包含的至少一个字段中是否存在所述关键字段;若所述第一集合包含的至少一个字段中存在所述关键字段,则判断所述关键字段与标志性词语之间的距离是否小于第一阈值,所述标志性词语用于区分名称相同但含义不同的关键字段,所述标志性词语位于所述第一集合;若所述关键字段与所述标志性词语与之间的距离小于所述第一阈值,则将所述关键字段存储至所述第三集合。采用这种方案,实现准确的从第一集合中确定出key的目的。一种可行的设计中,所述从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值,包括:按照所述待识别票据的排版样式对所述第一集合包含的至少一个字段排序,得到第一字段队列;按照所述第一字段队列对所述第三集合中的关键字段进行排序,得到第二字段队列;从所述第一集合中确定出第一关键字段和第二关键字段之间的中间字段,所述第一关键字段和所述第二关键字段是所述第二字段队列中相邻的两个关键字段,且所述第二关键字段在所述第一关键字段的后面;根据所述中间字段,确定所述第一关键字段对应的值。采用该种方案,实现快速确定出第三集合中的关键字段对应的值的目的。一种可行的设计中,所述从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值之后,还包括:根据所述第一集合和所述第三集合,确定第四集合,所述第四集合是所述第一集合的子集、所述第四集合与所述第三集合的交集为空、且所述第四集合不包含所述第三集合中的各个关键字段对应的值;切分所述第四集合中的各个字段,以得到多个子字段;确定所述多个子字段中的每个子字段对应的关键字段。采用该种方案,电子设备对第三集合中的每个关键字段确定可能的存值区域,在该存值区域搜索对应关键字段的值,并按照类型和过滤正则表达式过滤无关字段,进而通过二次识别提示准确率。一种可行的设计中,所述根据所述第一集合和第二集合,确定第三集合之后,还包括:根据所述第四集合和所述第一字段,确定第五集合,所述第五集合是所述第四集合的子集,且所述第五集合不包含所述第一字段;确定所述第五集合中第二字段是否为文字类型的字段;若所述第二字段是文字类型的字段,则确定所述第二字段对应的文字类型,并将所述文字类型作为关键字段增加至所述第二集合;若所述第二字段不是文字类型的字段,则利用正则表达式确定所述第二字段对应关键字段,并将所述关键字段增加至所述第二集合。采用该种方案,实现将新的排版样式中的无key字段对应的关键字段增加至第二集合的目的。一种可行的设计中,所述响应所述票据识别请求指令,对待识别票据的光学字符识别OCR文本进行预处理,以得到第一集合,包括:响应所述票据识别请求指令,切分所述OCR文本,以得到至少一个字符;将所述至少一个字中相邻的字符根据语义合并,以得到所述第一集合。采用该种方案,实现对待识别票据的OCR文本进行预处理以得到第一集合的目的。第二方面,本申请实施例提供一种票据识别装置,包括:接收模块,用于接收票据识别请求指令;预处理模块,用于响应所述票据识别请求指令,对待识别票据的光学字符识别OCR文本进行预处理,以得到第一集合,所述第一集合包含所述OCR文本的至少一个字段;第一确定模块,用于根据所述第一集合和第二集合,确定第三集合,所述第二集合包含至少一个关键字段,所述第三集合是所述第一集合和所述第二集合的交集,所述第二集合是根据多个样本票据得到的,所述待识别票据与所述样本票据属于同一种票据,所述待识别票据与所述样本票据属于同一种类型但排版样式不同;第二确定模块,用于从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值;第一生成模块,用于根据所述第三集合中的各个关键字段和各个关键字段分别对应的值,生成所述待识别票据的结构化信息;显示模块,用于显示待识别票据的结构化信息。一种可行的设计中,所述第一确定模块,对于所述第二集合中的每一个关键字段,判断所述第一集合包含的至少一个字段中是否存在所述关键字段,若所述第一集合包含的至少一个字段中存在所述关键字段,则判断所述关键字段与标志性词语之间的距离是否小于第一阈值,所述标志性词语用于区分名称相同但含义不同的关键字段,若所述关键字段与所述标志性词语与之间的距离小于所述第一阈值,则将所述关键字段存储至所述第三集合,所述标志性词语位于所述第一集合。一种可行的设计中,所述第二确定模块,用于按照所述待识别票据的排版样式对所述第一集合包含的至少一个字段排序,得到第一字段队列,按照所述本文档来自技高网...

【技术保护点】
1.一种票据识别方法,其特征在于,包括:/n接收票据识别请求指令;/n响应所述票据识别请求指令,对待识别票据的光学字符识别OCR文本进行预处理,以得到第一集合,所述第一集合包含所述OCR文本的至少一个字段;/n根据所述第一集合和第二集合,确定第三集合,所述第二集合包含至少一个关键字段,所述第三集合是所述第一集合和所述第二集合的交集,所述第二集合是根据多个样本票据得到的,所述待识别票据与所述样本票据属于同一种类型但排版样式不同;/n从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值;/n根据所述第三集合中的各个关键字段和各个关键字段分别对应的值,生成所述待识别票据的结构化信息并显示。/n

【技术特征摘要】
1.一种票据识别方法,其特征在于,包括:
接收票据识别请求指令;
响应所述票据识别请求指令,对待识别票据的光学字符识别OCR文本进行预处理,以得到第一集合,所述第一集合包含所述OCR文本的至少一个字段;
根据所述第一集合和第二集合,确定第三集合,所述第二集合包含至少一个关键字段,所述第三集合是所述第一集合和所述第二集合的交集,所述第二集合是根据多个样本票据得到的,所述待识别票据与所述样本票据属于同一种类型但排版样式不同;
从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值;
根据所述第三集合中的各个关键字段和各个关键字段分别对应的值,生成所述待识别票据的结构化信息并显示。


2.根据权利要求1所述的方法,其特征在于,所述根据所述第一集合和第二集合,确定第三集合,包括:
对于所述第二集合中的每一个关键字段,判断所述第一集合包含的至少一个字段中是否存在所述关键字段;
若所述第一集合包含的至少一个字段中存在所述关键字段,则判断所述关键字段与标志性词语之间的距离是否小于第一阈值,所述标志性词语用于区分名称相同但含义不同的关键字段,所述标志性词语位于所述第一集合;
若所述关键字段与所述标志性词语与之间的距离小于所述第一阈值,则将所述关键字段存储至所述第三集合。


3.根据权利要求1所述的方法,其特征在于,所述从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值,包括:
按照所述待识别票据的排版样式对所述第一集合包含的至少一个字段排序,得到第一字段队列;
按照所述第一字段队列对所述第三集合中的关键字段进行排序,得到第二字段队列;
从所述第一集合中确定出第一关键字段和第二关键字段之间的中间字段,所述第一关键字段和所述第二关键字段是所述第二字段队列中相邻的两个关键字段,且所述第二关键字段在所述第一关键字段的后面;
根据所述中间字段,确定所述第一关键字段对应的值。


4.根据权利要求1~3任一项所述的方法,其特征在于,所述从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值之后,还包括:
根据所述第一集合和所述第三集合,确定第四集合,所述第四集合是所述第一集合的子集、所述第四集合与所述第三集合的交集为空、且所述第四集合不包含所述第三集合中的各个关键字段对应的值;
切分所述第四集合中的各个字段,以得到多个子字段;
确定所述多个子字段中的每个子字段对应的关键字段。


5.根据权利要求1~3任一项所述的方法,其特征在于,所述样本票据至少为两个,不同的样本票据的排版样式不同,所述根据所述第一集合和第二集合,确定第三集合之前,还包括:
从每个所述样本票据中提取出目标关键字段,各所述样本票据的目标关键字段的名称不同但含义相同;
根据各所述样本票据的名称不同但含义相同的目标关键字段生成所述第二集合,以使得所述第二集合包含的关键字段中的至少两个关键字段的名称不同但含义相同。


6.根据权利要求5所述的方法,其特征在于,所述根据所述第一集合和第二集合,确定第三集合之后,还包括:
根据所述第一集合和所述第三集合,确定第四集合,所述第四集合是所述第一集合的子集、所述第四集合与所述第三集合的交集为空、且所述第四集合不包含所述第三集合中的各...

【专利技术属性】
技术研发人员:沈俊宇向宇波刘建夏王佳阳苏崔聪孙尧佳袁运筹王天天林海涛张文康宋乐侃张红光王磊牛宝龙张文东喻友平吴甜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1