【技术实现步骤摘要】
票据识别方法及装置
本公开实施例涉及人工智能(ArtificialIntelligence,AI)
,尤其涉及一种票据识别方法及装置。
技术介绍
目前,人们在日常生活和工作会涉及各种票据,如银行回单、发票、行程单、保险单、火车票、快递单等,这使得金融、教育、企业记账、审计、保险等行业对票据识别的需求越来越强烈。票据识别也称之为票据结构化,票据结构化是指利用预先设定的模板,从票据中提取出数据,并将提取出的数据填充到模板中得到结构化信息的过程,其中,模板是按照票据的排版样式设定的。以票据为银行回单为例,模板包含收款人姓名、付款人姓名、金额等字段,从银行回单中提取出具体的收款人姓名、付款人姓名、具体金额等,并填充在模板的相应位置,从而得到结构化信息。目前,互联网公司提供的票据识别包括银行回单识别、增值税发票识别、火车票识别、定额发票识别等。但是,对于同一类发票而言,属于该类别的票据的排版样式可能有多个,且不同排版样式中的关键字段(key)不同。例如,同是银行回单,不同银行的银行回单的排版样式不同,甚至同一银行的各个分行的银行回单的排版样式也不同。此时,如果针对每种排版样式设定模板,则成本高、过程复杂、容易出错,进而导致票据识别容易出错。
技术实现思路
本公开实施例提供一种票据识别方法及装置,基于可覆盖同一类别的多个排版样式的弱模板识别票据,从而提高票据识别的准确性。第一方面,本申请实施例提供一种票据识别方法,包括:接收票据识别请求指令;响应所述票据识别请求指令,对待识别票据 ...
【技术保护点】
1.一种票据识别方法,其特征在于,包括:/n接收票据识别请求指令;/n响应所述票据识别请求指令,对待识别票据的光学字符识别OCR文本进行预处理,以得到第一集合,所述第一集合包含所述OCR文本的至少一个字段;/n根据所述第一集合和第二集合,确定第三集合,所述第二集合包含至少一个关键字段,所述第三集合是所述第一集合和所述第二集合的交集,所述第二集合是根据多个样本票据得到的,所述待识别票据与所述样本票据属于同一种类型但排版样式不同;/n从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值;/n根据所述第三集合中的各个关键字段和各个关键字段分别对应的值,生成所述待识别票据的结构化信息并显示。/n
【技术特征摘要】
1.一种票据识别方法,其特征在于,包括:
接收票据识别请求指令;
响应所述票据识别请求指令,对待识别票据的光学字符识别OCR文本进行预处理,以得到第一集合,所述第一集合包含所述OCR文本的至少一个字段;
根据所述第一集合和第二集合,确定第三集合,所述第二集合包含至少一个关键字段,所述第三集合是所述第一集合和所述第二集合的交集,所述第二集合是根据多个样本票据得到的,所述待识别票据与所述样本票据属于同一种类型但排版样式不同;
从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值;
根据所述第三集合中的各个关键字段和各个关键字段分别对应的值,生成所述待识别票据的结构化信息并显示。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一集合和第二集合,确定第三集合,包括:
对于所述第二集合中的每一个关键字段,判断所述第一集合包含的至少一个字段中是否存在所述关键字段;
若所述第一集合包含的至少一个字段中存在所述关键字段,则判断所述关键字段与标志性词语之间的距离是否小于第一阈值,所述标志性词语用于区分名称相同但含义不同的关键字段,所述标志性词语位于所述第一集合;
若所述关键字段与所述标志性词语与之间的距离小于所述第一阈值,则将所述关键字段存储至所述第三集合。
3.根据权利要求1所述的方法,其特征在于,所述从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值,包括:
按照所述待识别票据的排版样式对所述第一集合包含的至少一个字段排序,得到第一字段队列;
按照所述第一字段队列对所述第三集合中的关键字段进行排序,得到第二字段队列;
从所述第一集合中确定出第一关键字段和第二关键字段之间的中间字段,所述第一关键字段和所述第二关键字段是所述第二字段队列中相邻的两个关键字段,且所述第二关键字段在所述第一关键字段的后面;
根据所述中间字段,确定所述第一关键字段对应的值。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述从所述第一集合中确定出所述第三集合包含的各个关键字段分别对应的值之后,还包括:
根据所述第一集合和所述第三集合,确定第四集合,所述第四集合是所述第一集合的子集、所述第四集合与所述第三集合的交集为空、且所述第四集合不包含所述第三集合中的各个关键字段对应的值;
切分所述第四集合中的各个字段,以得到多个子字段;
确定所述多个子字段中的每个子字段对应的关键字段。
5.根据权利要求1~3任一项所述的方法,其特征在于,所述样本票据至少为两个,不同的样本票据的排版样式不同,所述根据所述第一集合和第二集合,确定第三集合之前,还包括:
从每个所述样本票据中提取出目标关键字段,各所述样本票据的目标关键字段的名称不同但含义相同;
根据各所述样本票据的名称不同但含义相同的目标关键字段生成所述第二集合,以使得所述第二集合包含的关键字段中的至少两个关键字段的名称不同但含义相同。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一集合和第二集合,确定第三集合之后,还包括:
根据所述第一集合和所述第三集合,确定第四集合,所述第四集合是所述第一集合的子集、所述第四集合与所述第三集合的交集为空、且所述第四集合不包含所述第三集合中的各...
【专利技术属性】
技术研发人员:沈俊宇,向宇波,刘建夏,王佳阳,苏崔聪,孙尧佳,袁运筹,王天天,林海涛,张文康,宋乐侃,张红光,王磊,牛宝龙,张文东,喻友平,吴甜,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。