票据识别方法、装置、设备和存储介质制造方法及图纸

技术编号:24500852 阅读:97 留言:0更新日期:2020-06-13 05:03
一种票据识别方法、票据识别装置、智能票据识别设备和非瞬时性计算机可读存储介质。票据识别方法包括:获得票据图像;利用区域识别模型识别票据图像,以得到多个字符区域;利用字符识别模型识别多个字符区域,以得到多个字符内容;根据多个字符内容,确定票据的票据信息。根据多个字符内容,确定与待识别的票据对应的票据信息,包括:根据多个字符内容,确定与N个预设关键词对应的N个关键词字符区域;确定与N个关键词字符区域对应的M个候选字符区域;利用评分模型基于在票据图像中N个关键词字符区域和M个候选字符区域的距离和偏离角度进行评分,以确定与N个预设关键词对应的Q个字符内容;根据Q个字符内容,确定票据信息中的目标信息。

Bill identification method, device, equipment and storage medium

【技术实现步骤摘要】
票据识别方法、装置、设备和存储介质
本公开的实施例涉及一种票据识别方法、票据识别装置、智能票据识别设备和非瞬时性计算机可读存储介质。
技术介绍
随着经济的不断发展,人们的消费水平不断的提高,为了维护人们的消费权益,票据成为了消费者的有力保障以及有效的报销凭证,因此财务人员每天需要处理大量的票据,获取票据上的相关信息,如开票时间、开票店铺、付款金额等。另外,也有越来越多的人通过记账分类统计以掌握自身的消费情况,目前人们通常是通过手动记录票据中相关信息的方式进行记账的。因此如何自动识别票据上的相关信息对财务人员以及有记账分类统计的个人来说是十分重要的。
技术实现思路
本公开至少一个实施例提供一种票据识别方法,包括:获得票据图像,其中,票据图像包括待识别的票据;利用区域识别模型识别票据图像,以得到多个字符区域;利用字符识别模型识别多个字符区域,以得到与多个字符区域对应的多个字符内容;根据多个字符内容,确定与待识别的票据对应的票据信息;其中,票据信息包括目标信息,根据多个字符内容,确定与待识别的票据对应的票据信息,包括:根据多个字符本文档来自技高网...

【技术保护点】
1.一种票据识别方法,包括:/n获得票据图像,其中,所述票据图像包括待识别的票据;/n利用区域识别模型识别所述票据图像,以得到多个字符区域;/n利用字符识别模型识别所述多个字符区域,以得到与所述多个字符区域对应的多个字符内容;/n根据所述多个字符内容,确定与所述待识别的票据对应的票据信息;/n其中,所述票据信息包括目标信息,/n根据所述多个字符内容,确定与所述待识别的票据对应的票据信息,包括:/n根据所述多个字符内容,确定所述多个字符区域中与N个预设关键词对应的N个关键词字符区域;/n从所述多个字符区域中确定与所述N个关键词字符区域对应的M个候选字符区域;/n利用评分模型基于在所述票据图像中所...

【技术特征摘要】
20190509 CN 20191038614901.一种票据识别方法,包括:
获得票据图像,其中,所述票据图像包括待识别的票据;
利用区域识别模型识别所述票据图像,以得到多个字符区域;
利用字符识别模型识别所述多个字符区域,以得到与所述多个字符区域对应的多个字符内容;
根据所述多个字符内容,确定与所述待识别的票据对应的票据信息;
其中,所述票据信息包括目标信息,
根据所述多个字符内容,确定与所述待识别的票据对应的票据信息,包括:
根据所述多个字符内容,确定所述多个字符区域中与N个预设关键词对应的N个关键词字符区域;
从所述多个字符区域中确定与所述N个关键词字符区域对应的M个候选字符区域;
利用评分模型基于在所述票据图像中所述N个关键词字符区域和所述M个候选字符区域的距离和偏离角度进行评分,以确定与所述N个预设关键词对应的Q个字符内容;
根据所述Q个字符内容,确定所述目标信息,其中,N、M和Q均为正整数。


2.根据权利要求1所述的票据识别方法,其中,N和/或M大于等于2,
利用评分模型基于在所述票据图像中所述N个关键词字符区域和所述M个候选字符区域的距离和偏离角度进行评分,以确定与所述N个预设关键词对应的Q个字符内容,包括:
根据所述N个关键词字符区域和所述M个候选字符区域,确定多个评分计算组,其中,每个所述评分计算组表示所述N个关键词字符区域和所述M个候选字符区域的一种对应关系;
基于所述N个关键词字符区域和所述M个候选字符区域的距离和偏离角度,计算所述多个评分计算组对应的多个评分,并将所述多个评分中最高评分对应的评分计算组确定为目标评分计算组;
根据所述目标评分计算组表示的所述N个关键词字符区域和所述M个候选字符区域的对应关系,确定与所述N个预设关键词对应的所述Q个字符内容。


3.根据权利要求2所述的票据识别方法,其中,计算所述多个评分计算组对应的多个评分包括:
对于所述多个评分计算组中的每个评分计算组,根据该评分计算组中的所述N个关键词字符区域和所述N个关键词字符区域对应的候选字符区域的距离和偏离角度,计算得到所述N个关键词字符区域对应的N个评分,其中,在该评分计算组中,每个关键词字符区域的中心及其对应的候选字符区域的中心之间的连线的距离越大,则每个关键词字符区域对应的评分越小,每个关键词字符区域及其对应的候选字符区域的偏离角度表示每个关键词字符区域的中心及其对应的候选字符区域的中心之间的连线和预设方向之间的夹角,每个关键词字符区域及其对应的候选字符区域的偏离角度越小,则每个关键词字符区域对应的评分越大;
对所述N个评分进行求和以得到该评分计算组对应的评分,从而得到所述多个评分计算组对应的多个评分。


4.根据权利要求1-3任一项所述的票据识别方法,其中,从所述多个字符区域中确定与所述N个关键词字符区域对应的M个候选字符区域,包括:
所述区域识别模型基于所述N个预设关键词,确定评分汇总区域;
基于所述评分汇总区域,从所述多个字符区域中确定所述M个候选字符区域,其中,所述M个候选字符区域位于所述评分汇总区域内。


5.根据权利要求1-3任一项所述的票据识别方法,其中,所述目标信息为项目数量且由数字表示,
所述M个候选字符区域每个内的字符内容为数字。


6.根据权利要求5所述的票据识别方法,其中,所述N个预设关键词包括金额关键词,
根据所述Q个字符内容,确定所述目标信息,包括:
将所述N个预设关键词组成待查询词组,从规则数据库中选择所述待查询词组对应的目标金额确定规则,其中,所述规则数据库中存储有不同的多个待查询词组以及所述多个待查询词组对应的金额确定规则;
根据所述目标金额确定规则,确定所述N个预设关键词中的所述金额关键词;
根据所述金额关键词确定所述Q个字符内容中与所述金额关键词对应的字符内容;
根据与所述金额关键词对应的字符内容,确定所述项目数量。


7.根据权利要求1所述的票据识别方法,其中,所述票据信息还包括项目名称,
根据所述多个字符内容,确定与所述待识别的票据对应的票据信息,还包括:
利用文本分类识别模型对所述多个字符内容进行分类,以确定至少一个候选项目名称;
根据所述至少一个候选项目名称确定与所述待识别的票据对应的所述项目名称。


8.根据权利要求7所述的票据识别方法,其中,根据所述至少一个候选项目名称确定与所述待识别的票据对应的所述项目名称包括:
对所述至少一个候选项目名称进行排序,以确定至少一个候选项目名称组,其中,所述至少一个候选项目名称组中的每个候选项目名称组中的所有候选项目名称相同;
根据所述至少一个候选项目名称组,确定目标候选项目名称组,其中,所述目标候选项目名称组中的候选项目名称的数量多于所述至少一个候选项目名称组中的其余任一候选项目名称组中的候选项目名称的数量;
将所述目标候选项目名称组对应的候选项目名称作为所述项目名称。


9.根据权利要求7或8所述的票据识别方法,其中,所述票据信息还包括项目地址,
根据所述多个字符内容,确定与所述待识别的票据对应的票据信息,还包括:
利用所述文本分类识别模型对所述多个字符内容进行分类,以确定至少一个候选项目地址;
根据所述至少一个候选项目地址确定与所述待识别的票据对应的所述项目地址。


10.根据权利要求9所述的票据识别方法,其中,根据所述至少一个候选项目地址确定与所述待识别的票据对应的所述项目地址包括:
对所述至少一个候选项目地址进行排序,以确定至少一个候选项目地址组,其中,所述至少一个候选项目地址组中的每个候选项目地址组中的所有候选项目地址相同;
根据所述至少一个候选项目地址组,确定目标候选项目地址组,其中,所述目标候选项目地址组中的候选项目地址的数量多于所述至少一个候选项目地址组中的其余任一选项目地址组中的候选项目地址的数量;
将所述目标候选项目地址组对应的候选项目地址作为所述项目地址。


11.根据权利要求1所述的票据识别方法,其中,所述票据信息还包括项目名称,
根据所述多个字符内容,确定与所述待识别的票据对应的票据信息,还包括:
利用文本分类识别模型对所述多个字符内容进行分类,以确定至少一个第一候选项目名称;
根据所述多个字符内容在项目名称数据库中进行搜索,确定至少一个第二候选项目名称;
根据所述至少一个第一候选项目名称和所述至少一个第二候选项目名称,确定与所述待识别的票据对应的所述项目名称。


12.根据权利要求11所述的票据识别方法,其中,当所述待识别的票据中包含图案时,根据所述多个字符内容在项目名称数据库中进行搜索,确定至少一个第二候选项目名称包括:
采用所述区域识别模型识别所述票据图像中所述图案所在的图案区域;
根据所述图案区域判断项目名称数据库中是否存在与所述图案相匹配的项目图案,
如果所述项目名称数据库中存在与所述图案相匹配的项目图案,则将与所述图案相匹配的所述项目图案对应的项目名称确定为...

【专利技术属性】
技术研发人员:徐青松李青
申请(专利权)人:杭州睿琪软件有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1