一种发票识别方法及装置制造方法及图纸

技术编号:24093491 阅读:38 留言:0更新日期:2020-05-09 09:09
一种发票识别方法及装置,包括如下步骤:获取发票;将所述发票按照内容进行切割得到分区;对分区中的内容按照条目进行切割得到子集;对所述子集进行识别得到相应子集的子集内容;将全部子集的子集内容还原到所述发票的相应位置得到发票内容。本申请利用发票本身的特点,将发票进行二次分割,首先得到分区然后得到子集,由于子集和分区的依次切割,使得可以根据子集的具体内容进行相对定向的识别,可以提高识别的速率和准确性。

An invoice recognition method and device

【技术实现步骤摘要】
一种发票识别方法及装置
本申请涉及一种发票识别方法及装置。
技术介绍
发票作为经济活动的一个重要的税务和记账载体,具有非常广泛的应用,尤其在报销中,一般作为报销凭证使用。现有的方法多是将发票进行人工识别,此种方式首先是比较繁琐,耗费非常大的人工;其次是效率极低。现在有些采用OCR识别的方式来获取发票信息,甚至是采用深度学习的方式进行模型训练,但是由于发票信息本身的多维性,其识别效果以及识别效率并不是非常好,另一方面,由于没有照顾到发票信息的多维性,对于OCR识别结果没有很好的校正作用。
技术实现思路
为了解决上述问题,本申请一方面提出了一种发票识别方法,包括如下步骤:获取发票;将所述发票按照内容进行切割得到分区;对分区中的内容按照条目进行切割得到子集;对所述子集进行识别得到相应子集的子集内容;将全部子集的子集内容还原到所述发票的相应位置得到发票内容。本申请利用发票本身的特点,将发票进行二次分割,首先得到分区然后得到子集,由于子集和分区的依次切割,使得可以根据子集的具体内容进行相对定向的识别,可以提高识别的速率和准确性。在进行本文档来自技高网...

【技术保护点】
1.一种发票识别方法,其特征在于:包括如下步骤:/n获取发票;/n将所述发票按照内容进行切割得到分区;/n对分区中的内容按照条目进行切割得到子集;/n对所述子集进行识别得到相应子集的子集内容;/n将全部子集的子集内容还原到所述发票的相应位置得到发票内容。/n

【技术特征摘要】
1.一种发票识别方法,其特征在于:包括如下步骤:
获取发票;
将所述发票按照内容进行切割得到分区;
对分区中的内容按照条目进行切割得到子集;
对所述子集进行识别得到相应子集的子集内容;
将全部子集的子集内容还原到所述发票的相应位置得到发票内容。


2.根据权利要求1所述的一种发票识别方法,其特征在于:还包括一分区模型,所述分区模型用于切割发票以得到分区,所述分区模型按照如下方式训练得到:
获取已经标注好的发票;
将标注好的发票进行分类整理以及边界识别,然后定位并且识别内部文字的方式进行识别训练,得到模型后利用其它标注好的发票进行测试,经筛选得到分区模型;
所述分区模型按照如下方法进行:先采用Leaders聚类算法对标注好的分区进行预处理,生成多个样本子集,然后对样本子集进行抽样,最后进行K-means聚类操作,通过计算各个样本子集间的均值距离整合聚类结果确定anchor;用多尺度融合,在进行多尺度融合时采用上采样融合操作。


3.根据权利要求1所述的一种发票识别方法,其特征在于:还包括一子集分割模型,所述子集分割模型用于切割分区以得到子集,所述子集分割模型按照如下方式训练得到:
获取已经标注好的分区;
将标注好的分区直接进行在不提取边框的情况下进行文字识别以训练模型,得到模型后利用其它标注好的分区进行测试,经筛选得到子集分割模型;


4.根据权利要求3所述的一种发票识别方法,其特征在于:所述子集分割模型的训练过程中,所述标注好的分区按照其图片分辨率大小...

【专利技术属性】
技术研发人员:杜明本钟琴隆杜志诚于文才孙凡波孙品岳猛殷忠源
申请(专利权)人:山东旗帜信息有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1