一种基于深度学习的多类别发票识别方法及系统技术方案

技术编号：34564418 阅读：21 留言：0更新日期：2022-08-17 12:53

本发明专利技术属于图像处理领域，提供了一种基于深度学习的多类别发票识别方法及系统。该方法包括，获取待处理的发票；基于待处理的发票，采用发票检测模型，得到发票区域和类别；对所述待处理的发票进行预处理；基于预处理后的发票，结合该发票对应的类别，采用与该类别对应的发票特定文本区域检测模型，得到重要文本块区域，进而切分成单行文本区域；基于单行文本区域，采用文本识别模型，得到文本信息；基于文本信息，对字段信息进行正则化校正，得到发票结构化文本信息，最终可以对火车票、联式增值税发票(专用发票、普通发票、电子发票)、卷式增值税发票、定额发票中的内容进行高准确率的识别。别。别。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的多类别发票识别方法及系统

[0001]本专利技术属于图像处理领域，尤其涉及一种基于深度学习的多类别发票识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]发票报销是财务管理的重要组成部分，是彰显财务管理质量和服务水平的基础。但是大部分发票报销工作依旧需要人工参与完成，不但给税务人员增加了很多重复性工作，还占用了报销者大量额外精力。分析现有的发票识别方法，主要存在以下问题：
[0004]1、当前现有的发票有：联式增值税发票(专用发票、普通发票、电子发票)、卷式增值税发票、火车票、出租车票、定额发票；现有的发票识别系统仅是对已知类别的、单种类的发票进行文本识别，无法做到同时对多张未知的、不同种类的发票进行识别，需求功能受限。
[0005]2、实际发票报销流程中，经常会有将多张不同种类发票平铺黏贴在一张A4纸上进行识别的需求；而现有的发票识别系统，仅能对拍摄画面中单张、单种类发票进行文本识别，需要人工进行调整，功能受限，不智能化、自动化。
[0006]3、现有发票识别系统在发票预处理阶段仅能对些许倾斜的发票进行校正，但当发票旋转90
°
、180
°
、270
°
放置时，则无法自动化处理，需要人工干预摆正，无疑增加了工作人员负担。
[0007]4、当前现有的发票识别系统仅具有单一发票文本识别的功能，不具备对联式增值税发票(专用发票、普通发票...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的多类别发票识别方法，其特征在于，包括：获取待处理的发票；基于待处理的发票，采用发票检测模型，得到发票的类型；对所述待处理的发票进行预处理；基于预处理后的发票，结合该发票对应的类别，采用与该类别对应的发票特定文本区域检测模型，得到重要文本块区域，进而切分成单行文本区域；基于单行文本区域，采用文本识别模型，得到文本信息；基于文本信息，对字段信息进行正则化校正，得到发票结构化文本信息。2.根据权利要求1所述的基于深度学习的多类别发票识别方法，其特征在于，所述发票的类别包括：火车票、联式增值税发票、卷式增值税发票和定额发票。3.根据权利要求1所述的基于深度学习的多类别发票识别方法，其特征在于，所述预处理包括对待处理的发票进行边缘检测、轮廓检测、仿射变换和/或角度旋转校正，得到预处理后的发票。4.根据权利要求1所述的基于深度学习的多类别发票识别方法，其特征在于，所述发票文本区域检测模型包括：火车票文本区域检测模型、联式增值税发票文本区域检测模型、卷式增值税发票文本区域检测模型和定额发票文本区域检测模型。5.根据权利要求4所述的基于深度学习的多类别发票识别方法，其特征在于，所述卷式增值税发票文本区域检测模型检测的过程包括：基于预处理后的卷式增值税发票，采用卷式增值税发票文本区域检测模型，得到文本信息块区域，对文本信息块区域，采用图像处理、单行文本检测模型，得到单行文本区域。6.根据权利要求4所述的基于深度学习的多类别发票识别方法，其特征在于，所述联式增值税发票文本区域检测模型检测的过程包括：基于预处理后的发票，采用联式增值税发票文本区域检测模型，对发票抬头区域进行文本识别，得到联...

【专利技术属性】
技术研发人员：郭庆汝，孙卫超，赵振江，
申请(专利权)人：山东国子软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人