增值税发票自动识别与管理方法及系统技术方案

技术编号:32539295 阅读:21 留言:0更新日期:2022-03-05 11:35
本发明专利技术公开了增值税发票自动识别与管理方法及系统,属于发票识别领域,本发明专利技术要解决的技术问题为发票录入任务中效率低以及准确率低,技术方案为:该方法具体如下:对发票进行自动识别获取发票图像采集;采集完毕后,对发票图像进行预处理,得到发票图像灰度图;将发票图像灰度图进行发票信息识别提取;通过级联目标检测器对发票内容各区域进行检测区域;通过发票内容识别器对检测分割区域的发票内容进行识别,得到识别结果与得分;根据所设置的置信区间,将得分分为三个等级,具体如下:得分≥阈值1时,直接将记录进行入库操作;得分<阈值1或得分≥阈值2时,进行人工校正,经人工校正识别信息后,进行入库操作。进行入库操作。进行入库操作。

【技术实现步骤摘要】
增值税发票自动识别与管理方法及系统


[0001]本专利技术涉及发票识别领域,具体地说是一种增值税发票自动识别与管理方法及系统。

技术介绍

[0002]发票数据一直以来都是财政相关部门,涉税部门等关注的重要数据,随着数字化时代的飞速到来,如何快速处理大规模的发票数据成为了一个重要研究技术。当前对于纸质发票的人工录入处理,存在效率低下,反应滞后,难以大规模批量处理大量发票信息的痛点。对于已存在的扫描录入技术,例如OCR等,存在着准确率较低,难以准确识别高噪声数据例如污损图像等。
[0003]近年来,随着深度学习目标检测与识别技术的发展,涌现了一批高效率,高识别率的算法,利用该类算法对发票图像进行特征提取与识别,一定程度上改善了上述发票录入中速度慢,精准率较低的痛点,达到更加实时化,批量化的发票录入目的,但是仍然不能完全解决发票录入任务中效率低以及准确率低的问题。

技术实现思路

[0004]本专利技术的技术任务是提供一种增值税发票自动识别与管理方法及系统,来解决发票录入任务中效率低以及准确率低的问题。
[0005]本专利技术的技术任务是按以下方式实现的,一种增值税发票自动识别与管理方法,该方法具体如下:
[0006]对发票进行自动识别获取发票图像采集;
[0007]采集完毕后,对发票图像进行预处理,得到发票图像灰度图;
[0008]将发票图像灰度图进行发票信息识别提取;
[0009]通过级联目标检测器对发票内容各区域进行检测区域;
[0010]通过发票内容识别器对检测分割区域的发票内容进行识别,得到识别结果与得分;
[0011]根据所设置的置信区间,将得分分为三个等级,具体如下:
[0012]得分≥阈值1时,直接将记录进行入库操作;
[0013]得分<阈值1或得分≥阈值2时,进行人工校正,经人工校正识别信息后,进行入库操作;
[0014]得分<阈值2时,选择直接放弃,用户手动录入该条发票信息,并进行入库操作。
[0015]作为优选,发票图像是通过扫描仪或相机等设备,采集增值税发票信息,保存为图像模式;
[0016]图像预处理包括发票信息标注、腐蚀膨胀、去除图像噪声、灰度化及图形归一化操作。
[0017]作为优选,通过级联目标检测器对发票内容各区域进行检测区域具体如下:
[0018]训练模式:进行图像标签信息的人工标注,通过级联目标检测器和图像识别器进行有监督训练;
[0019]推理模式:将级联目标检测器得到的各区域检测结果分别送入对应图像识别器,得到识别结果作为一条发票的记录,作为识别得分。
[0020]更优地,训练模式具体如下:
[0021]通过级联目标检测器进行标注:标注发票图像灰度图各内容区域伦果,获得区域坐标,用于一级检测器的训练;对各区域内容再次进行分割标注,分割区域内的文字实例,获得区域坐标,用于二级检测器的训练;
[0022]通过图像识别器进行标注:将各区域分割出来的文字实例进行含义标签标注,分别对应N个图像识别器;
[0023]将标注信息分别送入一级检测器、二级检测器及图像识别器进行有监督训练;
[0024]其中,所述级联目标检测器根据各部分性能,使用Faster R

CNN或MASK R

CNN的two

stage目标检测器,
[0025]或,
[0026]根据速度实时性,选择YOLO或SSD的one

stage检测器;
[0027]图像识别器的训练使用LSTM时序网络或ResNet的CNN图像识别网络。
[0028]更优地,推理模式具体如下:
[0029]将发票图像灰度图送入一级目标检测器获得各区域坐标位置及区域名称;
[0030]通过二级目标检测器对一级目标检测器进行细粒度检测,检测出各区域内文字实例的坐标位置;
[0031]将一级目标检测器和二级目标检测器得到的各区域检测结果分别送入对应图像识别器,得到识别结果作为一条发票的记录,作为识别得分。
[0032]一种增值税发票自动识别与管理系统,该系统包括,
[0033]发票自动识别单元,用于对增值税发票进行图像模式输入,对发票图像进行自动文字检测与文字识别,将所识别的发票信息保存为一条发票记录,进行记录直接入库或传入人工管理系统进行发票信息人工校正;
[0034]人工管理单元,用于对发票自动识别信息难以正确识别的发票信息,进行人工信息录入,或对发票自动识别单元所传入的发票信息进行人工校正,将结果进行入库操作。
[0035]作为优选,所述发票自动识别单元包括,
[0036]发票信息输入模块,用于对增值税发票进行图像采集,具体为:采用扫描仪进行增值税发票扫描上传或采用移动设备(手机,平板电脑,照相机,摄像机等)进行拍照上传,将所采集数据进行图像模式保存,用于后续自动检测与识别;
[0037]发票信息识别提取模块,用于对所采集发票图像进行图像预处理,得到发票图像灰度图,利用目标检测方法,对发票上的发票号码、纳税人识别号、开票日期、发票名称及发票金额的全部发票信息进行分割定位,利用文字图像识别算法对各区域信息进行识别,形成一条数据字典记录,对于每条记录得到一个识别得分,根据得分置信区间,分为三个等级,选择进入直接入库、人工校正或人工录入;
[0038]发票信息入库模块一,用于对得到的记录进行入库归档操作存入数据库中,数据库包括MySQL或Oracle的关系型数据库;数据库存储的文件类型包括XML或JSON的数据文
件。
[0039]作为优选,所述人工管理单元包括,
[0040]人工录入模块,用于对得分置信区间最低,自动识别困难的发票图像样本,进行发票信息人工录入流程,对本记录全部发票信息进行人工录入流程结束后,进行入库操作;
[0041]发票信息人工校正模块,用于对得分置信区间次低的发票图像样本,进行发票信息人工校正流程,对本记录部分识别不准确发票项进行人工校正录入,流程结束后,进行入库操作;
[0042]发票信息入库模块二,用于对得到的记录进行入库归档操作。
[0043]更优地,所述发票信息识别提取模块包括级联目标检测器和图像识别器;级联目标检测器由两个深度学习目标检测器组成,分别作为一级目标检测器与二级目标检测器;一级目标检测器与二级目标检测器采取Faster R

CNN目标检测算法,目标检测算法分为训练模式与推理模式;
[0044]训练模式具体如下:
[0045]对发票图像进行图像预处理,包括发票信息标注、图像灰度化、腐蚀膨胀及图像归一化,用于去除图像噪声,分别得到一级目标检测器训练集与二级目标检测器训练集;
[0046]将处理完毕的训练集图像分别输入一级目标检测器和二级目标检测器进行训练;
[0047]推理模式具体如下:
...

【技术保护点】

【技术特征摘要】
1.一种增值税发票自动识别与管理方法,其特征在于,该方法具体如下:对发票进行自动识别获取发票图像采集;采集完毕后,对发票图像进行预处理,得到发票图像灰度图;将发票图像灰度图进行发票信息识别提取;通过级联目标检测器对发票内容各区域进行检测区域;通过发票内容识别器对检测分割区域的发票内容进行识别,得到识别结果与得分;根据所设置的置信区间,将得分分为三个等级,具体如下:得分≥阈值1时,直接将记录进行入库操作;得分<阈值1或得分≥阈值2时,进行人工校正,经人工校正识别信息后,进行入库操作;得分<阈值2时,选择直接放弃,用户手动录入该条发票信息,并进行入库操作。2.根据权利要求1所述的增值税发票自动识别与管理方法,其特征在于,发票图像是通过扫描仪或相机等设备,采集增值税发票信息,保存为图像模式;图像预处理包括发票信息标注、腐蚀膨胀、去除图像噪声、灰度化及图形归一化操作。3.根据权利要求1所述的增值税发票自动识别与管理方法,其特征在于,通过级联目标检测器对发票内容各区域进行检测区域具体如下:训练模式:进行图像标签信息的人工标注,通过级联目标检测器和图像识别器进行有监督训练;推理模式:将级联目标检测器得到的各区域检测结果分别送入对应图像识别器,得到识别结果作为一条发票的记录,作为识别得分。4.根据权利要求3所述的增值税发票自动识别与管理方法,其特征在于,训练模式具体如下:通过级联目标检测器进行标注:标注发票图像灰度图各内容区域伦果,获得区域坐标,用于一级检测器的训练;对各区域内容再次进行分割标注,分割区域内的文字实例,获得区域坐标,用于二级检测器的训练;通过图像识别器进行标注:将各区域分割出来的文字实例进行含义标签标注,分别对应N个图像识别器;将标注信息分别送入一级检测器、二级检测器及图像识别器进行有监督训练;其中,所述级联目标检测器根据各部分性能,使用Faster R

CNN或MASK R

CNN的two

stage目标检测器,或,根据速度实时性,选择YOLO或SSD的one

stage检测器;图像识别器的训练使用LSTM时序网络或ResNet的CNN图像识别网络。5.根据权利要求3所述的增值税发票自动识别与管理方法,其特征在于,推理模式具体如下:将发票图像灰度图送入一级目标检测器获得各区域坐标位置及区域名称;通过二级目标检测器对一级目标检测器进行细粒度检测,检测出各区域内文字实例的坐标位置;将一级目标检测器和二级目标检测器得到的各区域检测结果分别送入对应图像识别
器,得到识别结果作为一条发票的记录,作为识别得分。6.一种增值税发票自动识别与管理系统,其特征在于,该系统包括,发票自动识别单元,用于对增值税发票进行图像模式输入,对发票图像进行自动文字检测与文字识别,将所识别的发票信息保存为一条发票记录,进行记录直接入库或传入人工管理系统进行发票信息人工校正;人工管理单元,用于对发票自动识别信息难以正确识别的发票信息,进行人工信息录入,或对发票自动识别单元所传入的发票信息进行人工校正,将结果进行入库操作。7.根据权利要求6所述的增值税发票自动识别与管理系统,其...

【专利技术属性】
技术研发人员:郑伟程林杨培强
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1