基于图像识别的增值税普通发票报销信息生成方法及装置制造方法及图纸

技术编号:24354895 阅读:65 留言:0更新日期:2020-06-03 02:21
针对增值税普通发票报销信息生成的发票单据进行手工处理、工作效率低下的问题,提出一种基于图像识别的增值税普通发票报销信息生成方法和装置来提高发票自动化处理过程的准确性,具体通过建立电子发票与财务报销科目之间的对应关系,获取电子发票图像,对电子发票图像进行预处理、去噪、区域定位、模板匹配操作以及通过信息的对比实现增值税普通发票报销信息的自动生成。

A method and device for generating reimbursement information of VAT invoice based on image recognition

【技术实现步骤摘要】
基于图像识别的增值税普通发票报销信息生成方法及装置
本专利技术涉及财务信息电子化处理
,尤其涉及一种基于图像识别的增值税普通发票报销信息生成方法和装置。
技术介绍
近年来,随着我国经济的快速发展,票据的种类和数量成逐年上升趋势,增值税普通发票就是其中一种。增值税发票的大量使用,给对应的发票识别技术以及发票自动生成技术带来了严峻的挑战。在发票图像的自动化识别过程中,通过表格模板定制,设置识别区域,识别属性,调用专用的字符,进行选项区域识别,根据识别属性进行识别后处理,最后输出结构化的识别结果;或者在使用清华TH-OCR技术的基础上,对发票进行多项预处理操作,具体有纠偏、偏色校正、滤色、降噪、二值化、增强识别单元对比度等功能,这些功能可灵活配置、自由组合,为之后识别输出最优的图像质量。然而,目前对于增值税普通发票报销信息生成很多的问题,很多企事业单位正常采购以后需要进行报销,而财务系统需要对大量的这些发票单据进行手工处理,不仅会耗费大量的人力物力,而且工作效率低下,因此票据的自动化识别处理能够高效提高财务部门的工作效率。但是如果票据的自动化处理过程,有效识别率较低,不仅会带来业务风险,还会给后续的手工处理增加工作量,因此很有必要提高发票自动化处理的准确性。
技术实现思路
根据上述提出的技术问题,本专利技术提出一种基于图像识别的增值税普通发票报销信息生成方法和装置来提高发票自动化处理过程的准确性。所述技术方案如下:根据本公开实施例的第一方面,提出一种图像识别的增值税普通发票报销信息生成方法,包括:步骤1、建立电子发票与财务报销科目之间的对应关系,生成电子发票-报销对应表,表格字段包括:购买方纳税人识别号、发票代码、发票号码、货物或者应税劳务/服务名称、发票金额。步骤2、获取电子发票图像,对电子发票图像进行预处理、去噪、区域定位、模板匹配操作,得到电子发票图像中的销售方名称、销售方纳税人识别号、购买方名称、购买方纳税人识别号、发票代码、发票号码、货物或者应税劳务/服务名称、发票金额、复核信息、开票人信息。步骤3、将识别得到的所述购买方纳税人识别号与电子发票-报销对应表中的购买方纳税人识别号进行对比,如果对比结果一致,则进入步骤4,否则结束本次发票报销信息的生成。步骤4、将识别得到的所述复核信息与所述开票人信息进行对比,如果对比结果一致,则结束本次发票报销信息的生成,如果对比结果不一致,则将电子发票图像识别结果的发票代码数据、发票号码数据、货物或者应税劳务/服务名称数据、发票金额数据自动填充至电子发票-报销对应表中的对应项。所述步骤2具体如下:S1、对增值税普通发票进行图像采集,获得位数为24位的原始增值税普通发票彩色图像,提取所述原始增值税普通发票彩色图像的R分量,作为待识别灰度图像,其中,待识别灰度图像上的像素点的灰度值为0或255;S2、对所述灰度图像进行正则化去噪处理减少噪点,获得去噪后的灰度图像,然后对所述去噪后灰度图像进行自适应阈值分割的二值化处理,获得增值税普通发票自适应阈值二值化图像;S3、根据购买方纳税人识别号、发票代码、发票号码、开票日期、金额的位置先验信息,大致粗定位购买方纳税人识别号、发票代码、发票号码、开票日期、金额的区域,采用水平投影和垂直穿越号码体距离的方法精确定位出所述区域,将所述精确定位的区域进行字符分割归一化处理后,获得待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;S4、使用模板特征匹配算法识别所述待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;获得识别结果。进一步地,还包括:步骤S2中,为了能够更好地进行去噪,本专利技术选择了非局部均值内核,从而可以根据模糊边缘补充导出的边缘度量来量化像素之间的相似性,具体地正则化去噪处理过程包括如下步骤:建立坐标(x,y)上的像素μxy的边缘检测器ED(μxy)如下式(1):ED(uxy)=|e⊥(x,y)-e(x,y)|(x,y)∈Ω(1),在平滑区域,ED接近于0,接近边缘时,ED变大,在噪声区域,ED接近于0;基于总变分去噪模型和所述边缘检测器ED(μxy)提出去噪模型如下式:其中λ为正则化参数,f=μ*+ω(μ*原始未知图像,ω为高斯噪音),δ是正参数,用于控制Ψ(ED(μ))从2逐步衰减到1,正则化参数λ有调解逼近项目的作用,当λ充分大时,可知模型中的第二项其决定作用,而当λ->0时,第一项控制整个目标函数,因此在求解时λ的选取十分重要,正则化参数的选取与初始加入的噪音方差有关,相应的λ表达式为:进一步地,在步骤S2中,正则化去噪处理过程包括如下步骤利用梯度下降法和得到所述去噪模型式(2)的拉格朗日方程:其中扩散函数为令Φ(s)=sED(u)。进一步地,在步骤S2中,使用基于偏微分方程的方法求解所述拉格朗日方程:其中μNN是N方向上的二阶导数,μTT是N的垂直方向T的二阶导数。进一步地,在步骤S2中,所述μNN和μTT分别为:其中μxx、μyy和μxy代表二阶导数,并且t为转置运算符,给出方程(4)的离散模型如下:根据去噪前后图像的能量查确定迭代停止时刻。本公开的实施例提供的技术方案可以包括以下有益效果:通过建立坐标(x,y)上的像素μxy的边缘检测器ED(μxy),基于总变分去噪模型和所述边缘检测器ED(μxy)提出去噪模型进行去噪处理,使得普通增值税发票的识别过程中获得更好的去噪效果,采用水平投影和垂直穿越号码体距离的方法能够更加精确定位出发票识别过程中不同的区域从而可以更加准确地处理收到印章等噪音影响的普通增值税发票根据本公开实施例的第二方面,提出一种图像识别的增值税普通发票报销信息生成装置,该生成装置包括:数据构建模块,用于建立电子发票与财务报销科目之间的对应关系,生成电子发票-报销对应表,表格字段包括:购买方纳税人识别号、发票代码、发票号码、货物或者应税劳务/服务名称、发票金额。数据处理模块,用于获取电子发票图像,对电子发票图像进行预处理、去噪、区域定位、模板匹配操作,得到电子发票图像中的销售方名称、销售方纳税人识别号、购买方名称、购买方纳税人识别号、发票代码、发票号码、货物或者应税劳务/服务名称、发票金额、复核信息、开票人信息。数据匹配模块,用于将识别得到的所述购买方纳税人识别号与电子发票-报销对应表中的购买方纳税人识别号进行对比,如果对比结果一致,则使用数据生成模块,否则结束本次发票报销信息的生成。数据生成模块,用于将识别得到的所述复核信息与所述开票人信息进行对比,如果对比结果一致,则结束本次发票报销信息的生成,如果对比结果不一致,则将电子发票图像识别结果的发票代码数据、发票号码数据、货物或者应税劳务/服务名称数据、发票金额数据自动填充至电子发票-报销对应表中的对应项。所述数据处理模块包括:图像采集模块,被配置为对增值税普通发票进行图像采集,获得位数为24位的原始增值税普通发票彩色图像,提取所述原始增值税普通发票彩色图像的R分量,作为待本文档来自技高网...

【技术保护点】
1.一种基于图像识别的增值税普通发票报销信息生成方法,其特征在于:/n步骤1、建立电子发票与财务报销科目之间的对应关系,生成电子发票-报销对应表,表格字段包括:购买方纳税人识别号、发票代码、发票号码、货物或者应税劳务/服务名称、发票金额。/n步骤2、获取电子发票图像,对电子发票图像进行预处理、去噪、区域定位、模板匹配操作,得到电子发票图像中的销售方名称、销售方纳税人识别号、购买方名称、购买方纳税人识别号、发票代码、发票号码、货物或者应税劳务/服务名称、发票金额、复核信息、开票人信息。/n步骤3、将识别得到的所述购买方纳税人识别号与电子发票-报销对应表中的购买方纳税人识别号进行对比,如果对比结果一致,则进入步骤4,否则结束本次发票报销信息的生成。/n步骤4、将识别得到的所述复核信息与所述开票人信息进行对比,如果对比结果一致,则结束本次发票报销信息的生成,如果对比结果不一致,则将电子发票图像识别结果的发票代码数据、发票号码数据、货物或者应税劳务/服务名称数据、发票金额数据自动填充至电子发票-报销对应表中的对应项。/n

【技术特征摘要】
1.一种基于图像识别的增值税普通发票报销信息生成方法,其特征在于:
步骤1、建立电子发票与财务报销科目之间的对应关系,生成电子发票-报销对应表,表格字段包括:购买方纳税人识别号、发票代码、发票号码、货物或者应税劳务/服务名称、发票金额。
步骤2、获取电子发票图像,对电子发票图像进行预处理、去噪、区域定位、模板匹配操作,得到电子发票图像中的销售方名称、销售方纳税人识别号、购买方名称、购买方纳税人识别号、发票代码、发票号码、货物或者应税劳务/服务名称、发票金额、复核信息、开票人信息。
步骤3、将识别得到的所述购买方纳税人识别号与电子发票-报销对应表中的购买方纳税人识别号进行对比,如果对比结果一致,则进入步骤4,否则结束本次发票报销信息的生成。
步骤4、将识别得到的所述复核信息与所述开票人信息进行对比,如果对比结果一致,则结束本次发票报销信息的生成,如果对比结果不一致,则将电子发票图像识别结果的发票代码数据、发票号码数据、货物或者应税劳务/服务名称数据、发票金额数据自动填充至电子发票-报销对应表中的对应项。


2.如权利要求1所述的基于图像识别的电子发票报销信息生成方法,所述步骤2具体如下:
S1、用相机对增值税普通发票进行图像采集,获得位数为24位的原始增值税普通发票彩色图像,提取所述原始增值税普通发票彩色图像的R分量,作为待识别灰度图像,其中,待识别灰度图像上的像素点的灰度值为0或255;
S2、对所述灰度图像进行正则化去噪处理减少噪点,获得去噪后的灰度图像,然后对所述去噪后灰度图像进行自适应阈值分割的二值化处理,获得增值税普通发票自适应阈值二值化图像;
S3、根据购买方纳税人识别号、发票代码、发票号码、开票日期、金额的位置先验信息,大致粗定位购买方纳税人识别号、发票代码、发票号码、开票日期、金额的区域,采用水平投影和垂直穿越号码体距离的方法精确定位出所述区域,将所述精确定位的区域进行字符分割归一化处理后,获得待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;
S4、使用模板特征匹配算法识别所述待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;获得识别结果。


3.如权利要求2所述的基于图像识别的电子发票报销信息生成方法,所述S2中的所述正则化去噪处理过程包括如下步骤:建立坐标(x,y)上的像素μxy的边缘检测器ED(μxy)如下式(1):ED(uxy)=|e⊥(x,y)-e(x,y)|(x,y)∈Ω(1),在平滑区域,ED接近于0,接近边缘时,ED变大,在噪声区域,ED接近于0;基于总变分去噪模型和所述边缘检测器ED(μxy)提出去噪模型如下式(2):其中λ为正则化参数,f=μ*+ω(μ*原始未知图像,ω为高斯噪音),δ是正参数,用于控制Ψ(ED(μ))从2逐步衰减到1。


4.如权利要求3所述的基于图像识别的电子发票报销信息生成方法,利用梯度下降法和得到所述去噪模型式(2)的拉格朗日方程:其中扩散函数为令Φ(s)=sED(u)。


5.如权利要求4所述的基于图像识别的电子发票报销信息生成方法,使用基于偏微分方程的方法求解所述拉格朗日方程:其中μNN是N方向上的二阶导数,μTT是N的垂直方向T的二阶导数。


6.如权利要求5所述的基于图像识别的电子发票报销信息生成方法,所述μNN和μTT分别为:其中μxx、μyy和μxy代表二阶导数,并且t为转置运算符,给出方程(4)的离散模型如下:根据去噪前后图像的能量查确定迭代停止时刻。


7.一种基于图像识别的...

【专利技术属性】
技术研发人员:肖文星李敏赵浩宇陈文斌赵珂
申请(专利权)人:河南科技学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1