增值税普通发票的图像识别方法及装置制造方法及图纸

技术编号:24331687 阅读:48 留言:0更新日期:2020-05-29 19:54
针对增值税普通发票的识别存在不准确的问题,特别是目前发票中的字符容易受印章等噪声的干扰,增加了发票字符识别的难度,提出一种增值税发票的识别方法和装置,主要利用通过对输入图像的灰度化、去噪、字符分割及字符区域分块、使用模板特征匹配算法识别,从而有效的实现对增值税发票中的汉字模块识别,有效去除因印章等导致的噪音,对形近字区分能力增强。

Image recognition method and device of VAT invoice

【技术实现步骤摘要】
增值税普通发票的图像识别方法及装置
本专利技术涉及财务信息电子化处理
,尤其涉及一种针对增值税普通发票的图像识别方法和装置。
技术介绍
近年来,随着我国经济的快速发展,票据的种类和数量成逐年上升趋势,增值税普通发票就是其中一种。很多企事业单位正常采购以后需要进行报销,而财务系统需要对大量的这些发票单据进行手工处理,不仅会耗费大量的人力物力,而且工作效率低下,因此票据的自动化识别处理能够高效提高财务部门的工作效率。但是如果票据的自动化处理过程,有效识别率较低,不仅会带来业务风险,还会给后续的手工处理增加工作量,因此很有必要提高发票自动化处理的准确性。在发票图像的自动化识别过程中,通过表格模板定制,设置识别区域,识别属性,调用专用的字符,进行选项区域识别,根据识别属性进行识别后处理,最后输出结构化的识别结果;或者在使用清华TH-OCR技术的基础上,对发票进行多项预处理操作,具体有纠偏、偏色校正、滤色、降噪、二值化、增强识别单元对比度等功能,这些功能可灵活配置、自由组合,为之后识别输出最优的图像质量。然而,目前对于增值税普通发票的识别存在很多的问题,发票的识别一旦不准确,会影响财务的后续处理包括报销金额的录入、核准等,其中发票中的字符容易受印章等噪声的干扰,增加了发票字符识别的难度。
技术实现思路
根据上述提出的技术问题,本专利技术提出一种增值税发票的识别方法和装置。本专利技术主要利用通过对输入图像的灰度化、去噪、字符分割及字符区域分块、使用模板特征匹配算法识别,从而有效的实现对增值税发票中的汉字模块识别,有效去除因印章等导致的噪音,对形近字区分能力增强。所述技术方案如下:根据本公开实施例的第一方面,提供一种增值税发票的识别方法,包括:S1、对增值税普通发票进行图像采集,获得位数为24位的原始增值税普通发票彩色图像,提取所述原始增值税普通发票彩色图像的R分量,作为灰度图像,待识别灰度图像上的像素点的灰度值为0或255;S2、对所述灰度图像进行正则化去噪处理减少噪点,获得去噪后的灰度图像,然后对所述去噪后灰度图像进行自适应阈值分割的二值化处理,获得增值税普通发票自适应阈值二值化图像;S3、根据购买方纳税人识别号、发票代码、发票号码、开票日期、金额的位置先验信息,大致粗定位购买方纳税人识别号、发票代码、发票号码、开票日期、金额的区域,采用水平投影和垂直穿越号码体距离的方法精确定位出所述区域,将所述精确定位的区域进行字符分割归一化处理后,获得待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;S4、使用模板特征匹配算法识别所述待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;获得识别结果。进一步地,还包括:步骤S2中,为了能够更好地进行去噪,本专利技术选择了非局部均值内核,从而可以根据模糊边缘补充导出的边缘度量来量化像素之间的相似性,具体地正则化去噪处理过程包括如下步骤:建立坐标(x,y)上的像素μxy的边缘检测器ED(μxy)如下式(1):ED(uxy)=|e⊥(x,y)-e(x,y)(x,y)∈Ω(1),在平滑区域,ED接近于0,接近边缘时,ED变大,在噪声区域,ED接近于0;基于总变分去噪模型和所述边缘检测器ED(μxy)提出去噪模型如下式:其中f=μ*+ω(μ*原始未知图像,ω为高斯噪音),Ψδ是正参数,用于控制Ψ(ED(μ))从2逐步衰减到1,正则化参数λ有调解逼近项目的作用,当λ充分大时,可知模型中的第二项其决定作用,而当λ>0时,第一项控制整个目标函数,因此在求解时λ的选取十分重要,正则化参数的选取与初始加入的噪音方差有关,相应的λ表达式为:进一步地,在步骤S2中,正则化去噪处理过程包括如下步骤利用梯度下降法和得到所述去噪模型式(2)的拉格朗日方程:(3),其中扩散函数为Θ(s)=,令Φ(s)=sED(u)。进一步地,在步骤S2中,使用基于偏微分方程的方法求解所述拉格朗日方程:(4),其中μNN是N方向上的二阶导数,μTT是N的垂直方向T的二阶导数。进一步地,在步骤S2中,所述μNN和μTT分别为:其中μxx、μyy和μxy代表二阶导数,并且t为转置运算符,给出方程(4)的离散模型如下:根据去噪前后图像的能量查确定迭代停止时刻。本公开的实施例提供的技术方案可以包括以下有益效果:通过建立坐标(x,y)上的像素μxy的边缘检测器ED(μxy),基于总变分去噪模型和所述边缘检测器ED(μxy)提出去噪模型进行去噪处理,使得普通增值税发票的识别过程中获得更好的去噪效果,采用水平投影和垂直穿越号码体距离的方法能够更加精确定位出发票识别过程中不同的区域从而可以更加准确地处理印章等噪音影响的普通增值税发票。根据本公开实施例的第二方面,提供一种图像识别装置,包括:图像采集模块,被配置为对增值税普通发票进行图像采集,获得位数为24位的原始增值税普通发票彩色图像,提取所述原始增值税普通发票彩色图像的R分量,作为灰度图像,待识别灰度图像上的像素点的灰度值为0或255;图像去噪模块,被配置为对所述灰度图像进行正则化去噪处理减少噪点,获得去噪后的灰度图像,然后对所述去噪后灰度图像进行自适应阈值分割的二值化处理,获得增值税普通发票自适应阈值二值化图像;图像定位模块,被配置为根据购买方纳税人识别号、发票代码、发票号码、开票日期、金额的位置先验信息,大致粗定位购买方纳税人识别号、发票代码、发票号码、开票日期、金额的区域,采用水平投影和垂直穿越号码体距离的方法精确定位出所述区域,将所述精确定位的区域进行字符分割归一化处理后,获得待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;图像识别模块,被配置为使用模板特征匹配算法识别所述待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;获得识别结果。进一步地,图像去噪模块还被配置为选择非局部均值内核,根据总变分去噪模型和边缘检测器确定本申请提出的去噪模型,包括如下步骤:建立坐标(x,y)上的像素μxy的边缘检测器ED(μxy)如下式(1):ED(uxy)=|e⊥(x,y)-e(x,y)|(x,y)∈Ω(1),在平滑区域,ED接近于0,接近边缘时,ED变大,在噪声区域,ED接近于0;基于总变分去噪模型和所述边缘检测器ED(μxy)提出去噪模型如下式:其中f=μ*+ω(μ*原始未知图像,ω为高斯噪音),Ψδ是正参数,用于控制Ψ(ED(μ))从2逐步衰减到1,正则化参数λ有调解逼近项目的作用,当λ充分大时,可知模型中的第二项其决定作用,而当λ->0时,第一项控制整个目标函数,因此在求解时λ的选取十分重要,正则化参数的选取与初始加入的噪音方差有关,相应的λ表达式为:进一步地,图像去噪模块还被配置为包括如下步骤:利用梯度下降法得到所述去噪模型式(2)的拉格朗日方程:(3),其中扩散函数为Θ(s)=,令Φ(s)=sED(u)。进一步地,图像去噪模块还被配置为包括如下步骤:使用基于偏微分方程的方法求解所述拉本文档来自技高网...

【技术保护点】
1.一种增值税普通发票的图像识别方法,其特征在于:/nS1、用相机对增值税普通发票进行图像采集,获得位数为24位的原始增值税普通发票彩色图像,提取所述原始增值税普通发票彩色图像的R分量,作为待识别灰度图像,其中,待识别灰度图像上的像素点的灰度值为0或255;/nS2、对所述灰度图像进行正则化去噪处理减少噪点,获得去噪后的灰度图像,然后对所述去噪后灰度图像进行自适应阈值分割的二值化处理,获得增值税普通发票自适应阈值二值化图像;/nS3、根据购买方纳税人识别号、发票代码、发票号码、开票日期、金额的位置先验信息,大致粗定位购买方纳税人识别号、发票代码、发票号码、开票日期、金额的区域,采用水平投影和垂直穿越号码体距离的方法精确定位出所述区域,将所述精确定位的区域进行字符分割归一化处理后,获得待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;/nS4、使用模板特征匹配算法识别所述待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;获得识别结果。/n

【技术特征摘要】
1.一种增值税普通发票的图像识别方法,其特征在于:
S1、用相机对增值税普通发票进行图像采集,获得位数为24位的原始增值税普通发票彩色图像,提取所述原始增值税普通发票彩色图像的R分量,作为待识别灰度图像,其中,待识别灰度图像上的像素点的灰度值为0或255;
S2、对所述灰度图像进行正则化去噪处理减少噪点,获得去噪后的灰度图像,然后对所述去噪后灰度图像进行自适应阈值分割的二值化处理,获得增值税普通发票自适应阈值二值化图像;
S3、根据购买方纳税人识别号、发票代码、发票号码、开票日期、金额的位置先验信息,大致粗定位购买方纳税人识别号、发票代码、发票号码、开票日期、金额的区域,采用水平投影和垂直穿越号码体距离的方法精确定位出所述区域,将所述精确定位的区域进行字符分割归一化处理后,获得待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;
S4、使用模板特征匹配算法识别所述待识别的购买方纳税人识别号、发票代码、发票号码、开票日期、金额;获得识别结果。


2.如权利要求1所述的增值税普通发票的图像识别方法,所述S2中的所述正则化去噪处理过程包括如下步骤:建立坐标(x,y)上的像素μxy的边缘检测器ED(μxy)如下式(1):ED(uxy)=|e⊥(x,y)-e(x,y)|(x,y)∈Ω(1),在平滑区域,ED接近于0,接近边缘时,ED变大,在噪声区域,ED接近于0;基于总变分去噪模型和所述边缘检测器ED(μxy)提出去噪模型如下式(2):其中λ为正则化参数,f=μ*+ω(μ*原始未知图像,ω为高斯噪音),δ是正参数,用于控制Ψ(ED(μ))从2逐步衰减到1。


3.如权利要求2所述的增值税普通发票的识别方法,利用梯度下降法和得到所述去噪模型式(2)的拉格朗日方程:其中扩散函数为令Φ(s)=sED(u)。


4.如权利要求3所述的增值税普通发票的识别方法,使用基于偏微分方程的方法求解所述拉格朗日方程:其中μNN是N方向上的二阶导数,μTT是N的垂直方向T的二阶导数。


5.如权利要求4所述的普通增值税发票的识别方法,所述μNN和μTT分别为:其中μxx、μyy和μxy代表二阶导数,并且t为转置运算符,给出方程(4)的离散模型如下:根据去噪前后图像的能量查确定迭代停止时刻。


6.一种增值税普通发票的图像识别装置,其特...

【专利技术属性】
技术研发人员:肖文星陈军民张涛李燕杜丽丽
申请(专利权)人:河南科技学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1