发票专用章税号的提取和识别方法技术

技术编号:19823829 阅读:35 留言:0更新日期:2018-12-19 15:26
本发明专利技术公开了一种发票专用章税号的提取和识别方法,主要解决现有方法在获取税号时效率差、精度低的问题。其实现步骤包括:1)获取包含发票专用章的RGB图像;2)将RGB图像进行拉普拉斯锐化,并转换到YCrCb颜色空间;3)对YCrCb颜色空间的Cr通道进行自适应阈值处理,仅保留发票专用章的内容;4)通过Canny边缘检测获取发票专用章的外轮廓椭圆图像;5)通过计算椭圆图像的质心坐标,找到中心点;6)根据中心点截取只包含税号的矩形区域;7)将矩形区域内的税号分割为单个数字;8)对每个数字进行模板匹配,识别税号。本发明专利技术有效提升了发票专用章税号的获取速度、降低了识别误差,可用于快速精确提取和识别税号。

【技术实现步骤摘要】
发票专用章税号的提取和识别方法
本专利技术属于数字图像处理
,进一步涉及文字识别技术,具体为一种发票专用章税号的提取和识别方法,可用于获取税务登记号信息。
技术介绍
发票专用章是指使用发票的企业、单位和个体工商业户按税务机关规定刻制,在领购或开具发票时加盖于发票之上的专用印章,该印章印模里含有其公司单位名称、发票专用章字样及税务登记号,其中税务登记号简称税号。税号是发证机关给出的一张税务“身份证”,统一税号制度有利于强化税务登记,规范税收征管,加强纳税档案管理和税源管理,促进依法治税。因此税号的提取、识别显得尤为重要。现阶段税号的提取和识别方法主要有两种:一是传统的人工识别方法,其通过人工辨识税号,然后输入到计算机中,这种方法效率低、误差大,而且人工和时间成本过高;二是基于深度学习的提取和识别方法,通过大量已知训练样本训练分类器,然后采用循环神经网络对预处理后的图像数字进行定位,分割出带有数字的图像,最后将分割好的图像送到训练好的分类器中进行分类,该方法可以有效改善人工识别误差大、成本高的问题,然而其所采用的循环神经网络和分类器均需要提取图像的指定特征作为输入,因此计算量较大,依然存在提取和识别速度慢的不足。
技术实现思路
本专利技术的目的在于针对上述现有技术的不足,提出一种发票专用章税号的提取和识别方法,通过计算椭圆图像的质心,快速定位发票专用章中心坐标,进而选定税号所在区域,然后分割出单个数字图像,依次对其进行模板匹配,快速准确地识别发票专用章中的税号,从而提高对发票专用章税号的识别效率及精度。为实现上述目的,本专利技术采取的技术方案为:(1)获取包含发票专用章的RGB图像;(2)将获取的RGB图像进行拉普拉斯锐化,然后将其转换到YCrCb颜色空间;(3)将YCrCb颜色空间进行通道分离,并对分离出的Cr通道进行自适应阈值处理,将图像转换为二值图,再通过膨胀腐蚀运算去除二值图的噪声,得到仅包含发票专用章的二值图;(4)对仅包含发票专用章的二值图进行Canny边缘检测,选出最外层轮廓,即发票专用章的外轮廓椭圆图像;(5)计算外轮廓椭圆图像的质心坐标,即发票专用章的中心点坐标;(6)根据中心点坐标截取只包含税号的矩形区域;(7)将矩形区域中的税号分割为单个数字;(8)制作数字0~9的搜索模板T,调整单个数字图像的大小,使其与搜索模板T中数字的大小一致,将调整后的单个数字作为被搜索图S依次送入制作好的数字搜索模板中,采用相关法对数字进行匹配,根据匹配结果识别税号。本专利技术与现有技术相比,具有以下优点:第一、由于本专利技术利用零阶和一阶几何矩获取发票专用章外轮廓椭圆的中心点坐标,然后根据中心点坐标精确定位税号位置,因此无需训练网络和提取图像特征,从而减小了税号定位的计算量、提高了定位精确度。第二、由于本专利技术对发票专用章中的数字部分采用模板匹配的方法进行识别,因此不需要训练分类器以及提取图像特征的过程,从而加快了对数字的识别速度、提高了提取并识别税号的效率。附图说明图1是本专利技术的实现流程图;图2是包含发票专用章的RGB图;图3是只包含发票专用章内容的二值图;图4是发票专用章的外轮廓图像;图5是发票专用章外轮廓及中心点图像;图6是只包含税号的矩形二值图;图7是对只包含税号的矩形二值图进行颜色反转后得到的图像。具体实施方式为使本领域技术人员更好地理解本专利技术的技术方案,下面结合附图与具体实施例,对本专利技术作进一步详细阐述。参照图1,发票专用章税号的提取和识别方法,包括以下步骤:步骤1.获取包含发票专用章的RGB图像,如图2所示。步骤2.将获取的RGB图像进行拉普拉斯锐化,然后将其转换到YCrCb颜色空间。首先,对步骤1获取的RGB图像进行拉普拉斯锐化处理,具体如下:将低于邻域像素平均灰度值的中心像素灰度值降低,将高于邻域像素平均灰度值的中心像素灰度值提高。即,当邻域中心像素灰度低于它所在领域内其它像素的平均灰度时,降低此中心像素的灰度值;当邻域中心像素灰度高于它所在邻域内其它像素的平均灰度时,提高此中心像素的灰度值。图像经过锐化处理后,其发票专用章部分更容易提取。然后,通过如下公式将锐化后的RGB图像转换到YCrCb颜色空间:Y=(B×1868+G×9617+R×4899+8192)÷16384;Cr=((B-Y)×9241+8192)÷16384+128;Cb=((R-Y)×11682+8192)÷16384+128;其中,“R”表示RGB图像中R通道的值,“G”表示RGB图像中G通道的值,“B”表示RGB图像中B通道的值,“Y”表示YCrCb图像中Y通道的值,“Cr”表示YCrCb图像中Cr通道的值,“Cb”表示YCrCb图像中Cb通道的值。YCrCb颜色空间包含三个通道,其中:“Y”表示明亮度,即灰阶值;“Cr”和“Cb”均表示色度,“Cr”指红色色度分量,“Cb”指蓝色色度分量。步骤3.对YCrCb颜色空间的Cr通道进行自适应阈值处理,仅保留发票专用章的内容。从YCrCb颜色空间中分离出Cr通道,对Cr通道进行自适应阈值处理,将图像转换为二值图,然后对其进行膨胀腐蚀运算去除噪声,得到只保留发票专用章的二值图,如图3所示。步骤4.通过Canny边缘检测获取发票专用章的外轮廓椭圆图像。通过以下步骤对只保留发票专用章的二值图进行Canny边缘检测:1)使用高斯滤波器,平滑图像、滤除噪声;2)计算图像中每个像素点的梯度强度和方向;3)利用非极大值抑制消除边缘检测带来的杂散响应;4)使用双阈值检测确定真实的以及潜在的边缘;5)通过抑制孤立的弱边缘最终完成边缘检测。完成边缘检测后选出最外层轮廓,即发票专用章的外轮廓椭圆图像,如图4所示。步骤5.通过计算椭圆图像的质心坐标,找到发票专用章的中心点。根据国家标准,发票专用章税号在其中心位置,因此需要找到发票专用章的中心点,用来定位税号位置。计算外轮廓椭圆图像的质心坐标的方式有多种,如几何矩、霍夫变换等,本专利技术采用几何矩的方式计算获取外轮廓椭圆图像的质心坐标,具体步骤如下:离散图像的p+q阶几何矩mpq定义为:其中,x、y分别表示外轮廓椭圆图像的横纵坐标;p表示x的阶数,q表示y的阶数,且p、q均为大于等于0的整数;M表示外轮廓椭圆图像横坐标x的界,N表示外轮廓椭圆图像纵坐标y的界,且M、N均为大于等于1的整数;取p=0、q=0,根据式<1>得到零阶几何矩m00:取p=1、q=0,根据式<1>得到x一阶几何矩m10:取p=0、q=1,根据式<1>得到y一阶几何矩m01:利用零阶和一阶几何矩,通过如下公式求得发票专用章外轮廓椭圆图像的质心坐标发票专用章外轮廓的中心点如图5所示。若在该步利用霍夫变换计算外轮廓椭圆图像的质心坐标,则需要如下步骤:将平面上的二次曲线表示为:Ax2+2Bxy+Cy2+2Dx+2Ey+1=0其中,A、B、C、D、E表示五个待求的参数,x、y表示二次曲线的横纵坐标。利用霍夫变换求出以上五个参数,如果B2-AC<0,则二次曲线为椭圆,然后根据椭圆参数方程求解椭圆的中心坐标。步骤6.根据中心点坐标截取只包含税号的矩形区域。根据发票专用章样章标准,税号在印章的中间位置,可以根据中心本文档来自技高网...

【技术保护点】
1.一种发票专用章税号的提取和识别方法,其特征在于,包括如下步骤:(1)获取包含发票专用章的RGB图像;(2)将获取的RGB图像进行拉普拉斯锐化,然后将其转换到YCrCb颜色空间;(3)将YCrCb颜色空间进行通道分离,并对分离出的Cr通道进行自适应阈值处理,将图像转换为二值图,再通过膨胀腐蚀运算去除二值图的噪声,得到仅包含发票专用章的二值图;(4)对仅包含发票专用章的二值图进行Canny边缘检测,选出最外层轮廓,即发票专用章的外轮廓椭圆图像;(5)计算外轮廓椭圆图像的质心坐标,即发票专用章的中心点坐标;(6)根据中心点坐标截取只包含税号的矩形区域;(7)将矩形区域中的税号分割为单个数字;(8)制作数字0~9的搜索模板T,调整单个数字图像的大小,使其与搜索模板T中数字的大小一致,将调整后的单个数字作为被搜索图S依次送入制作好的数字搜索模板中,采用相关法对数字进行匹配,根据匹配结果识别税号。

【技术特征摘要】
1.一种发票专用章税号的提取和识别方法,其特征在于,包括如下步骤:(1)获取包含发票专用章的RGB图像;(2)将获取的RGB图像进行拉普拉斯锐化,然后将其转换到YCrCb颜色空间;(3)将YCrCb颜色空间进行通道分离,并对分离出的Cr通道进行自适应阈值处理,将图像转换为二值图,再通过膨胀腐蚀运算去除二值图的噪声,得到仅包含发票专用章的二值图;(4)对仅包含发票专用章的二值图进行Canny边缘检测,选出最外层轮廓,即发票专用章的外轮廓椭圆图像;(5)计算外轮廓椭圆图像的质心坐标,即发票专用章的中心点坐标;(6)根据中心点坐标截取只包含税号的矩形区域;(7)将矩形区域中的税号分割为单个数字;(8)制作数字0~9的搜索模板T,调整单个数字图像的大小,使其与搜索模板T中数字的大小一致,将调整后的单个数字作为被搜索图S依次送入制作好的数字搜索模板中,采用相关法对数字进行匹配,根据匹配结果识别税号。2.根据权利要求1所述的方法,其特征在于:步骤(2)中对获取的RGB图像进行拉普拉斯锐化处理,具体处理方式为:将低于邻域像素平均灰度值的中心像素灰度值降低,将高于邻域像素平均灰度值的中心像素灰度值提高。3.根据权利要求1所述的方法,其特征在于:步骤(2)中将锐化后的RGB图像通过如下公式转换到YCrCb颜色空间:Y=(B×1868+G×9617+R×4899+8192)÷16384;Cr=((B-Y)×9241+8192)÷16384+128;Cb=((R-Y)×11682+8192)÷16384+128;其中,“Y”表示YCrCb图像中Y通道的值,“Cr”表示YCrCb图像中Cr通道的值,“Cb”表示YCrCb图像中Cb通道的值,“R”表示RGB图像中R通道的值,“G”表示RGB图像中G通道的值,“B”表示RGB图像中B通道的值。4.根据权利要求1所述的方法,其特征在于:步骤(4)中对仅包含发票专用章的二值图进行Canny边缘检测,具体通过以下步骤实现:(4.1)利用高斯滤波器对二值图进行去噪;(4.2)计算去噪后图像中每个像素点的梯度强度和方向;(4.3)采用非极大值抑制的方式消除边缘检测带来的杂散响应;(4.4)使用双阈值检测确定真实的以及潜在的边缘;(4.5)通过抑制孤...

【专利技术属性】
技术研发人员:张文博王凯姬红兵李林臧博
申请(专利权)人:西安电子科技大学昆山创新研究院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1