The present invention provides a method to identify the VAT invoice, is characterized by comprising the following steps: Invoice image preprocessing; option to locate the region of invoice image; character segmentation; character region is divided into 9 blocks; each HOG feature extraction of image blocks, obtained HOG sequences of 9 dimensional; the characteristics of sequence respectively compared with the template, get the difference coefficient; according to the difference of the size of the coefficients for the 9 pieces of different weight, weight and weight matrix generation; difference coefficient weighted sum, the candidate character difference score, calculating each candidate character difference score, minimum value corresponds to the character matching results of recognition; each segment the character after repeating the above steps until the completion of the contents of the invoice. The invention effectively realize the Chinese characters module identification of VAT invoices in at the same time, nearly word distinguishing ability enhancement, with illumination invariance and rotation invariance, stronger anti-interference ability, has a better recognition ability of fuzzy character.
【技术实现步骤摘要】
一种增值税发票的识别方法
本专利技术涉及一种增值税发票的识别方法,特别是针对形近字有着较高的辨别能力。
技术介绍
现有技术中,对于增值税发票识别,通常采用如下方式:通过表格模板定制,设置识别区域,识别属性,调用专用的字符,进行选项区域识别,根据识别属性进行识别后处理,最后输出结构化的识别结果;或者在使用清华TH-OCR技术的基础上,对发票进行多项预处理操作,具体有纠偏、偏色校正、滤色、降噪、二值化、增强识别单元对比度等功能,这些功能可灵活配置、自由组合,为之后识别输出最优的图像质量。目前,对于增值税发票识别存在以下问题:1、目前增值税发票识别中通常只识别数字,缺少对增值税发票中汉字的识别模块;2、对于形近字的区分能力相对较弱,容易出现误识的情况;3、增值税发票纸质为复写纸,打印时字符笔画容易粘连,造成识别困难。
技术实现思路
根据上述提出的技术问题,而提供一种增值税发票的识别方法。本专利技术主要利用通过对输入图像的预处理、票据选项定位、字符分割、字符区域分块、提取HOG特征、对比识别、块权重分配到输出核对,对增值税发票进行识别,从而有效的实现对增值税发票中的汉字模块识别,同时对形近字区分能力增强。本专利技术采用的技术手段如下:一种增值税发票的识别方法,其特征在于,包括如下步骤:S1、对输入的发票图像进行预处理:提取原始彩色发票图像的r分量,作为灰度图像,对灰度图像进行中值滤波操作,减少噪点,对灰度图像进行Radon变换,进行倾斜校正;S2、对发票图像进行选项区域定位:寻找标记点,进行选项区域定位,截取各选项区域,分别二值化处理得到黑底白字图像;S3、字符分割: ...
【技术保护点】
一种增值税发票的识别方法,其特征在于,包括如下步骤:S1、对输入的发票图像进行预处理:提取原始彩色发票图像的r分量,作为灰度图像,对灰度图像进行中值滤波操作,减少噪点,对灰度图像进行Radon变换,进行倾斜校正;S2、对发票图像进行选项区域定位:寻找标记点,进行选项区域定位,截取各选项区域,分别二值化处理得到黑底白字图像;S3、字符分割:将各选项区域的字符通过投影法分割开来,得到单个字符的最小外接矩形,便于后续的识别处理;S4、字符区域分块:将分割好的字符,进行尺度变换,变为正方形,然后将字符图像的高和宽等间距各分3份,得到9个正方形的图像块;S5、提取每个图像块的HOG特征,得到9个一维的HOG特征序列;S6、将步骤S5中的特征序列分别与模板做比对,比对公式如下:
【技术特征摘要】
1.一种增值税发票的识别方法,其特征在于,包括如下步骤:S1、对输入的发票图像进行预处理:提取原始彩色发票图像的r分量,作为灰度图像,对灰度图像进行中值滤波操作,减少噪点,对灰度图像进行Radon变换,进行倾斜校正;S2、对发票图像进行选项区域定位:寻找标记点,进行选项区域定位,截取各选项区域,分别二值化处理得到黑底白字图像;S3、字符分割:将各选项区域的字符通过投影法分割开来,得到单个字符的最小外接矩形,便于后续的识别处理;S4、字符区域分块:将分割好的字符,进行尺度变换,变为正方形,然后将字符图像的高和宽等间距各分3份,得到9个正方形的图像块;S5、提取每个图像块的HOG特征,得到9个一维的HOG特征序列;S6、将步骤S5中的特征序列分别与模板做比对,比对公式如下:其中,An为待识别字符块的HOG特征序列,为An的均值;Bn为模板字符块HOG特征序列,为Bn的均值;r为待识别字符块与模板字符块的相关系数,当-1≤r<0时,An与Bn为负相关;当0<r≤1时,An与Bn为正相关;当r=0时,An与Bn不相关;其差异系数d用1-r来表示;S7、将候选字符中的9个块,进行加权求和,根据差异系数d的取值范围,为其赋予不同权重,生成权重矩阵,其权重分配方式如下:S8、将权重与差异系数加权求和,得到候选字符差异得分,计算每个候选字符差异得分,取最小值对应字符为匹配结果;S9、对每个切分后的字符重复上述步骤S4至S8,直至完成发票各项内容的识别。2.根据权利要求1所述的增值税发票的识别方法,其特征在于,所述步骤S2中,具体包括:S21、寻找标记点,将发票矩形框的四个顶点定位,取原始彩色发票图像的b分量图像,将其二值化,并分别水平、垂直投影;投影值第一个和最后一个向下尖峰...
【专利技术属性】
技术研发人员:王新年,廖玉钦,王慧玉,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。