一种基于多尺度特征融合的发票文本识别方法及系统技术方案

技术编号:37703331 阅读:9 留言:0更新日期:2023-06-01 23:50
本发明专利技术公开了一种基于多尺度特征融合的发票文本识别方法及系统,所述方法包括:采集发票图片,并对发票图片进行预处理;搭建注意力嵌入的空洞卷积神经网络,包括三个结构完全相同的串行的残差模块以及字符分类模块,所述残差模块包括多尺度空洞卷积层和注意力层,多尺度空洞卷积层包括多个膨胀率不同的空洞卷积分支,每个空洞卷积分支接收预处理的发票图片且输出端均与注意力层连接;训练所述注意力嵌入的空洞卷积神经网络;使用训练好的注意力嵌入的空洞卷积神经网络对每张单字符图像进行字符分类;本发明专利技术的优点在于:提高发票文本识别的准确性。识别的准确性。识别的准确性。

【技术实现步骤摘要】
一种基于多尺度特征融合的发票文本识别方法及系统


[0001]本专利技术涉及图像识别领域,更具体涉及一种基于多尺度特征融合的发票文本识别方法及系统。

技术介绍

[0002]在发票的报销流程中,需要识别发票上各个字段的信息以录入系统。传统的人工录入的方式存在有时间长、成本高、准确率低等问题。随着计算机视觉技术的发展,图像识别算法可以对扫描的发票图片进行文本识别,提取字段信息。在识别发票上各字段信息时,需要先对发票的图片划分不同的文本区域,然后对单一文本区域的文字进行光学字符识别。传统的图像识别方法,如模板匹配,需要对每一类字符进行算法与参数设计或手动提取特征,识别的准确性和普适性较低。深度学习方法通过卷积神经网络可以直接提取图像特征,将文本识别转化为一个分类问题,对图像中所包含的字符进行分类,从而得到识别结果,例如中国专利公开号CN109977957A公开的一种基于深度学习的发票识别方法及系统。
[0003]然而,发票拍摄的倾斜角度和像素不同、尺寸占比不同会导致不同的发票图片数据分布;纸质的发票可能存在打印区域折叠、错位、和污渍等情况,使发票图片数据存在一定噪声。由于普通的卷积神经网络模型的感受野限制,其稳定性和准确性很容易受到发票图片数据变化的影响,使得识别发票文本的泛化能力和适应性不强,导致识别结果准确性不高。

技术实现思路

[0004]本专利技术所要解决的技术问题在于现有技术发票文本识别方法容易受到发票图片数据变化的影响,使得识别发票文本的泛化能力和适应性不强,导致识别结果准确性不高的问题。
[0005]本专利技术通过以下技术手段实现解决上述技术问题的:一种基于多尺度特征融合的发票文本识别方法,包括以下步骤:
[0006]步骤一:采集发票图片,并对发票图片进行预处理;
[0007]步骤二:搭建注意力嵌入的空洞卷积神经网络,包括三个结构完全相同的串行的残差模块以及字符分类模块,所述残差模块包括多尺度空洞卷积层和注意力层,多尺度空洞卷积层包括多个膨胀率不同的空洞卷积分支,每个空洞卷积分支接收预处理的发票图片且输出端均与注意力层连接;
[0008]步骤三:训练所述注意力嵌入的空洞卷积神经网络;
[0009]步骤四:使用训练好的注意力嵌入的空洞卷积神经网络对每张单字符图像进行字符分类,将每张发票图像分割出的单字符图像的分类结果按单字符图像的空间位置组合得到每张发票的文本识别结果。
[0010]有益效果:本专利技术设计了注意力嵌入的空洞卷积神经网络,使用多个不同膨胀率的空洞卷积提取发票图片特征,在扩大感受野的同时能有效提取多尺度上下文信息,实现
有效的图像特征提取,从而获得准确的发票图片字符识别结果,通过注意力层自适应地融合捕获的多尺度特征,提高面对发票图片数据变化情况的鲁棒性和普适性,解决现有的深度学习方法适应性不足的问题,从而进一步提高识别结果的准确性。
[0011]进一步地,所述步骤一包括:
[0012]步骤1.1、使用摄像设备拍摄发票图片,采集的发票图片数据集记为V={v1,v2...,v
m
,...,v
M
},v
m
表示第m张发票图片,1≤m≤M,M表示发票图片的数量;
[0013]步骤1.2、对每张发票图片的先后进行灰度化处理和二值化处理;
[0014]步骤1.3、对每张发票图片进行单字符切割操作,得到待识别的单字符图像集合,记为P
m
={p
m1
,p
m2
,...,p
mn
,...,p
mN
},p
mn
表示从第m张发票图片中分割出的第n张单字符图像,1≤n≤N,N表示每张发票图片分割出的单字符图片数量。
[0015]更进一步地,所述步骤二中多尺度空洞卷积层的工作过程包括:
[0016]步骤2.1、每条空洞卷积分支利用式(1)得到特征提取结果:
[0017][0018]式(1)中,f
mn,d
表示经过第d条分支的空洞卷积操作后的输出,表示空洞卷积操作,W
c,d
和b
c,d
分别表示空洞卷积的卷积核参数与偏置;
[0019]步骤2.2、利用式(2)对提取的特征f
mn,d
进行激活和残差连接,得到第d空洞卷积分支的输出结果h
mn,d

[0020][0021]式(2)中,tanh是双曲正切激活函数,
·
表示1
×
1的卷积操作,W
cr,d
是第d空洞卷积分支中的1
×
1卷积参数;
[0022]步骤2.3、将各空洞卷积分支的输出特征按通道进行拼接得到所述多尺度空洞卷积层输出的多尺度特征H
mn
=[h
mn,1
,h
mn,2
,h
mn,3
]。
[0023]更进一步地,所述步骤二中注意力层的工作过程包括:
[0024]步骤2.4、所述注意力层接收多尺度空洞卷积层输出的多尺度特征,采用第一全局平均池化得到第一注意力矩阵α,利用式(3)对多尺度特征H
mn
按通道加权,并使用残差连接得到第一注意力矩阵的输出结果:
[0025]t
mn,1
=αH
mn
+H
mn
(3)
[0026]步骤2.5、所述注意力层还采用第二全局平均池化得到第二注意力矩阵β,利用式(4)对多尺度特征H
mn
按特征点加权,并使用残差连接得到第二注意力矩阵的输出结果:
[0027]t
mn,2
=βH
mn
+H
mn
(4)。
[0028]更进一步地,所述步骤二中串行的残差模块以及字符分类模块工作过程为:
[0029]步骤2.6、利用式(5)得到第一个残差模块的输出:
[0030]T
mn,1
=t
mn,1
+t
mn,2
+W
r,1
·
p
mn
(5)
[0031]式(5)中,T
mn,1
为第一个残差模块的输出结果,W
r,1
为第一个残差模块的1
×
1卷积参数的矩阵参数;
[0032]步骤2.7、将T
mn,1
输入与第一个残差模块结构相同的两个串行的残差模块,得到特征T
mn,3

[0033]步骤2.8、对特征T
mn,3
按通道进行全局最大池化操作,得到特征向量O
mn
,然后将其
输入字符分类模块利用式(6)得到所述注意力嵌入的空洞卷积神经网络输出结果:
[0034]y
mn
=softm本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征融合的发票文本识别方法,其特征在于,包括以下步骤:步骤一:采集发票图片,并对发票图片进行预处理;步骤二:搭建注意力嵌入的空洞卷积神经网络,包括三个结构完全相同的串行的残差模块以及字符分类模块,所述残差模块包括多尺度空洞卷积层和注意力层,多尺度空洞卷积层包括多个膨胀率不同的空洞卷积分支,每个空洞卷积分支接收预处理的发票图片且输出端均与注意力层连接;步骤三:训练所述注意力嵌入的空洞卷积神经网络;步骤四:使用训练好的注意力嵌入的空洞卷积神经网络对每张单字符图像进行字符分类,将每张发票图像分割出的单字符图像的分类结果按单字符图像的空间位置组合得到每张发票的文本识别结果。2.根据权利要求1所述的一种基于多尺度特征融合的发票文本识别方法,其特征在于,所述步骤一包括:步骤1.1、使用摄像设备拍摄发票图片,采集的发票图片数据集记为V={v1,v2...,v
m
,...,v
M
},v
m
表示第m张发票图片,1≤m≤M,M表示发票图片的数量;步骤1.2、对每张发票图片的先后进行灰度化处理和二值化处理;步骤1.3、对每张发票图片进行单字符切割操作,得到待识别的单字符图像集合,记为P
m
={p
m1
,p
m2
,...,p
mn
,...,p
mN
},p
mn
表示从第m张发票图片中分割出的第n张单字符图像,1≤n≤N,N表示每张发票图片分割出的单字符图片数量。3.根据权利要求2所述的一种基于多尺度特征融合的发票文本识别方法,其特征在于,所述步骤二中多尺度空洞卷积层的工作过程包括:步骤2.1、每条空洞卷积分支利用式(1)得到特征提取结果:式(1)中,f
mn,d
表示经过第d条分支的空洞卷积操作后的输出,表示空洞卷积操作,W
c,d
和b
c,d
分别表示空洞卷积的卷积核参数与偏置;步骤2.2、利用式(2)对提取的特征f
mn,d
进行激活和残差连接,得到第d空洞卷积分支的输出结果h
mn,d
:式(2)中,tanh是双曲正切激活函数,
·
表示1
×
1的卷积操作,W
cr,d
是第d空洞卷积分支中的1
×
1卷积参数;步骤2.3、将各空洞卷积分支的输出特征按通道进行拼接得到所述多尺度空洞卷积层输出的多尺度特征H
mn
=[h
mn,1
,h
mn,2
,h
mn,3
]。4.根据权利要求3所述的一种基于多尺度特征融合的发票文本识别方法,其特征在于,所述步骤二中注意力层的工作过程包括:步骤2.4、所述注意力层接收多尺度空洞卷积层输出的多尺度特征,采用第一全局平均池化得到第一注意力矩阵α,利用式(3)对多尺度特征H
mn
按通道加权,并使用残差连接得到第一注意力矩阵的输出结果:t
mn,1
=αH
mn
+H
mn
(3)步骤2.5、所述注意力层还采用第二全局平均池化得到第二注意力矩阵β,利用式(4)对
多尺度特征H
mn
按特征点加权,并使用残差连接得到第二注意力矩阵的输出结果:t
mn,2
=βH
mn
+H
mn
(4)。5.根据权利要求4所述的一种基于多尺度特征融合的发票文本识别方法,其特征在于,所述步骤二中串行的残差模块以及字符分类模块工作过程为:步骤2.6、利用式(5)得到第一个残差模块的输出:T
mn,1
=t
mn,1
+t
mn,2
+W
r,1
·
p
mn
(5)式(5)中,T
mn,1
为第一个残差模块的输出结果,W
r,1
为第一个残差模块的1
×
1卷积参数的矩阵参数;步骤2.7、将T
mn,1
输入与第一个残差模块结构相同的两个串行的残差模块,得到特征T
mn,3
;步骤2.8、对特征T
mn,3
按通道进行全局最大池化操作,得到特征向量O
mn
,然后将其输入字符分类模块利用式(6)得到所述注意力嵌入的空洞卷积神经网络输出结果:y
mn
=softmax(W
o
O
mn
+b
o
)(6)式(6)中,y
mn
表示第m张发票图片分割出的第n张单字符图片所属类别的概率分布,softmax是归一化激活函数,W
o
和b
o
分别是全连接操作的矩阵参数与偏...

【专利技术属性】
技术研发人员:翟玥孙建钱光超范明豪马亚彬苏文苏雅
申请(专利权)人:国网安徽省电力有限公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1