基于多尺度特征融合的网络图像文本识别方法及系统技术方案

技术编号:33124344 阅读:31 留言:0更新日期:2022-04-17 00:31
本发明专利技术公开了一种基于多尺度特征融合的网络图像文本识别方法及系统,所述方法包括:通过残差网络的U

【技术实现步骤摘要】
基于多尺度特征融合的网络图像文本识别方法及系统


[0001]本专利技术涉及文本识别
,具体涉及一种基于多尺度特征融合的网络图像文本识别方法及系统。

技术介绍

[0002]文本识别,是利用计算机自动识别字符的技术,是计算机视觉任务应用的一个重要领域。在计算机视觉领域中,由于文本作为重要线索为计算机视觉任务提供更丰富更准确的信息,文本识别一直是一项重要任务。目前文本识别技术已经广泛运用于生活中的各种场景,例如:文本验证码应用、文档分析以及数学公式识别。
[0003]目前,文本识别方法分为两类,第一类方法是将其分为文本检测和文本识别两个独立的子任务。基于深度学习的方法在这两个子任务中都占据了主导地位。在文本检测中,通常使用卷积神经网络从场景图像中提取特征映射,然后使用不同的解码器对文本区域进行解码。而文本识别,则是在预测的文本区域基础上进行序列预测。但是这类方法在识别有很多文本区域的图像时,需要大量的时间成本。同时此类方法忽略了检测和识别中共享的视觉线索的相关性。单一的检测网络不能被来自文本识别的标签所监督,同样,单一的识别网络也不能被检测网络的标签监督。
[0004]第二类方法是端到端文本识别方法,这类方法同时考虑文本检测和识别的相互监督。与之前的方法相比,这类方法通过卷积神经网络学习更多的一般性特征,这些特征在文本检测和文本识别之间共享,两个任务的监督是互补的。然而目前中英文混合场景文本识别的端到端方法主要集中于背景简单、排版比较规则的水平文本,对于背景复杂、文本方向多样的网络图像文本并不适用。<br/>
技术实现思路

[0005]本专利技术为了克服以上技术的不足,提供了一种基于多尺度特征融合的网络图像文本识别方法,还提供了一种基于多尺度特征融合的网络图像文本识别系统。
[0006]本专利技术中,首先使用基于残差网络的U

net多尺度特征提取网络提取原始图片的文本特征图,然后利用全卷积网络输出文本预测框和文本预测框水平角度,旋转模块再根据文本预测框水平角度对文本特征图进行仿射变换后,使用文本识别模块进行文本标签转录,最后联合文本检测模块共同完成网络图像的端到端识别任务。
[0007]本专利技术克服其技术问题所采用的技术方案是:
[0008]一种基于多尺度特征融合的网络图像文本识别方法,至少包括步骤:
[0009]通过残差网络的U

net网络结构,提取出训练数据集中每张网络原始图片所有文本信息的特征图;
[0010]基于残差网络提取的全部文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度;
[0011]将残差网络提取的全部文本信息的特征图结合文本预测框水平角度,对特征图有
向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图;
[0012]对轴向对齐的特征图进行文本标签转录,并配合全卷积网络输出的文本检测结果,输出原始图片所有文本的检测和识别结果。
[0013]进一步地,通过残差网络的U

net网络结构,提取出训练数据集中每张网络原始图片所有文本信息的特征图,具体包括:
[0014]对网络原始图片采用U

net网络结构,在自下而上的路径融合了1/32到1/4原始图片的分辨率特征,融合过程通过公式(1)和(2)表示:
[0015][0016][0017]上式(1)和(2)描述了上采样的过程,其中,t
i
是每一上采样层级输出的特征张量,u
i
是融合后的特征图,f
i
是正常卷积的特征张量,[t
i
‑1;f
i
]表示上一层级的上采样结果和本层级特征进行连接融合。
[0018]进一步地,基于残差网络提取的全部文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度,具体包括:
[0019]采用全卷积网络用于文本检测,卷积输出的结果包括两部分:
[0020]第一部分,完成分类任务的输出,生成文本得分图;分类任务的输出有1个通道,用于计算每个像素属于正样本的概率;
[0021]第二部分,输出文本预测框;文本预测框的输出有5个通道,其中4个通道分别输出该像素与文本预测框的顶部、底部、左侧和右侧的距离,另外1个通道输出文本预测框水平角度;
[0022]对每个正样本进行阈值化和非极大值抑制算法处理,得到最终文本检测结果,阈值化和非极大值抑制算法通过公式(3)表示:
[0023][0024]上式中,B为当前得分最大的文本预测框,N
t
为抑制阈值,s
i
为分数,b
i
为同一文本行的其他文本预测框,iou等于B和b
i
的面积之和与B和b
i
的并集的面积之比。
[0025]进一步地,全卷积网络的卷积核大小为1
×
1,输出通道为6。
[0026]进一步地,将残差网络提取的全部文本信息的特征图结合文本预测框水平角度,对特征图有向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图,具体包括:
[0027]步骤1:首先计算特征图仿射变换后,像素点和原像素点的位移偏差,作为仿射变换矩阵的平移变换参数,使变换前后的中心点对齐,计算通过公式(4)和(5)表示:
[0028]Δx=lcosθ

tsinθ

x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0029]Δy=tcosθ+lsinθ

y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0030]上式中,Δx和Δy分别特征图中某个点仿射变换前后x轴和y轴上的位移偏差;
[0031]然后通过固定高度h
t
计算特征图的缩放比例s,对宽度w
t
进行同比例的缩放,公式如(6)和(7)所示:
[0032]s=h
t
/(t+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0033]w
t
=s
×
(l+r)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0034]最后结合文本预测框水平角度θ进行旋转变换,最终的仿射变换矩阵如公式(8)所示:
[0035][0036]上式(4)

(8)中,M代表最终的仿射变换矩阵,h
t
和w
t
分别代表特征图仿射变换后的高度和宽度,(x,y)表示特征图中某个点的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征融合的网络图像文本识别方法,其特征在于,至少包括步骤:通过残差网络的U

net网络结构,提取出训练数据集中每张网络原始图片所有文本信息的特征图;基于残差网络提取的全部文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度;将残差网络提取的全部文本信息的特征图结合文本预测框水平角度,对特征图有向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图;对轴向对齐的特征图进行文本标签转录,并配合全卷积网络输出的文本检测结果,输出原始图片所有文本的检测和识别结果。2.根据权利要求1所述的基于多尺度特征融合的网络图像文本识别方法,其特征在于,通过残差网络的U

net网络结构,提取出训练数据集中每张网络原始图片所有文本信息的特征图,具体包括:对网络原始图片采用U

net网络结构,在自下而上的路径融合了1/32到1/4原始图片的分辨率特征,融合过程通过公式(1)和(2)表示:分辨率特征,融合过程通过公式(1)和(2)表示:上式(1)和(2)描述了上采样的过程,其中,t
i
是每一上采样层级输出的特征张量,u
i
是融合后的特征图,f
i
是正常卷积的特征张量,[t
i
‑1;f
i
]表示上一层级的上采样结果和本层级特征进行连接融合。3.根据权利要求1所述的基于多尺度特征融合的网络图像文本识别方法,其特征在于,基于残差网络提取的全部文本信息的特征图,利用全卷积网络输出文本预测框和文本预测框水平角度,具体包括:采用全卷积网络用于文本检测,卷积输出的结果包括两部分:第一部分,完成分类任务的输出,生成文本得分图;分类任务的输出有1个通道,用于计算每个像素属于正样本的概率;第二部分,输出文本预测框;文本预测框的输出有5个通道,其中4个通道分别输出该像素与文本预测框的顶部、底部、左侧和右侧的距离,另外1个通道输出文本预测框水平角度;对每个正样本进行阈值化和非极大值抑制算法处理,得到最终文本检测结果,阈值化和非极大值抑制算法通过公式(3)表示:上式中,B为当前得分最大的文本预测框,N
t
为抑制阈值,s
i
为分数,b
i
为同一文本行的其他文本预测框,iou等于B和b
i
的面积之和与B和b
i
的并集的面积之比。4.根据权利要求3所述的基于多尺度特征融合的网络图像文本识别方法,其特征在于,全卷积网络的卷积核大小为1
×
1,输出通道为6。
5.根据权利要求1所述的基于多尺度特征融合的网络图像文本识别方法,其特征在于,将残差网络提取的全部文本信息的特征图结合文本预测框水平角度,对特征图有向特征区域进行仿射变换的旋转操作,得到轴向对齐的特征图,具体包括:步骤1:首先计算特征图仿射变换后,像素点和原像素点的位移偏差,作为仿射变换矩阵...

【专利技术属性】
技术研发人员:王晓帅祥王薇袁鑫涂兴月徐新
申请(专利权)人:武汉科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1