文本识别方法和装置制造方法及图纸

技术编号:38135869 阅读:12 留言:0更新日期:2023-07-08 09:47
本申请提供了一种文本识别方法和装置,该方法包括:获得文本图像;对文本图像进行特征提取,得到文本图像的浅层文本特征;对浅层文本特征进行移位卷积处理,得到文本图像的第一中间文本特征;利用逐组多窗口自注意力模块对第一中间文本特征进行多组不同窗口尺寸的自注意力计算,将计算得到的多组自注意力特征进行融合,得到文本图像的第二中间文本特征;将浅层文本特征与第二中间文本特征进行残差连接,得到文本图像的深层文本特征;基于浅层文本特征和深层文本特征,识别文本图像中的文本。通过本申请的方案可以提升文本图像识别的准确性。准确性。准确性。

【技术实现步骤摘要】
文本识别方法和装置


[0001]本申请涉及图像处理
,尤其涉及一种文本识别方法和装置。

技术介绍

[0002]随着图像处理技术的不断发展,对图像进行文本识别的应用场景日益增多。如,图像的文本识别技术可以应用于车牌识别、街道标志识别、文献检索、工业自动化中的零件识别以及自动驾驶中的导航匹配等等诸多领域。
[0003]但是,自然场景中存在的图像普遍存在分辨率低,且图像中包含的文本通常在布局、字体以及大小等方面有所不同,很容易出现文本识别错误,导致文本识别的准确率不高。

技术实现思路

[0004]有鉴于此,本申请提供了一种文本识别方法和装置,以提高文本识别的准确性。
[0005]为实现上述目的,一方面,本申请提供了一种文本识别方法,包括:
[0006]获得文本图像;
[0007]对所述文本图像进行特征提取,得到所述文本图像的浅层文本特征;
[0008]对所述浅层文本特征进行移位卷积处理,得到所述文本图像的第一中间文本特征;
[0009]利用逐组多窗口自注意力模块对所述第一中间文本特征进行多组不同窗口尺寸的自注意力计算,将计算得到的多组自注意力特征进行融合,得到所述文本图像的第二中间文本特征;
[0010]将所述浅层文本特征与第二中间文本特征进行残差连接,得到所述文本图像的深层文本特征;
[0011]基于所述浅层文本特征和深层文本特征,识别所述文本图像中的文本。
[0012]在一种可能的实现方式中,所述基于所述浅层文本特征和深层文本特征,识别所述文本图像中的文本,包括:
[0013]基于所述浅层文本特征和深层文本特征,构建所述文本图像的超分辨率文本图像;
[0014]识别所述超分辨率文本图像中的文本。
[0015]在又一种可能的实现方式中,所述基于所述浅层文本特征和深层文本特征,构建所述文本图像的超分辨率文本图像,包括:
[0016]对所述浅层文本特征和深层文本特征进行融合处理,得到所述文本图像的融合文本特征;
[0017]对所述融合文本特征进行像素重组,得到重组后的文本图像;
[0018]利用像素级注意力模块对重组后的文本图像进行上采样,得到所述文本图像的超分辨率文本图像。
[0019]在又一种可能的实现方式中,所述对所述浅层文本特征进行移位卷积处理,得到所述文本图像的第一中间文本特征,包括:
[0020]对所述浅层文本特征进行第一移位卷积处理,得到所述文本图像的第一文本特征;
[0021]利用第一激活函数对所述第一文本特征进行激活处理;
[0022]对激活处理后的第一文本特征进行第二移位卷积处理,得到所述文本图像的第二文本特征;
[0023]基于所述第二文本特征,确定所述文本图像的第一中间文本特征。
[0024]在又一种可能的实现方式中,所述基于所述第二文本特征,确定所述文本图像的第一中间文本特征,包括:
[0025]将所述第二文本特征与所述浅层文本特征进行残差连接,得到所述文本图像的第一中间文本特征。
[0026]在又一种可能的实现方式中,在提取所述文本图像的浅层特征之前,还包括:
[0027]对所述文本图像进行文本矫正;
[0028]利用第二激活函数对文本矫正后的文本图像进行激活处理。
[0029]在又一种可能的实现方式中,所述像素级注意力模块包括:转换像素的如下关系矩阵R:
[0030][0031]其中,softmax表示归一化函数;
[0032]θ()和φ()分别表示不同的全连接层转换;
[0033]f
il
表示需要上采样的图像f
l
中任意一个像素i的特征,i∈n,n属于图像f
l
的像素集合;
[0034]表示图像f
l
中像素j的特征,j∈N
i
,N
i
表示图像f
l
中像素i的k个近邻像素的集合;
[0035]C是图像f
l
的通道数。
[0036]又一方面,本申请还提供了一种文本识别装置,包括:
[0037]图像获得单元,用于获得文本图像;
[0038]特征提取单元,用于对所述文本图像进行特征提取,得到所述文本图像的浅层文本特征;
[0039]移位卷积单元,用于对所述浅层文本特征进行移位卷积处理,得到所述文本图像的第一中间文本特征;
[0040]注意力计算单元,用于利用逐组多窗口自注意力模块对所述第一中间文本特征进行多组不同窗口尺寸的自注意力计算,将计算得到的多组自注意力特征进行融合,得到所述文本图像的第二中间文本特征;
[0041]特征连接单元,用于将所述浅层文本特征与第二中间文本特征进行残差连接,得到所述文本图像的深层文本特征;
[0042]文本识别单元,用于基于所述浅层文本特征和深层文本特征,识别所述文本图像
中的文本。
[0043]在一种可能的实现方式中,所述文本识别单元,包括:
[0044]图像构建子单元,用于基于所述浅层文本特征和深层文本特征,构建所述文本图像的超分辨率文本图像;
[0045]文本识别子单元,用于识别所述超分辨率文本图像中的文本。
[0046]在又一种可能的实现方式中,所述图像构建子单元,包括:
[0047]特征融合子单元,用于对所述浅层文本特征和深层文本特征进行融合处理,得到所述文本图像的融合文本特征;
[0048]像素重组单元,用于对所述融合文本特征进行像素重组,得到重组后的文本图像;
[0049]像素级处理单元,用于利用像素级注意力模块对重组后的文本图像进行上采样,得到所述文本图像的超分辨率文本图像。
[0050]由以上可知,本申请实施例在提取出文本图像的浅层文本特征后,会对浅层文本特征进行移位卷积处理,以实现不同通道之间的特征融合。在此基础上,本申请还会利用逐组多窗口自注意力模块对移位卷积处理后的文本特征进行多组不同窗口尺寸的自注意力计算,并将计算得到的多组自注意力特征进行融合,使得融合出的第二中间文本特征能够更深层次且从全局上挖掘出文本图像的文本特征。由此可知,将浅层文本特征与该第二中间文本特征进行残差连接,能够减少梯度消失而影响到文本特征的准确性和信息全面性,从而最终得到更为准确反映全局特征的深度文本特征,因此,通过浅层文本特征和深层文本特征能够更为准确且全面地体现出文本图像的局部细节特征以及全局的文本特征,自然也就可以提高文本识别的准确性。
附图说明
[0051]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0052]图1示出了本申请实施例提供的文本识别方法的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:获得文本图像;对所述文本图像进行特征提取,得到所述文本图像的浅层文本特征;对所述浅层文本特征进行移位卷积处理,得到所述文本图像的第一中间文本特征;利用逐组多窗口自注意力模块对所述第一中间文本特征进行多组不同窗口尺寸的自注意力计算,将计算得到的多组自注意力特征进行融合,得到所述文本图像的第二中间文本特征;将所述浅层文本特征与第二中间文本特征进行残差连接,得到所述文本图像的深层文本特征;基于所述浅层文本特征和深层文本特征,识别所述文本图像中的文本。2.根据权利要求1所述的方法,其特征在于,所述基于所述浅层文本特征和深层文本特征,识别所述文本图像中的文本,包括:基于所述浅层文本特征和深层文本特征,构建所述文本图像的超分辨率文本图像;识别所述超分辨率文本图像中的文本。3.根据权利要求2所述的方法,其特征在于,所述基于所述浅层文本特征和深层文本特征,构建所述文本图像的超分辨率文本图像,包括:对所述浅层文本特征和深层文本特征进行融合处理,得到所述文本图像的融合文本特征;对所述融合文本特征进行像素重组,得到重组后的文本图像;利用像素级注意力模块对重组后的文本图像进行上采样,得到所述文本图像的超分辨率文本图像。4.根据权利要求1所述的方法,其特征在于,所述对所述浅层文本特征进行移位卷积处理,得到所述文本图像的第一中间文本特征,包括:对所述浅层文本特征进行第一移位卷积处理,得到所述文本图像的第一文本特征;利用第一激活函数对所述第一文本特征进行激活处理;对激活处理后的第一文本特征进行第二移位卷积处理,得到所述文本图像的第二文本特征;基于所述第二文本特征,确定所述文本图像的第一中间文本特征。5.根据权利要求4所述的方法,其特征在于,所述基于所述第二文本特征,确定所述文本图像的第一中间文本特征,包括:将所述第二文本特征与所述浅层文本特征进行残差连接,得到所述文本图像的第一中间文本特征。6.根据权利要求1所述的方法,其特征在于,在提取所述文本图像的浅层特征之前,还包括:对所述文本图像进行文本矫正;利用第二激活函数对文本矫正后的文本图像进行激...

【专利技术属性】
技术研发人员:张信明贾堡钧马金陈一凡
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1