文本识别方法和文本识别系统技术方案

技术编号:33092110 阅读:72 留言:0更新日期:2022-04-16 23:21
本发明专利技术提供一种文本识别方法和文本识别系统。该方法包括:采用第一卷积神经网络对待识别图像进行特征提取,得到待识别图像的第一特征图;将第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到N个方向的特征向量各自的权重;根据N个方向的特征向量各自的权重,对N个方向的特征向量进行特征融合,得到特征融合后的特征向量,对所述特征融合后的特征向量进行解码,以得到文字识别结果。本发明专利技术能够提高发生形变的文本图像的文字识别的准确性。性。性。

【技术实现步骤摘要】
文本识别方法和文本识别系统


[0001]本专利技术实施例涉及图像处理
,尤其涉及一种文本识别方法和文本识别系统。

技术介绍

[0002]目前OCR(Optical Character Recognition,光学字符识别)领域中,各种文本识别技术不断涌现,性能良好的文本识别技术大多都是基于深度学习算法。大多数文本识别算法,它对未发生形变的文本图像的识别效果较好。然而在自然场景下,由于相机拍摄角度或者文字载体非刚性等原因,采集到的图像中文本经常会发生倾斜、透视、弯曲等形变情况,容易使文本识别算法失效。

技术实现思路

[0003]本专利技术实施例提供一种一种文本识别方法和文本识别系统,用于解决文本图像发生形变时,文字识别效果差的问题。
[0004]为了解决上述技术问题,本专利技术是这样实现的:
[0005]第一方面,本专利技术实施例提供了一种文本识别方法,包括:
[0006]采用第一卷积神经网络对待识别图像进行特征提取,得到所述待识别图像的第一特征图;
[0007]将所述第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到N个方向的特征向量各自的权重;其中,N为大于或等于2的正整数;
[0008]根据所述N个方向的特征向量各自的权重,对所述N个方向的特征向量进行特征融合,得到特征融合后的一维特征向量,对所述特征融合后的一维特征向量进行解码,以得到文字识别结果。
[0009]可选的,所述第一卷积神经网络为基于注意力机制的卷积神经网络,包括多个卷积模块和多个注意力机制模块。
[0010]可选的,所述卷积模块为第一卷积模块或第二卷积模块,所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块,其中,所述第一卷积神经网络的第一个和最后一个卷积模块均为所述第一卷积模块。
[0011]可选的,所述第二卷积模块包括:第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。
[0012]可选的,所述卷积模块的个数小于5。
[0013]可选的,每个所述卷积模块之后设置一个所述注意力机制模块。
[0014]可选的,采用第一卷积神经网络对待识别图像进行特征提取之前还包括:
[0015]将待识别图像缩放为预定尺寸的正方形图像。
[0016]可选的,N等于4,所述N种角度分别为0度、90度、180度和270度。
[0017]可选的,所述第二卷积神经网络包括多个卷积层和多个池化层。
[0018]可选的,采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量之后还包括:
[0019]采用长短期记忆网络对所述N个方向的特征向量进行处理,得到处理后的N个方向的特征向量。
[0020]可选的,所述第三卷积神经网络包括:M个卷积层、M个池化层和全连接层,其中,M为大于或等于1的正整数。
[0021]可选的,对所述特征融合后的特征向量进行解码包括:
[0022]采用长短期记忆网络和注意力模块对所述特征融合后的一维特征向量进行处理,得到处理后的一维特征向量;
[0023]使用Softmax层对所述处理后的特征向量进行计算,以得到文字识别结果。
[0024]第二方面,本专利技术实施例提供了一种文本识别系统,包括:
[0025]第一处理单元,用于采用第一卷积神经网络对待识别图像进行特征提取,得到所述待识别图像的第一特征图;
[0026]第二处理单元,用于将所述第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到所述N个方向的特征向量各自的权重;其中,N为大于或等于2的正整数;
[0027]第三处理单元,用于根据所述N个方向的特征向量各自的权重,对所述N个方向的特征向量进行特征融合,得到特征融合后的特征向量,对所述特征融合后的特征向量进行解码,以得到文字识别结果。
[0028]可选的,所述第一卷积神经网络为基于注意力机制的卷积神经网络,包括多个卷积模块和多个注意力机制模块。
[0029]可选的,所述卷积模块为第一卷积模块或第二卷积模块,所述第一卷积模块包括:卷积层;所述第二卷积模块包括:第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。
[0030]可选的,所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块,其中,所述第一卷积神经网络的第一个和最后一个卷积模块均为所述第一卷积模块。
[0031]可选的,所述卷积模块的个数小于5。
[0032]可选的,每个所述卷积模块之后设置一个所述注意力机制模块。
[0033]可选的,所述文本识别系统还包括:
[0034]缩放单元,用于将待识别图像缩放为预定尺寸的正方形图像。
[0035]可选的,N等于4,所述N种角度分别为0度、90度、180度和270度。
[0036]可选的,所述第二卷积神经网络包括多个卷积层和多个池化层。
[0037]可选的,
[0038]所述第二处理单元,用于在采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量之后,采用长短期记忆网络对所述N个方向的特征向量进行处理,得到处理后的N个方向的特征向量。
[0039]可选的,所述第三卷积神经网络包括:M个卷积层、M个池化层和全连接层,其中,M为大于或等于1的正整数。
[0040]可选的,所述第三处理单元,用于采用长短期记忆网络和注意力模块对所述特征融合后的特征向量进行处理,得到处理后的特征向量;使用Softmax层对所述处理后的特征向量进行计算,以得到文字识别结果。
[0041]第三方面,本专利技术实施例提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现上述第一方面的文本识别方法的步骤。
[0042]第四方面,本专利技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现上述第一方面的文本识别方法的步骤。
[0043]本专利技术实施例中,采用方向卷积神经网络可以提取N个方向的特征图的文本特征和位置特征,通过特征融合和解码,完成文字的识别,提高了对图像中文本发生各种形变问题的识别准确率,无论输入的待识别图像是否发生形变,均能够准确识别待识别图像中的文字,不需要在进行文本识别之前对检测到的文本进行拉伸、旋转等处理。
附图说明
[0044]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:采用第一卷积神经网络对待识别图像进行特征提取,得到所述待识别图像的第一特征图;将所述第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到N个方向的特征向量各自的权重;其中,N为大于或等于2的正整数;根据所述N个方向的特征向量各自的权重,对所述N个方向的特征向量进行特征融合,得到特征融合后的特征向量,对所述特征融合后的特征向量进行解码,以得到文字识别结果。2.如权利要求1所述的文本识别方法,其特征在于,所述第一卷积神经网络为基于注意力机制的卷积神经网络,包括多个卷积模块和多个注意力机制模块。3.如权利要求2所述的文本识别方法,其特征在于,所述卷积模块为第一卷积模块或第二卷积模块,所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块,其中,所述第一卷积神经网络的第一个和最后一个卷积模块均为所述第一卷积模块。4.如权利要求3所述的文本识别方法,所述第二卷积模块包括:第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。5.如权利要求2所述的文本识别方法,其特征在于,所述卷积模块的个数小于5。6.如权利要求2-5任一项所述的文本识别方法,其特征在于,每个所述卷积模块之后设置一个所述注意力机制模块。7.如权利要求1所述的文本识别方法,其特征在于,采用第一卷积神经网络对待识别图像进行特征提取之前还包括:将待识别图像缩放为预定尺寸的正方形图像。8.如权利要求1所述的文本识别方法,其特征在于,N等于4,所述N种角度分别为0度、90度、180度和270度。9.如权利要求1所述的文本识别方法,其特征在于,所述第二卷积神经网络包括多个卷积层和多个池化层。10.如权利要求1所...

【专利技术属性】
技术研发人员:黄光伟李月
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1