字符识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29940198 阅读:21 留言:0更新日期:2021-09-04 19:23
本申请公开了字符识别方法、装置、电子设备和存储介质。字符识别方法包括:获取包含待识别字符的图像;将包含待识别字符的图像输入预设字符识别模型,得到字符识别结果;其中,预设字符识别模型依次包括:卷积神经网络CNN、循环神经网络RNN以及转录网络CTC,CNN的输出与RNN的输出之间设有短路连接,短路连接用于根据CNN的输出与RNN的输出得到中间输出结果;CTC用于对中间输出结果进行处理,输出字符识别结果。该技术方案基于对CRNN算法的改进,在原始CRNN的基础上添加CNN的输出与RNN的输出之间的短路连接,从而提升了字符识别结果的准确度。确度。确度。

【技术实现步骤摘要】
字符识别方法、装置、电子设备和存储介质


[0001]本申请涉及图像识别
,尤其涉及字符识别方法、装置、电子设备和存储介质。

技术介绍

[0002]字符识别方法总的来说主要分为两大类,传统算法识别和神经网络算法识别。用传统算法识别时,在设计算法时,需要对图片的噪声,图像质量,分辨率等做出较多的设计和思考。而随着神经网络技术的不断发展,目前,基于神经网络的字符识别算法取得了很多突破,已经成为了主流。但是,识别准确度还有一定的提升空间。

技术实现思路

[0003]本申请实施例提供了字符识别方法、装置、电子设备和存储介质,以提升字符识别的准确度。
[0004]本申请实施例采用下述技术方案:第一方面,本申请实施例提供一种字符识别方法,包括:获取包含待识别字符的图像;将包含待识别字符的图像输入预设字符识别模型,得到字符识别结果;其中,预设字符识别模型依次包括:卷积神经网络CNN、循环神经网络RNN以及转录网络CTC,CNN的输出与RNN的输出之间设有短路连接,短路连接用于根据CNN的输出与RNN的输出得到中间输出结果;CTC用于对中间输出结果进行处理,输出字符识别结果。
[0005]在一些实施例中,CNN具有多感受野结构,CNN用于根据多感受野结构,对包含待识别字符的图像进行字符特征提取,从而能够适应不同字形的字符。
[0006]在一些实施例中,多感受野结构基于平行多池化层实现,平行多池化层中的各池化层不同;平行多池化层用于接收CNN中前一层的输出,相应地得到各池化层的输出结果,对各输出结果进行第一指定运算,得到第一运算结果作为CNN中下一层的输入。
[0007]在一些实施例中,平行多池化层有多组,其中,CNN中第一卷积层之后以及第二卷积层之后的两组平行多池化层中,每组平行多池化层中的最大池化层分别使用1
×
2的池化核和2
×
2的池化核;CNN的最后两组平行多池化层中,每组平行多池化层中的最大池化层分别使用1
×
2的池化核和3
×
2的池化核。
[0008]在一些实施例中,CNN的第三个卷积层与第四个卷积层之间设置有批标准化层,批标准化层用于对第三个卷积层的卷积结果进行批标准化处理后,将批标准化结果输入到第四个卷积层。
[0009]在一些实施例中,RNN用于对CNN的输出结果进行处理,得到第一RNN输出结果;短路连接,用于对CNN的输出结果和第一RNN输出结果进行第二指定运算,得到中间运算结果;RNN还用于对中间运算结果进行处理,得到第二RNN输出结果;短路连接,还用于对CNN的输出结果、中间运算结果和第二RNN输出结果进行第三指定运算,得到中间输出结果。
[0010]在一些实施例中,RNN具体为长短期记忆循环神经网络LSTM,LSTM,用于将CNN的输
出结果或中间运算结果作为输入量,根据输入量依次计算遗忘门信息、记忆门信息、细胞状态、输出门信息,最终得到隐藏层信息作为与输入量对应的输出结果。
[0011]在一些实施例中,LSTM具体为双向长短期记忆循环神经网络BiLSTM,BiLSTM,用于将自身的正向网络得到的隐藏层信息,与自身的负向网络得到的隐藏层信息进行拼接,作为与输入量对应的输出结果。
[0012]第二方面,本申请实施例还提供一种字符识别装置,用于实现如上任一的字符识别方法。
[0013]在一些实施例中,字符识别装置包括:获取单元,用于获取包含待识别字符的图像;识别单元,用于将包含待识别字符的图像输入预设字符识别模型,得到字符识别结果。其中,预设字符识别模型依次包括:卷积神经网络CNN、循环神经网络RNN以及转录网络CTC,CNN的输出与RNN的输出之间设有短路连接,短路连接用于根据CNN的输出与RNN的输出得到中间输出结果;CTC用于对中间输出结果进行处理,输出字符识别结果。
[0014]第三方面,本申请实施例还提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,可执行指令在被执行时使处理器执行如上任一的字符识别方法。
[0015]第四方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序当被包括多个应用程序的电子设备执行时,使得电子设备执行如上任一的字符识别方法。
[0016]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:基于对CRNN算法的改进,在原始CRNN的基础上添加CNN的输出与RNN的输出之间的短路连接,从而提升了字符识别结果的准确度。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1示出了根据本申请一个实施例的字符识别方法的流程示意图;图2示出了根据本申请一个实施例的CNN计算流程图;图3示出了本申请一个实施例的利用LSTM和短路连接得到中间输出结果的计算原理图;图4示出了本申请一个实施例的利用BiLSTM和短路连接得到中间输出结果的计算原理图;图5示出了根据本申请一个实施例的字符识别方法的结构示意图;图6为本申请实施例中一种电子设备的结构示意图。
具体实施方式
[0018]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0020]图1示出了根据本申请一个实施例的字符识别方法的流程示意图。如图1所示,该方法包括:步骤S110,获取包含待识别字符的图像。其中,包含待识别字符的图像可以根据实际需求来获得,例如,可以是包含字符验证码的图像,等等,本申请对此不做限制。
[0021]步骤S120,将包含待识别字符的图像输入预设字符识别模型,得到字符识别结果。
[0022]本申请实施例的字符识别模型可以是根据CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)构建的,关于CRNN算法的内容可以参考原论文CRNN(Baoguang Shi, 2015)。本申请与之的区别在于,在字符识别模型中添加了CNN的输出与RNN的输出之间的短路连接。通过这种方式,使得CTC能够得到更准确的字符识别结果。
[0023]本申请的技术方案基于对CRNN算法的改进,在原始CRNN的基础上添加CNN的输出与RNN的输出之间的短路连接,从而提升了字符识别结果的准确度。本申请的技术方案可以应用于各类字符识别场景,尤其适用于车联网场景下,对车载摄像头所拍摄的视频中的时间水印进行识别的场景。
[0024]在一些实施例中,CNN具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字符识别方法,其特征在于,该方法包括:获取包含待识别字符的图像;将所述包含待识别字符的图像输入预设字符识别模型,得到字符识别结果;其中,所述预设字符识别模型依次包括:卷积神经网络CNN、循环神经网络RNN以及转录网络CTC,所述CNN的输出与所述RNN的输出之间设有短路连接,所述短路连接用于根据所述CNN的输出与所述RNN的输出得到中间输出结果;所述CTC用于对所述中间输出结果进行处理,输出所述字符识别结果。2.如权利要求1所述的方法,其特征在于,所述CNN具有多感受野结构,所述CNN用于根据所述多感受野结构,对所述包含待识别字符的图像进行字符特征提取,从而能够适应不同字形的字符。3.如权利要求2所述的方法,其特征在于,所述多感受野结构基于平行多池化层实现,平行多池化层中的各池化层不同;所述平行多池化层用于接收CNN中前一层的输出,相应地得到各池化层的输出结果,对各输出结果进行第一指定运算,得到第一运算结果作为所述CNN中下一层的输入。4.如权利要求3所述的方法,其特征在于,所述平行多池化层有多组,其中,所述CNN中第一卷积层之后以及第二卷积层之后的两组平行多池化层中,每组平行多池化层中的最大池化层分别使用1
×
2的池化核和2
×
2的池化核;所述CNN的最后两组平行多池化层中,每组平行多池化层中的最大池化层分别使用1
×
2的池化核和3
×
2的池化核。5.如权利要求1所述的方法,其特征在于,所述CNN的第三个卷积层与第四个卷积层之间设置有批标准化层,所述批标准化层用于对所述第三个卷积层的卷积结果进...

【专利技术属性】
技术研发人员:孟鹏飞朱磊贾双成潘冰李成军
申请(专利权)人:智道网联科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1