构建字符识别模型与识别字符的方法和装置制造方法及图纸

技术编号:22076835 阅读:27 留言:0更新日期:2019-09-12 14:31
提供了一种构建字符识别模型与识别字符的方法和装置。本发明专利技术中的特征提取网络结构包括第一特征提取网络结构或者第二特征提取网络结构,第一特征提取网络结构包括至少一层第一特征提取单元,第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;第二特征提取网络结构包括至少一层第二特征提取单元,第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层。在字符识别过程中,通过利用该特征提取网络结构对图片进行特征提取,可以在大大降低对计算资源的要求的同时,做到比主流架构更好的特征提取效果。

Method and Device for Constructing Character Recognition Model and Character Recognition

【技术实现步骤摘要】
构建字符识别模型与识别字符的方法和装置
本专利技术总体说来涉及字符识别
,更具体地说,涉及一种构建字符识别模型的方法和装置,基于字符识别模型识别图片中字符的方法和装置,以及系统和存储介质。
技术介绍
字符识别是计算机视觉研究领域的一个分支。随着科技的发展,字符识别技术的应用越来越广泛。例如,当车辆进入停车场、收费站时,通过利用字符识别技术自动识别车牌,可以免去人工登记步骤,节省人力资源。再例如,通过字符识别技术自动识别出发票中的交易金额、纳税人识别号、开户行等发票信息,可以免去人工录入操作,节省人力资源。目前主要是利用神经网络技术来实现字符识别。基于神经网络技术的字符识别方案,主要是利用vgg16、ResNet等经典网络骨架来进行特征提取,但是vgg16、ResNet等经典网络骨架往往包含上亿参数,对计算资源要求较高。
技术实现思路
本专利技术的示例性实施例旨在克服字符识别过程中特征提取部分所需计算量较高的缺陷。根据本专利技术的第一个方面,提出了一种基于字符识别模型识别图片中字符的方法,其中,字符识别模型包括特征提取模块和识别模块,方法包括:将预测图片输入特征提取模块,得到特征提取模块输出的特征矩阵;其中,特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;第一特征提取网络结构包括至少一层第一特征提取单元,第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;第二特征提取网络结构包括至少一层第二特征提取单元,第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;将特征矩阵输入识别模块,得到识别模块输出的字符识别结果。可选地,在第一特征提取网络结构包括至少两层第一特征提取单元的情况下,在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,其中M≥2,并且/或者在第二特征提取网络结构包括至少两层第二特征提取单元的情况下,在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,其中N≥2。可选地,识别模块包括概率生成单元和解码单元,将特征矩阵输入识别模块,得到识别模块输出的字符识别结果的步骤包括:将特征矩阵输入概率生成单元,以得到概率矩阵,其中,概率矩阵中的每个列向量用于表征预测图片中的一块区域所包含的字符的概率分布,列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率;将概率矩阵输入解码单元,得到解码单元生成的预测图片包含的字符的识别结果。可选地,将特征矩阵输入概率生成单元,以得到概率矩阵的步骤包括:概率生成单元为循环神经网络结构,将特征矩阵中的列向量依次输入循环神经网络结构,以得到由循环神经网络结构输出的概率矩阵。可选地,循环神经网络结构的隐藏层中神经元的个数是根据字符解空间的大小设定的,并且/或者循环神经网络结构的输出层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第三预定阈值。可选地,循环神经网络结构的隐藏层中神经元的个数与字符解空间的大小正相关。可选地,在循环神经网络结构的输出层中神经元的个数与循环神经网络结构的隐藏层中神经元的个数之间的数量差异大于第四预定阈值的情况下,在隐藏层和输出层之间设置一层全连接层,全连接层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第五预定阈值。可选地,循环神经网络结构由两层双向循环神经网络构成。可选地,将概率矩阵输入解码单元,得到解码单元生成的预测图片包含的字符的识别结果步骤包括:解码单元计算概率矩阵所有可能的解码路径的概率之和;选取概率之和最大的解码路径,作为预测图片所包含的字符的识别结果。可选地,解码单元包括编码器和解码器,将概率矩阵输入解码单元,得到解码单元生成的预测图片包含的字符的识别结果的步骤包括:将概率矩阵输入编码器,以得到编码器输出的隐向量;将编码器输出的隐向量输入解码器,以得到解码器输出的识别结果。根据本专利技术的第二个方面,还提出了一种构建字符识别模型的方法,该方法包括:设置字符识别模型包括特征提取模块和识别模块,其中,特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;第一特征提取网络结构包括至少一层第一特征提取单元,第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;第二特征提取网络结构包括至少一层第二特征提取单元,第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;将训练集中的训练图片输入字符识别模型,训练图片经由特征提取模块进行特征提取得到特征矩阵,将特征矩阵输入识别模块,得到识别模块输出的字符识别结果;以使识别模块输出的识别结果与训练图片的标记之间的差异减小为目标,调整特征提取模块和/或识别模块的参数;其中,当特征提取模块包括第一特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间大于第一预定阈值,当特征提取模块包括第二特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间小于第二预定阈值,第一预定阈值大于或等于第二预定阈值。可选地,在设置第一特征提取网络结构包括至少两层第一特征提取单元的情况下,设置在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,其中M≥2,并且/或者在设置第二特征提取网络结构包括至少两层第二特征提取单元的情况下,设置在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,其中N≥2。可选地,识别模块包括概率生成单元和解码单元,将特征矩阵输入识别模块,得到识别模块输出的字符识别结果的步骤包括:将特征矩阵输入概率生成单元,以得到概率矩阵,其中,概率矩阵中的每个列向量用于表征训练图片中的一块区域所包含的字符的概率分布,列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率;将概率矩阵输入解码单元,得到解码单元生成的训练图片包含的字符的识别结果。可选地,设置概率生成单元为循环神经网络结构,将特征矩阵中的列向量依次输入循环神经网络结构,以得到由循环神经网络结构输出的概率矩阵。可选地,根据字符解空间的大小设定循环神经网络结构的隐藏层中神经元的个数,并且/或者设置循环神经网络结构的输出层中神经元的个数与字符解空间对应的数值的差值的绝对值小于第三预定阈值。可选地,设置循环神经网络结构的隐藏层中神经元的个数与字符解空间的大小正相关。可选地,在循环神经网络结构的输出层中神经元的个数与循环神经网络结构的隐藏层中神经元的个数之间的数量差异大于第四预定阈值的情况下,在隐藏层和输出层之间设置一层全连接层,并设置全连接层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第五预定阈值。可选地,设置循环神经网络结构由两层双向循环神经网络构成。可选地,以使识别模块输出的字符识别结果与训练图片的标记之间的差异减小为目标,调整特征提取模块和/或识别模块的参本文档来自技高网...

【技术保护点】
1.一种基于字符识别模型识别图片中字符的方法,其中,所述字符识别模型包括特征提取模块和识别模块,所述方法包括:将预测图片输入特征提取模块,得到所述特征提取模块输出的特征矩阵;其中,所述特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;所述第一特征提取网络结构包括至少一层第一特征提取单元,所述第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;所述第二特征提取网络结构包括至少一层第二特征提取单元,所述第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;将所述特征矩阵输入所述识别模块,得到所述识别模块输出的字符识别结果。

【技术特征摘要】
1.一种基于字符识别模型识别图片中字符的方法,其中,所述字符识别模型包括特征提取模块和识别模块,所述方法包括:将预测图片输入特征提取模块,得到所述特征提取模块输出的特征矩阵;其中,所述特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;所述第一特征提取网络结构包括至少一层第一特征提取单元,所述第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;所述第二特征提取网络结构包括至少一层第二特征提取单元,所述第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;将所述特征矩阵输入所述识别模块,得到所述识别模块输出的字符识别结果。2.根据权利要求1所述的方法,其中,在所述第一特征提取网络结构包括至少两层第一特征提取单元的情况下,在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,其中M≥2,并且/或者在所述第二特征提取网络结构包括至少两层第二特征提取单元的情况下,在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,其中N≥2。3.根据权利要求1所述的方法,其中,所述识别模块包括概率生成单元和解码单元,所述将所述特征矩阵输入所述识别模块,得到所述识别模块输出的字符识别结果的步骤包括:将所述特征矩阵输入所述概率生成单元,以得到概率矩阵,其中,所述概率矩阵中的每个列向量用于表征所述预测图片中的一块区域所包含的字符的概率分布,所述列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率;将所述概率矩阵输入所述解码单元,得到所述解码单元生成的所述预测图片包含的字符的识别结果。4.根据权利要求3所述的方法,其中,所述将所述特征矩阵输入所述概率生成单元,以得到概率矩阵的步骤包括:所述概率生成单元为循环神经网络结构,将所述特征矩阵中的列向量依次输入循环神经网络结构,以得到由所述循环神经网络结构输出的概率矩阵。5.根据权利要求4所述的方法,其中,所述循环神经网络结构的隐藏层中神经元的个数是根据所述字符解空间的大小设定的,并且/或者所述循环神经网络结构的输出层中神经元的个数与所述字符解空间的大小之间的差值的绝对值小于第三预定阈值。6.一种构建字符识别模型的方法,该方法包括:设置字符识别模型包括特征提取模块和识别模块,其中,所述特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;所述第一特征提取网络结构包括至少一层第一特征提取单元,所述第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;所述第二特征提取网络结构包括至少一层第二特征提取单元,所述第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;将训练集中的训练图片输入所述字符识别模型,训练图片经由所述特征提取模块进行特征提取得到特征矩阵,将所述特征矩阵输入...

【专利技术属性】
技术研发人员:韩景涛曾华荣韩锋
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1