文字识别方法、装置及存储介质制造方法及图纸

技术编号:33554206 阅读:15 留言:0更新日期:2022-05-26 22:50
本公开涉及一种文字识别方法、装置及存储介质,属于文字识别领域,所述方法包括:将文本图像输入视觉特征提取模型,得到对应所述文本图像的视觉特征信息;将所述视觉特征信息输入序列特征提取模型,得到所述文本图像中字符之间的序列信息;将所述序列信息输入序列分类模型,得到序列识别内容;根据所述序列识别内容,通过CTC算法处理得到所述文本图像对应的文本信息。通过视觉特征提取模型提取视觉特征,再基于序列特征提取模型提取序列信息,通过序列分类模型利用序列分类方式进行文字识别,可以在教育场景中对中英文混合的字符有较高的识别准确率。别准确率。别准确率。

【技术实现步骤摘要】
文字识别方法、装置及存储介质


[0001]本公开涉及文字识别领域,具体地,涉及一种文字识别方法、装置及存储介质。

技术介绍

[0002]在教育场景中,试卷、PPT、书籍等教学材料中有大量的文字,师生们需要提取图片格式下的文字内容,因此对于文字识别技术有着较大需求。
[0003]然而在相关技术中,针对文字识别的研究方向具有主要集中于场景字符识别诸如街景文字,以及以英文数据集为主要研究对象的特点。以试卷或书籍为例,教育场景的文字形态和表现形式与街景文字差距较大;且英文字符集数量较少,与汉字成千上万的字符集相比,有着巨大的悬殊,针对英文的识别算法不适应于汉字领域。以上两项对比导致业内主流文字识别算法在教育场景下表现欠佳。

技术实现思路

[0004]本公开的目的是提供一种文字识别方法、装置及存储介质,该方法能够用于解决相关技术中教育场景下文字识别准确率不高的问题。
[0005]为了实现上述目的,本公开第一方面提供一种文字识别方法,所述方法包括:
[0006]将文本图像输入视觉特征提取模型,得到对应所述文本图像的视觉特征信息;
[0007]将所述视觉特征信息输入序列特征提取模型,得到所述文本图像中字符之间的序列信息;
[0008]将所述序列信息输入序列分类模型,得到序列识别内容;
[0009]根据所述序列识别内容,通过CTC算法处理得到所述文本图像对应的文本信息。
[0010]可选地,所述视觉特征提取模型包括Inception块,所述Inception块包括多个串联的Inception层;所述Inception层中包括多个并联的卷积组件;所述卷积组件包括串联的卷积层、归一化层以及Relu激活层,所述多个卷积组件中至少包括两个卷积层的卷积核大小不同的卷积组件;
[0011]所述将文本图像输入视觉特征提取模型,得到对应所述文本图像的视觉特征信息包括:
[0012]将文本图像输入所述Inception块,得到所述多个串联的Inception层中最后一个Inception层输出的视觉特征信息。
[0013]可选地,所述视觉特征提取模型包括残差块,所述残差块包括多个串联的残差层;所述残差层包括两个卷积组件;所述卷积组件包括依次串联的卷积层、归一化层以及Relu激活层;所述两个卷积组件中第二个卷积组件的Relu激活层用于接收该卷积组件的归一化层的输出特征以及该残差层的输入特征,以输出对应该残差层的输入特征的视觉特征信息;
[0014]所述将文本图像输入视觉特征提取模型,得到对应所述文本图像的视觉特征信息包括:
[0015]将所述文本图像输入所述残差块,得到所述多个残差连接的残差层中最后一个残差层输出的视觉特征信息。
[0016]可选地,所述视觉特征提取模型包括依次串联的第一Inception块、第二Inception块、第一残差块以及第二残差块;所述第一Inception块包括依次串联的第一卷积组件,与两个Inception层;所述第二Inception块包括依次串联的第二卷积组件,与四个Inception层;所述第一残差块包括第三卷积组件以及与所述第三卷积组件串联的两个残差连接的残差层;所述第二残差块包括第四卷积组件以及与所述第四卷积组件串联的四个残差连接的残差层;其中,所述第一卷积组件、第二卷积组件、第三卷积组件以及第四卷积组件的卷积核均为3*3,步长为1的卷积核;
[0017]所述文本图像为高32像素且宽W的图像,所述将文本图像输入视觉特征提取模型,得到对应所述文本图像的视觉特征信息包括:
[0018]将所述文本图像输入所述视觉特征提取模型,经过所述第一卷积组件、第二卷积组件、第三卷积组件以及第四卷积组件后,得到进行4次二倍下采样的尺寸且通道数为512的第一特征图;
[0019]将所述第一特征图输入2*1的最大池化层,得到尺寸为且通道数为512的视觉特征信息。
[0020]可选地,所述序列特征提取模型包括双向LSTM模块,所述双向LSTM模块包括两个LSTM组件,所述LSTM组件包括输入门、输出门和遗忘门;
[0021]所述将所述视觉特征信息输入序列特征提取模型,得到所述文本图像中字符之间的序列信息包括:
[0022]将所述视觉特征信息输入所述双向LSTM模块,得到所述双向LSTM模块输出的所述文本图像中字符之间的序列信息。
[0023]可选地,所述序列信息包括组512维的特征向量,所述序列分类模型包括两层全连接网络;
[0024]所述将所述序列信息输入序列分类模型,得到序列识别内容包括:
[0025]将所述组512维的特征向量输入所述序列分类模型,得到每一组所述特征向量归属于字符集中每一个字符的概率;
[0026]根据所述每一组所述特征向量归属于字符集中每一个字符的概率,得到包括个字符序列的序列识别内容。
[0027]可选地,所述视觉特征提取模型、所述序列特征提取模型以及所述序列分类模型的训练包括:
[0028]将训练集输入未经训练的视觉特征提取模型,得到对应所述训练集中的训练图像的视觉特征信息;
[0029]将所述训练图像的视觉特征信息输入未经训练的序列特征提取模型,得到所述训练图像中字符之间的序列信息;
[0030]将所述训练图像中字符之间的序列信息输入未经训练的序列分类模型,得到所述训练图像对应的序列识别内容;
[0031]根据所述训练图像对应的序列识别内容,通过CTC算法处理得到所述训练图像对应的文本信息;
[0032]根据所述训练图像对应的文本信息以及所述训练集中对应所述训练图像的标注信息,基于交叉熵损失函数,对所述未经训练的视觉特征提取模型、序列特征提取模型以及序列分类模型的参数进行调整。
[0033]可选地,所述方法包括:
[0034]按照预设中英文比例合成扫描版式的包括文本内容标签的训练图像,并将中文扫描训练图像保存为第一数据集,将英文扫描训练图像保存为第二训练集;
[0035]按照预设中英文比例合成拍摄版式的包括文本内容标签的训练图像,并将中文拍摄训练图像保存为第三数据集,将英文拍摄训练图像保存为第四训练集;
[0036]分次提取第一预设数量个所述第一数据集以及第二数据集中的训练图像,得到第一图像集,将所述第一图像集作为所述训练集对所述未经训练的视觉特征提取模型、序列特征提取模型以及序列分类模型进行第一预设次数的预训练,得到经过预训练的视觉特征提取模型、序列特征提取模型以及序列分类模型;
[0037]分次提取第二预设数量个所述第一数据集以及第二数据集中的训练图像,得到第二图像集,并对该第二图像集中第一预设比例的训练图像进行图像增强,并将图像增强后的第二图像集作为所述训练集对所述经过与训练的视觉特征提取模型、序列特征提取模型以及序列分类模型进行第二预设次数的增强训练,得到经过增强训练的视觉特征提取模型、序列特征提取模型以及序列分类模型;
[0038]按照第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字识别方法,其特征在于,所述方法包括:将文本图像输入视觉特征提取模型,得到对应所述文本图像的视觉特征信息;将所述视觉特征信息输入序列特征提取模型,得到所述文本图像中字符之间的序列信息;将所述序列信息输入序列分类模型,得到序列识别内容;根据所述序列识别内容,通过CTC算法处理得到所述文本图像对应的文本信息。2.根据权利要求1所述的方法,其特征在于,所述视觉特征提取模型包括Inception块,所述Inception块包括多个串联的Inception层;所述Inception层中包括多个并联的卷积组件;所述卷积组件包括串联的卷积层、归一化层以及Relu激活层,所述多个卷积组件中至少包括两个卷积层的卷积核大小不同的卷积组件;所述将文本图像输入视觉特征提取模型,得到对应所述文本图像的视觉特征信息包括:将文本图像输入所述Inception块,得到所述多个串联的Inception层中最后一个Inception层输出的视觉特征信息。3.根据权利要求1所述的方法,其特征在于,所述视觉特征提取模型包括残差块,所述残差块包括多个串联的残差层;所述残差层包括两个卷积组件;所述卷积组件包括依次串联的卷积层、归一化层以及Relu激活层;所述两个卷积组件中第二个卷积组件的Relu激活层用于接收该卷积组件的归一化层的输出特征以及该残差层的输入特征,以输出对应该残差层的输入特征的视觉特征信息;所述将文本图像输入视觉特征提取模型,得到对应所述文本图像的视觉特征信息包括:将所述文本图像输入所述残差块,得到所述多个残差连接的残差层中最后一个残差层输出的视觉特征信息。4.根据权利要求1所述的方法,其特征在于,所述视觉特征提取模型包括依次串联的第一Inception块、第二Inception块、第一残差块以及第二残差块;所述第一Inception块包括依次串联的第一卷积组件,与两个Inception层;所述第二Inception块包括依次串联的第二卷积组件,与四个Inception层;所述第一残差块包括第三卷积组件以及与所述第三卷积组件串联的两个残差连接的残差层;所述第二残差块包括第四卷积组件以及与所述第四卷积组件串联的四个残差连接的残差层;其中,所述第一卷积组件、第二卷积组件、第三卷积组件以及第四卷积组件的卷积核均为3*3,步长为1的卷积核;所述文本图像为高32像素且宽W的图像,所述将文本图像输入视觉特征提取模型,得到对应所述文本图像的视觉特征信息包括:将所述文本图像输入所述视觉特征提取模型,经过所述第一卷积组件、第二卷积组件、第三卷积组件以及第四卷积组件后,得到进行4次二倍下采样的尺寸且通道数为512的第一特征图;将所述第一特征图输入2*1的最大池化层,得到尺寸为且通道数为512的视觉特征信息。
5.根据权利要求1所述的方法,其特征在于,所述序列特征提取模型包括双向LSTM模块,所述双向LSTM模块包括两个LSTM组件,所述LSTM组件包括输入门、输出门和遗忘门;所述将所述视觉特征信息输入序列特征提取模型,得到所述文本图像中字符之间的序列信息包括:将所述视觉特征信息输入所述双向LSTM模块,得到所述双向LSTM模块输出的所述文本图像中字符之间的序列信息。6.根据权利要求4所述的方法,其特征在于,所述序列信息包括组512维的特征向量,所述序列分类模型包括两层全连接网络;所述将所述序列信息输入序列分类模型,得到序列识别内容包括:将所述组512维的特征向量输入所述序列分类模型,得到每一组所述特征向量归属于字符集中每一个字符的概率;根据...

【专利技术属性】
技术研发人员:王彦君马志国张飞飞
申请(专利权)人:北京鼎事兴教育咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1