文字识别方法、装置及存储介质制造方法及图纸

技术编号：33554206 阅读：15 留言：0更新日期：2022-05-26 22:50

本公开涉及一种文字识别方法、装置及存储介质，属于文字识别领域，所述方法包括：将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息；将所述视觉特征信息输入序列特征提取模型，得到所述文本图像中字符之间的序列信息；将所述序列信息输入序列分类模型，得到序列识别内容；根据所述序列识别内容，通过CTC算法处理得到所述文本图像对应的文本信息。通过视觉特征提取模型提取视觉特征，再基于序列特征提取模型提取序列信息，通过序列分类模型利用序列分类方式进行文字识别，可以在教育场景中对中英文混合的字符有较高的识别准确率。别准确率。别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文字识别方法、装置及存储介质

[0001]本公开涉及文字识别领域，具体地，涉及一种文字识别方法、装置及存储介质。

技术介绍

[0002]在教育场景中，试卷、PPT、书籍等教学材料中有大量的文字，师生们需要提取图片格式下的文字内容，因此对于文字识别技术有着较大需求。
[0003]然而在相关技术中，针对文字识别的研究方向具有主要集中于场景字符识别诸如街景文字，以及以英文数据集为主要研究对象的特点。以试卷或书籍为例，教育场景的文字形态和表现形式与街景文字差距较大；且英文字符集数量较少，与汉字成千上万的字符集相比，有着巨大的悬殊，针对英文的识别算法不适应于汉字领域。以上两项对比导致业内主流文字识别算法在教育场景下表现欠佳。

技术实现思路

[0004]本公开的目的是提供一种文字识别方法、装置及存储介质，该方法能够用于解决相关技术中教育场景下文字识别准确率不高的问题。
[0005]为了实现上述目的，本公开第一方面提供一种文字识别方法，所述方法包括：
[0006]将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息；
[0007]将所述视觉特征信息输入序列特征提取模型，得到所述文本图像中字符之间的序列信息；
[0008]将所述序列信息输入序列分类模型，得到序列识别内容；
[0009]根据所述序列识别内容，通过CTC算法处理得到所述文本图像对应的文本信息。
[0010]可选地，所述视觉特征提取模型包括Inception块，所述Inception块包...

【技术保护点】

【技术特征摘要】
1.一种文字识别方法，其特征在于，所述方法包括：将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息；将所述视觉特征信息输入序列特征提取模型，得到所述文本图像中字符之间的序列信息；将所述序列信息输入序列分类模型，得到序列识别内容；根据所述序列识别内容，通过CTC算法处理得到所述文本图像对应的文本信息。2.根据权利要求1所述的方法，其特征在于，所述视觉特征提取模型包括Inception块，所述Inception块包括多个串联的Inception层；所述Inception层中包括多个并联的卷积组件；所述卷积组件包括串联的卷积层、归一化层以及Relu激活层，所述多个卷积组件中至少包括两个卷积层的卷积核大小不同的卷积组件；所述将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息包括：将文本图像输入所述Inception块，得到所述多个串联的Inception层中最后一个Inception层输出的视觉特征信息。3.根据权利要求1所述的方法，其特征在于，所述视觉特征提取模型包括残差块，所述残差块包括多个串联的残差层；所述残差层包括两个卷积组件；所述卷积组件包括依次串联的卷积层、归一化层以及Relu激活层；所述两个卷积组件中第二个卷积组件的Relu激活层用于接收该卷积组件的归一化层的输出特征以及该残差层的输入特征，以输出对应该残差层的输入特征的视觉特征信息；所述将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息包括：将所述文本图像输入所述残差块，得到所述多个残差连接的残差层中最后一个残差层输出的视觉特征信息。4.根据权利要求1所述的方法，其特征在于，所述视觉特征提取模型包括依次串联的第一Inception块、第二Inception块、第一残差块以及第二残差块；所述第一Inception块包括依次串联的第一卷积组件，与两个Inception层；所述第二Inception块包括依次串联的第二卷积组件，与四个Inception层；所述第一残差块包括第三卷积组件以及与所述第三卷积组件串联的两个残差连接的残差层；所述第二残差块包括第四卷积组件以及与所述第四卷积组件串联的四个残差连接的残差层；其中，所述第一卷积组件、第二卷积组件、第三卷积组件以及第四卷积组件的卷积核均为3*3，步长为1的卷积核；所述文本图像为高32像素且宽W的图像，所述将文本图像输入视觉特征提取模型，得到对应所述文本图像的视觉特征信息包括：将所述文本图像输入所述视觉特征提取模型，经过所述第一卷积组件、第二卷积组件、第三卷积组件以及第四卷积组件后，得到进行4次二倍下采样的尺寸且通道数为512的第一特征图；将所述第一特征图输入2*1的最大池化层，得到尺寸为且通道数为512的视觉特征信息。
5.根据权利要求1所述的方法，其特征在于，所述序列特征提取模型包括双向LSTM模块，所述双向LSTM模块包括两个LSTM组件，所述LSTM组件包括输入门、输出门和遗忘门；所述将所述视觉特征信息输入序列特征提取模型，得到所述文本图像中字符之间的序列信息包括：将所述视觉特征信息输入所述双向LSTM模块，得到所述双向LSTM模块输出的所述文本图像中字符之间的序列信息。6.根据权利要求4所述的方法，其特征在于，所述序列信息包括组512维的特征向量，所述序列分类模型包括两层全连接网络；所述将所述序列信息输入序列分类模型，得到序列识别内容包括：将所述组512维的特征向量输入所述序列分类模型，得到每一组所述特征向量归属于字符集中每一个字符的概率；根据...

【专利技术属性】
技术研发人员：王彦君，马志国，张飞飞，
申请(专利权)人：北京鼎事兴教育咨询有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人