基于深度卷积神经网络的脱机手写整页文本的识别方法技术

技术编号:36764330 阅读:26 留言:0更新日期:2023-03-08 21:15
本发明专利技术提供一种基于深度卷积神经网络的脱机手写整页文本的识别方法,包括:采用第一门控模块堆叠层对脱机手写整页文本图像进行特征抽取;采用第二门控模块堆叠层和双线性插值操作对抽取的特征进行文本上采样操作;将一维文本行进行连续时序分类;根据对齐关系对深度卷积神经网络进行优化;根据优化后的深度卷积神经网络进行脱机手写整页文本的识别。该方法在训练过中无需进行脱机手写整页文本的标记工作,既可以节约时间,又可以避免人工标记带来的出错;将切分与识别整合在单一模型体实现,能够避免切分模型和识别模型的预先训练和联合训练导致的模型训练效率低的问题;仅包含全卷操作运算,能够在识别精度和识别效率上取得显著提升。得显著提升。得显著提升。

【技术实现步骤摘要】
基于深度卷积神经网络的脱机手写整页文本的识别方法


[0001]本专利技术涉及数据处理
,具体涉及一种基于深度卷积神经网络的脱机手写整页文本的识别方法和一种基于深度卷积神经网络的脱机手写整页文本的识别装置。

技术介绍

[0002]脱机手写文本识别是模式识别的一个重要研究领域,从其诞生的半个多世纪以来,科研人员从未停止对其进行研究,主要归因于两个重要方面:(1)作为语音的一种视觉编码形式,文本普遍存在于我们日常生活中,广泛用于交流和记录人类的各种思想;(2)文本的巨大可变性和不断增加的视觉表现形式。它们共同作用以使得脱机手写文本识别研究具有长期性和复杂性。
[0003]传统的脱机手写文本识别方法通常需要经过切分和识别两个阶段,面临的问题包括粘连或重叠的文本行或字符难以切分、文本切分的错误累积影响最终识别精度和模型设计过于复杂等问题。由此,从最初的单字符识别衍生出当前主流的文本行识别系统,文本行识别系统可以直接处理输入行图像,而无需任何准确的字符或单词切分。
[0004]尽管文本行切分比字符切分要容易得多,但文本行切分仍然是一个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度卷积神经网络的脱机手写整页文本的识别方法,其特征在于,包括以下步骤:获取脱机手写整页文本图像;采用第一门控模块堆叠层对所述脱机手写整页文本图像进行特征抽取;采用第二门控模块堆叠层和双线性插值操作对抽取的特征进行文本上采样操作,以将二维文本映射为一维文本行,其中,所述第一门控模块堆叠层和所述第二门控模块堆叠层由残差注意力门控单元堆叠构成;将所述一维文本行进行连续时序分类,以获取一维文本行序列与原始类别标签序列之间的对齐关系;根据所述对齐关系对所述深度卷积神经网络进行优化;根据优化后的深度卷积神经网络进行所述脱机手写整页文本的识别。2.根据权利要求1所述的基于深度卷积神经网络的脱机手写整页文本的识别方法,其特征在于,所述第一门控模块堆叠层包括第一至第四组门控堆叠模块,所述第一至第四组门控堆叠模块分别由2个残差注意力门控单元串联构成;其中,采用第一门控模块堆叠层对所述脱机手写整页文本图像进行特征抽取,包括:对所述脱机手写整页文本图像进行卷积预处理以获取第一张量;将所述第一张量输入所述第一门控模块堆叠层进行门控堆叠操作,依次获取到第二至第五张量,以获得第一张量的高层次抽象特征,其中,每组门控堆叠模块进行门控堆叠操作后进行批量归一化和层归一化以及池化操作。3.根据权利要求2所述的基于深度卷积神经网络的脱机手写整页文本的识别方法,其特征在于,对所述脱机手写整页文本图像进行卷积预处理以获取第一张量,包括:将3通道的脱机手写整页文本图像进行1
×1×
32卷积操作,并在每个通道分别进行13
×
13深度卷积操作,将深度卷积操作后的通道进行连接并执行softmax归一化和层归一化操作,以获取大小为w
×
h
×
32的第一张量。4.根据权利要求1所述的基于深度卷积神经网络的脱机手写整页文本的识别方法,其特征在于,所述第二门控模块堆叠层包括:由2个残差注意力门控单元串联构成的第五组门控堆叠模块、1个残差注意力门控单元构成的第六组门控堆叠模块和1个残差注意力门控单元构成的第七组门控堆叠模块;采用第二门控模块堆叠层和双线性插值操作对抽取的特征进行文本上采样操作,以将二维文本映射为一维文本行,包括:将抽取的特征输入第五组门控堆叠模块后,进行双线性插值操作,以获取第六张量;将所述第六张量输入第六组门控堆叠模块后,进行双线性插值操作,以获取第七张量;将所述第七张量输入第七组门控堆叠模块后,进行双线性插值操作,以获取第八张量。5.根据权利要求1所述的基于深度卷积神经网络的脱机手写整页文本的识别方法,其特征在于,将所述一维文本行进行连续时序分类,包括:对输入张量进行1*ω*C卷积操作,以获取第九张量,其中ω代表张量的最终宽度,C表代表字符类别的数量;执行横向平均池化和层归一化操作,以获取第十张量;采用softmax和连续时序分类算法对所述第十张量进行处理。

【专利技术属性】
技术研发人员:王寅同赵向军
申请(专利权)人:南京晓庄学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1