基于局部特征图实时更新的联机手写中文文本行识别方法技术

技术编号:35106287 阅读:29 留言:0更新日期:2022-10-01 17:17
本发明专利技术提出基于局部特征图实时更新的联机手写中文文本行识别方法,包括以下步骤;步骤S1、初始化实时识别模型;步骤S2、在启动笔画输入时,以笔尖触碰手写设备的手写面为开始标志;步骤S3、采集联机手写中文文本行轨迹,记录笔画的坐标点序列,以提笔作为一个笔画的结束标志;步骤S4、截取新输入的笔画对应的局部图像,进行预处理;步骤S5、计算新输入笔画对应的局部图像的CNN特征,将新特征替换到上一次的特征图上,实现新笔画的局部特征实时更新;步骤S6、使用语言模型解码更新识别结果,实现文本行实时识别;本发明专利技术速度大幅提升,具有较低的图像大小依赖性、较强的可拓展性与鲁棒性,能用于各种资源受限的嵌入式设备中,具有较高的应用价值。的应用价值。的应用价值。

【技术实现步骤摘要】
基于局部特征图实时更新的联机手写中文文本行识别方法


[0001]本专利技术涉及计算机视觉与文档图像分析
,尤其是基于局部特征图实时更新的联机手写中文文本行识别方法。

技术介绍

[0002]手写文本识别作为光学字符识别(OCR)中极为重要的一部分,一直是许多工作人员重点研究的一部分。联机手写中文文本行识别相对于文档印刷体文本识别来说更加复杂,具有字体风格变化大、种类繁多等问题。目前使用的识别大部分是基于图像的编解码识别方法,这种方法取得了一定的成效。但对于中文文本来说,特别是长文本行,由于生成的图像太大,难以流畅实现联机手写文本的实时识别。对于用户来说,若是等整个句子书写完成再点击识别,用户需要一个点击操作以及一小段时间的等待,这是难以忍受的。在实际使用时,为了在实际使用中不出现卡顿,常常在应用时限制为识别单字或者短文本,这限制了系统的实用性。目前的实时识别方法大多数使用的是基于轨迹的过切分方法文本行识别,这类方法主要是基于LSTM进行识别,但由于联机手写中文文本行中存在大量的长文本行情况,轨迹序列非常长,使用LSTM方法难以进行准确的过切分,也难以取得很好的识别精度。随着深度学习的发展,基于图像的无切分识别方法近几年逐渐在文本行识别模型中主导地位,对长文本行识别有一定的优势。但为了保留完整的信息,在联机手写文本行识别中需要生成较大的文本行图像,如果用基于图像的文本行识别方法进行实时识别则需要花费大量时间,影响用户的书写体验,不利于实时识别在嵌入式设备等实际场景中应用。

技术实现思路

[0003]本专利技术提出基于局部特征图实时更新的联机手写中文文本行识别方法,速度大幅提升,具有较低的图像大小依赖性、较强的可拓展性与鲁棒性,能用于各种资源受限的嵌入式设备中,具有较高的应用价值。
[0004]本专利技术采用以下技术方案。
[0005]基于局部特征图实时更新的联机手写中文文本行识别方法,用于手写文本的实时识别,包括以下步骤;
[0006]步骤S1、初始化实时识别模型;
[0007]步骤S2、在启动笔画输入时,以笔尖触碰手写设备的手写面为开始标志;
[0008]步骤S3、采集联机手写中文文本行轨迹,记录每一个笔画的坐标点序列,以提笔作为一个笔画的结束标志;
[0009]步骤S4、截取新输入的笔画对应的局部图像,并对其进行预处理;
[0010]步骤S5、计算新输入笔画对应的局部图像的CNN特征,将新特征替换到上一次的特征图上,实现新笔画的局部特征实时更新;
[0011]步骤S6、使用CTC结合n

gram语言模型解码更新识别结果,实现联机手写中文文本行实时识别。
[0012]在步骤S1中,实时识别模型包括一个深度卷积神经网络编码器、一个RNN 解码器、以及CTC与语言模型转录层;实时识别模型在初始化时,先初始化一张预设高度和宽度,且像素值全零的文本行图像,再将文本行图像送入手写文本行识别模型,得到手写文本行识别模型中每一个卷积层、池化层的全局输出特征图,用于后续的实时特征更新。
[0013]所述文本行图像的高度、宽度与实际手写场景匹配,手写文本的书写顺序是从左到右且允许倒插笔,手写文字的大小与文本行图像的尺寸匹配。
[0014]步骤S1中,实时识别模型在CRNN的基础上进行图像的特征提取,其中网络中的池化层都设置为平均池化,除了前两个卷积层,后面其他所有卷积层后都接着批归一化层;
[0015]实时识别模型使用7个卷积层以及4个池化层来提取特征,对应的卷积核个数即输出的特征图数,7个卷积层的卷积核个数分别为{64,128,256,256,256,512, 512},最后使用一个全局平均池化层将图像池化到高度为1,全局平均池化过程宽度保持不变;
[0016]实时识别模型RNN部分使用的是两层堆叠的双向LSTM,隐藏层节点数为 256。最后经过CTC与Beam Search引入语言模型进行最终解码。
[0017]步骤S3中,采集联机手写中文文本行轨迹,记录每一个笔画的坐标点序列并表示为(x1,y1),(x2,y2),

,(xn,yn),以提笔作为一个笔画的结束标志。
[0018]步骤S4中,截取新输入的笔画对应局部图像并进行预处理;具体为:当用户输入一个新的笔画后,先求出该笔画的左右两个x轴边界,记为L,R,设卷积核大小为3
×
3,且需加入边界两边各2列像素,由此得到截取的局部图像M大小为:
[0019][0020]其中,H、W分别为图像的高度和宽度;公式一右侧上两行分别对应的第一种情况、第二种情况,分别是笔画边界在原图左右两边缘的情况,公式一右侧第三行对应的第三种情况为笔画书写后截取的局部图像是左右边界各扩充2列像素组成的矩形区域;
[0021]第一种情况是在原图左边缘(L≤1),这时候右边界扩充2列像素,左边界扩充到左侧第一列,因此宽度为((W

1)

(L

2));
[0022]第二种情况是在原图右边缘(R≥W

2),这时候左边界扩充2列像素,右边界扩充到右侧最后一列,因此宽度为((R+2)

0)。
[0023]在截取局部图像后,对截取的局部图像M进行填充padding,具体方法为:局部图像M上下两边各padding 1行像素来模拟原图卷积所需的padding;若局部图像M在原图左右两侧,则根据不同情况进行padding,以公式表述为
[0024][0025]公式中P
L
、P
R
分别是左右两侧的padding情况;如果局部图像不在原图左右两侧,这时候局部图像左右两侧已经扩充2列像素,不需要进行padding操作,即 P
L
=P
R
=0;如果局部图像在原图左右两侧,比如左侧(L=0),这时候需要在左侧padding一列全0像素来模拟原图的padding操作。
[0026]步骤S5中,仅计算新输入笔画对应的局部图片的CNN特征,将新特征替换到上一次
的特征图上,实现新笔画的局部特征实时更新,具体方法为:
[0027]将截取的局部图像进行局部卷积操作,迭代地卷积、池化并更新每一个网络层的特征图。池化过程中不padding,卷积过程要扩充的像素与padding的情况分别为:
[0028][0029][0030]W
i
表示第i层特征图的宽度;E(L,R)表示要扩充的像素,当是(

2,+2)时,即左右两侧扩充2列,则原特征图对应像素值到要更新的局部特征图上,继续下一层的迭代卷积与特征图更新;
[0031]在扩充特征图像素时考虑是否能被池化层步长整除,具体为:池化层步长为2 的时候,若当前的L不能被步长2整除,则应该向左扩充L%2列像素;若扩展到步长为S的情况,计当前第L列,则需要向左扩充L%S列像素;同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于局部特征图实时更新的联机手写中文文本行识别方法,用于手写文本的实时识别,其特征在于:包括以下步骤;步骤S1、初始化实时识别模型;步骤S2、在启动笔画输入时,以笔尖触碰手写设备的手写面为开始标志;步骤S3、采集联机手写中文文本行轨迹,记录每一个笔画的坐标点序列,以提笔作为一个笔画的结束标志;步骤S4、截取新输入的笔画对应的局部图像,并对其进行预处理;步骤S5、计算新输入笔画对应的局部图像的CNN特征,将新特征替换到上一次的特征图上,实现新笔画的局部特征实时更新;步骤S6、使用CTC结合n

gram语言模型解码更新识别结果,实现联机手写中文文本行实时识别。2.根据权利要求1所述的基于局部特征图实时更新的联机手写中文文本行识别方法,其特征在于:在步骤S1中,实时识别模型包括一个深度卷积神经网络编码器、一个RNN解码器、以及CTC与语言模型转录层;实时识别模型在初始化时,先初始化一张预设高度和宽度,且像素值全零的文本行图像,再将文本行图像送入手写文本行识别模型,得到手写文本行识别模型中每一个卷积层、池化层的全局输出特征图,用于后续的实时特征更新。3.根据权利要求2所述的基于局部特征图实时更新的联机手写中文文本行识别方法,其特征在于:所述文本行图像的高度、宽度与实际手写场景匹配,手写文本的书写顺序是从左到右且允许倒插笔,手写文字的大小与文本行图像的尺寸匹配。4.根据权利要求2所述的基于局部特征图实时更新的联机手写中文文本行识别方法,其特征在于:步骤S1中,实时识别模型在CRNN的基础上进行图像的特征提取,其中网络中的池化层都设置为平均池化,除了前两个卷积层,后面其他所有卷积层后都接着批归一化层;实时识别模型使用7个卷积层以及4个池化层来提取特征,对应的卷积核个数即输出的特征图数,7个卷积层的卷积核个数分别为{64,128,256,256,256,512, 512},最后使用一个全局平均池化层将图像池化到高度为1,全局平均池化过程宽度保持不变;实时识别模型RNN部分使用的是两层堆叠的双向LSTM,隐藏层节点数为256。最后经过CTC与Beam Search引入语言模型进行最终解码。5.根据权利要求2所述的基于局部特征图实时更新的联机手写中文文本行识别方法,其特征在于:步骤S3中,采集联机手写中文文本行轨迹,记录每一个笔画的坐标点序列并表示为(x1,y1),(x2,y2),

,(xn,yn),以提笔作为一个笔画的结束标志。6.根据权利要求2所述的基于局部特征图实时更新的联机手写中文文本行识别方法,其特征在于:步骤S4中,截取新输入的笔画对应局部图像并进行预处理;具体为:当用户输入一个新的笔画后,先求出该笔画的左右两个x轴边界,记为L,R,设卷积核大小为3
×
3,且需加入边界两边各2列像素,由此得到截取的局部图像M大小为:其中,H、W分别为图像的高度和宽度;公式...

【专利技术属性】
技术研发人员:王大寒吴岳峰周伟朱顺痣
申请(专利权)人:厦门理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1