【技术实现步骤摘要】
基于局部特征图实时更新的联机手写中文文本行识别方法
[0001]本专利技术涉及计算机视觉与文档图像分析
,尤其是基于局部特征图实时更新的联机手写中文文本行识别方法。
技术介绍
[0002]手写文本识别作为光学字符识别(OCR)中极为重要的一部分,一直是许多工作人员重点研究的一部分。联机手写中文文本行识别相对于文档印刷体文本识别来说更加复杂,具有字体风格变化大、种类繁多等问题。目前使用的识别大部分是基于图像的编解码识别方法,这种方法取得了一定的成效。但对于中文文本来说,特别是长文本行,由于生成的图像太大,难以流畅实现联机手写文本的实时识别。对于用户来说,若是等整个句子书写完成再点击识别,用户需要一个点击操作以及一小段时间的等待,这是难以忍受的。在实际使用时,为了在实际使用中不出现卡顿,常常在应用时限制为识别单字或者短文本,这限制了系统的实用性。目前的实时识别方法大多数使用的是基于轨迹的过切分方法文本行识别,这类方法主要是基于LSTM进行识别,但由于联机手写中文文本行中存在大量的长文本行情况,轨迹序列非常长,使用LSTM方法难以进行准确的过切分,也难以取得很好的识别精度。随着深度学习的发展,基于图像的无切分识别方法近几年逐渐在文本行识别模型中主导地位,对长文本行识别有一定的优势。但为了保留完整的信息,在联机手写文本行识别中需要生成较大的文本行图像,如果用基于图像的文本行识别方法进行实时识别则需要花费大量时间,影响用户的书写体验,不利于实时识别在嵌入式设备等实际场景中应用。
技术实现思路
[0003] ...
【技术保护点】
【技术特征摘要】
1.基于局部特征图实时更新的联机手写中文文本行识别方法,用于手写文本的实时识别,其特征在于:包括以下步骤;步骤S1、初始化实时识别模型;步骤S2、在启动笔画输入时,以笔尖触碰手写设备的手写面为开始标志;步骤S3、采集联机手写中文文本行轨迹,记录每一个笔画的坐标点序列,以提笔作为一个笔画的结束标志;步骤S4、截取新输入的笔画对应的局部图像,并对其进行预处理;步骤S5、计算新输入笔画对应的局部图像的CNN特征,将新特征替换到上一次的特征图上,实现新笔画的局部特征实时更新;步骤S6、使用CTC结合n
‑
gram语言模型解码更新识别结果,实现联机手写中文文本行实时识别。2.根据权利要求1所述的基于局部特征图实时更新的联机手写中文文本行识别方法,其特征在于:在步骤S1中,实时识别模型包括一个深度卷积神经网络编码器、一个RNN解码器、以及CTC与语言模型转录层;实时识别模型在初始化时,先初始化一张预设高度和宽度,且像素值全零的文本行图像,再将文本行图像送入手写文本行识别模型,得到手写文本行识别模型中每一个卷积层、池化层的全局输出特征图,用于后续的实时特征更新。3.根据权利要求2所述的基于局部特征图实时更新的联机手写中文文本行识别方法,其特征在于:所述文本行图像的高度、宽度与实际手写场景匹配,手写文本的书写顺序是从左到右且允许倒插笔,手写文字的大小与文本行图像的尺寸匹配。4.根据权利要求2所述的基于局部特征图实时更新的联机手写中文文本行识别方法,其特征在于:步骤S1中,实时识别模型在CRNN的基础上进行图像的特征提取,其中网络中的池化层都设置为平均池化,除了前两个卷积层,后面其他所有卷积层后都接着批归一化层;实时识别模型使用7个卷积层以及4个池化层来提取特征,对应的卷积核个数即输出的特征图数,7个卷积层的卷积核个数分别为{64,128,256,256,256,512, 512},最后使用一个全局平均池化层将图像池化到高度为1,全局平均池化过程宽度保持不变;实时识别模型RNN部分使用的是两层堆叠的双向LSTM,隐藏层节点数为256。最后经过CTC与Beam Search引入语言模型进行最终解码。5.根据权利要求2所述的基于局部特征图实时更新的联机手写中文文本行识别方法,其特征在于:步骤S3中,采集联机手写中文文本行轨迹,记录每一个笔画的坐标点序列并表示为(x1,y1),(x2,y2),
…
,(xn,yn),以提笔作为一个笔画的结束标志。6.根据权利要求2所述的基于局部特征图实时更新的联机手写中文文本行识别方法,其特征在于:步骤S4中,截取新输入的笔画对应局部图像并进行预处理;具体为:当用户输入一个新的笔画后,先求出该笔画的左右两个x轴边界,记为L,R,设卷积核大小为3
×
3,且需加入边界两边各2列像素,由此得到截取的局部图像M大小为:其中,H、W分别为图像的高度和宽度;公式...
【专利技术属性】
技术研发人员:王大寒,吴岳峰,周伟,朱顺痣,
申请(专利权)人:厦门理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。