基于多解码器联合学习的缅甸语图像文本识别方法及装置制造方法及图纸

技术编号:31754873 阅读:16 留言:0更新日期:2022-01-05 16:37
本发明专利技术涉及基于多解码器联合学习的缅甸语图像文本识别方法及装置,属自然语言处理领域。为解决缅甸语图像中上下标字符文本识别准确率低的问题,本发明专利技术提出了基于多解码器联合学习的缅甸语图像文本识别方法,包括缅甸语图像进行预处理、联合基于CTC解码器、基于注意力机制解码器以及基于分割解码器的缅甸语图像文本识别模型构建、基于多解码器联合学习的缅甸语识别模型训练、缅甸语图像文本识别模型四部分构成。根据这四部分功能模块化制成基于多解码器联合学习的缅甸语图像文本识别装置,对输入的缅甸语图片进行文字识别,本发明专利技术提高了缅甸语图像文本识别的正确率,有效地解决缅甸语图像中由于字符遮挡或者上下标字符缺失导致难以识别的问题。致难以识别的问题。致难以识别的问题。

【技术实现步骤摘要】
基于多解码器联合学习的缅甸语图像文本识别方法及装置


[0001]本专利技术涉及基于多解码器联合学习的缅甸语图像文本识别方法及装置,属于自然语言处理


技术介绍

[0002]在缅甸语中,存在复杂的字符空间组合结构,例如,缅甸语在图像的一个感受野中由三个字符(/u107f),(/u1015)和(/u102e)组成,但是在英语中一个感受野内的“n”由一个字符“n”(/u006e)组成,同时缅甸语具有特殊的字符编码顺序,图像文本信息识别过程如果出现字符丢失或者识别错误,有可能导致后续语义信息错误,虽然目前图像文本检测的相关工作已经取得了一定的进展,但是在缅甸语特殊语言上仍然存在未能全部框选的问题,文本检测时可能未能检测缅甸语完整的上下标字符,检测出的图像再进行缅甸语图像文本识别时,准确率呈现较低的现象,尽管中文或者英文等常规文本识别已经成熟,但是在缅甸语特殊文本识别上仍然是一项困难的任务。随着深度学习的发展,虽然有关图像文本识别的最新研究已经取得一些成果,但是由于缅甸语字符、语言编码结构、字符组合形状等巨大差异,同时伴随着背景干扰、遮挡、图像模糊等各种问题,现有图像文本识别方法还无法有效的解决此类问题。
[0003]在实际应用中,图像文本检测后框选出的图像大多数会出现缅甸语字符缺失或者不完整现象,例如图像里组合字符和中的字符很可能没有完全检测框选完整,计算机很容易会将其识别为或者这将严重影响识别准确度。同时,此类问题不是单独存在的,缅甸语中存在大量的上标和下标字符,例如等字符,目前的相关技术在识别这种显示不完整缅甸语字符时,不能完整的识别出来,进而导致整个缅甸语句子的错误。现有方法在本地将文本识别任务定义为序列字符分类任务,但是弱化了文本序列本身的上下文信息。所以,他们难以处理低质量的图像,例如图像模糊,遮挡和不完整的字符,但是,如果通过考虑缅甸语文本的上下文信息时,即使缅甸语字符存在遮挡和不完整现象,本专利技术仍然可以较正确的识别这些文本信息。为解决此类问题,本方面提出一种基于多解码器联合学习的缅甸语图像文本识别方法及装置来提高模型对缅甸语的识别准确率。

技术实现思路

[0004]本专利技术提供基于多解码器联合学习的缅甸语图像文本识别方法及装置,缓解缅甸语字符存在遮挡和不完整情况下的识别问题,本专利技术提高了缅甸语图像文本识别的正确率,有效地解决了缅甸语图像中由于字符遮挡或者上下标字符缺失导致难以识别的问题。
[0005]本专利技术构建了基于CTC解码器、基于注意力机制解码器以及基于分割解码器的神经网络模型架构;基于多解码器联合学习的方法将三个不同解码器的图像文本识别子网络以相互学习的方式进行网络训练,相互蒸馏,通过子网络模型参数之间的共享学习,实现保
证子网络结构不变的情况下进而获得更多的特征表现能力与上下文信息关联能力,因为网络中损失函数的设计,子网络的损失函数是由自身训练拟合的损失与学生网络之间的交叉熵损失的加权构成,这样的网络框架设计可以在保持子网络结构不变的情况下获取到更多的特征表现能力与上下文信息关联能力的优点,进而提升了缅甸语OCR的识别准确度。
[0006]本专利技术的技术方案是:第一方面,基于多解码器联合学习的缅甸语图像文本识别方法,所述方法包括:
[0007]Step1、缅甸语图像预处理:由于缅甸语训练数据像素高为32.,像素宽分布于90

150区域间内,根据实验分析模型输入为32*120取得最优效果,将模型输入设为32*120;
[0008]Step2、基于多解码器联合学习的缅甸语识别模型构建:构建联合基于CTC解码器、基于注意力机制解码器以及基于分割解码器的缅甸语图像文本识别模型,实现对长序列缅甸语、短序列组合字符缅甸语以及缅甸语单字符较准确的识别;
[0009]Step3、基于多解码器联合学习的缅甸语识别模型训练:设置基于CTC解码器、基于注意力机制解码器以及基于分割解码器的三个子网络的输入,基于多解码器联合学习的将三个子网络以相互学习的方式进行联合训练,通过子网络模型参数之间的共享学习,计算网络训练之间的损失值,来优化三个子网络的学习参数与模型权重,进而提升了缅甸语OCR的识别准确度;
[0010]Step4、基于多解码器联合学习的缅甸语识别模型预测:对模型输入的相关参数进行设置,达到对图像批量处理的目的,从而提高缅甸语OCR模型的速度,接着将训练好的神经网络模型进行保存,并部署于服务器上,实现对缅甸语图像中的文本信息识别。
[0011]作为本专利技术的优选方案,所述步骤Step2的具体步骤为:
[0012]Step2.1、构建基于CTC解码器子网络,其中包含构建适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取和基于CTC解码器参数的设置,为了实现对长序列图像更准确的文本识别,例图如:像更准确的文本识别,例图如:
[0013]Step2.2、构建基于注意力机制解码器的子网络,用来较准确的识别如Step2.2、构建基于注意力机制解码器的子网络,用来较准确的识别如等短序列组合字符缅甸语文本,同时构建包含构建适应缅甸语OCR任务需求的特征提取网络,以及注意力机制解码器参数的设置;
[0014]Step2.3、基于分割解码器的图像文本识别网络在识别缅甸语单字符短序列和长序列都有着较好的识别效果,所以本专利技术构建了基于分割解码器的子网络,其中包含构建适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取和基于分割解码器参数的设置,为了实现整个神经网络融入分割解码器对缅甸语图像文本识别的优点,例图如:
[0015]Step2.4、将构建好的基于注意力的解码器网络、基于CTC的解码器网络与基于分割的解码器的三个子网络之间的解码端进行联合,进而构建了基于多解码器联合学习的缅甸语图像文本识别方法及装置网络框架,实现子网络之间的参数学习。
[0016]作为本专利技术的优选方案,所述步骤Step2.1中:
[0017]Step2.1.1、特征提取网络中选择基于ResNet

45的架构,在此基础上删除全连接层,同时保留残差块、最大池化层和卷积层,实现对缅甸语文本图像特征的提取,并用作后
续的BiLSTM网络的输入;
[0018]Step2.1.2、在基于ResNet

45的卷积神经网络中将其内部结构中池化层的池化窗口改为1
×
2大小,用于保证得到30帧的特征序列,使特征向量能够完成保留图像信息;
[0019]Step2.1.3、循环神经网络选择BiLSTM来处理ResNet

45得到特征序列,以保证经过BiLSTM的特征序列能够获取缅甸语上下文信息的同时,获得每一列对应的预测概率分布;
[0020]Step2.1.4、选择CTC作为解码器,该解码器基于最近邻候选目标的方式来选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,将缅甸语图像内容识别为对应的缅甸语正确序列标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述方法的具体步骤如下:Step1、对缅甸语图像进行处理;Step2、基于多解码器联合学习的缅甸语识别模型构建:构建联合基于CTC解码器、基于注意力机制解码器以及基于分割解码器的缅甸语图像文本识别模型,分别用于实现对长序列缅甸语、短序列组合字符缅甸语以及缅甸语单字符的识别;Step3、基于多解码器联合学习的缅甸语识别模型训练:设置基于CTC解码器、基于注意力机制解码器以及基于分割解码器的三个子网络的输入,基于多解码器联合学习的方法将三个子网络以相互学习的方式进行联合训练,通过子网络模型参数之间的共享学习,计算网络训练之间的损失值,来优化三个子网络的学习参数与模型权重,进而提升了缅甸语OCR的识别准确度;Step4、基于多解码器联合学习的缅甸语识别模型预测:对模型输入的相关参数进行设置,达到对图像批量处理的目的,从而提高缅甸语OCR模型的速度,接着将训练好的神经网络模型进行保存,并部署于服务器上,实现对缅甸语图像中的文本信息识别。2.根据权利要求1所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:将缅甸语训练数据的像素高、像素宽处理为32*120。3.根据权利要求1所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step2的具体步骤为:Step2.1、构建基于CTC解码器子网络,其中包含构建适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取和基于CTC解码器参数的设置,用于实现对长序列图像更准确的文本识别;Step2.2、构建基于注意力机制解码器的子网络,用于识别短序列组合字符缅甸语文本,同时构建包含构建适应缅甸语OCR任务需求的特征提取网络,以及注意力机制解码器参数的设置;Step2.3、构建基于分割解码器的子网络,其中包含构建适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取和基于分割解码器参数的设置;Step2.4、将构建好的基于注意力的解码器网络、基于CTC的解码器网络与基于分割的解码器的三个子网络之间的解码端进行联合,进而构建了基于多解码器联合学习的缅甸语图像文本识别方法网络框架,实现子网络之间的参数学习。4.根据权利要求3所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step2.1中:Step2.1.1、特征提取网络中采用ResNet

45的思想,删除深度卷积神经网络ResNet

45的全连接层,同时保留残差块、最大池化层和卷积层,实现对缅甸语文本图像特征的提取,并用作后续的BiLSTM网络的输入;Step2.1.2、在基于ResNet

45的卷积神经网络中将其内部结构中池化层的池化窗口改为1
×
2大小,用于保证得到30帧的特征序列,使特征向量能够完成保留图像信息;Step2.1.3、为利用上下文信息提升模型的识别精度,设计循环神经网络BiLSTM对ResNet

45得到特征序列进行再次编码,以保证经过BiLSTM的特征序列能够获取缅甸语上下文信息的同时,获得每一列对应的预测概率分布;
Step2.1.4、选择CTC作为解码器,该解码器基于最近邻候选目标的方式来选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p1。5.根据权利要求3所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step2.2中:Step2.2.1、网络选取的特征提取网络与循环神经网络的选择与构建基于CTC解码器子网络中的适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取保持相同;Step2.2.2、选择基于注意力机制的解码器,该网络将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p2。6.根据权利要求3所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step2.3的具体步骤为:Step2.3.1、网络选取的特征提取网络与循环神经网络的选择与构建基于CTC解码器子网络中的适应缅甸语OCR任务需求的特征提取网络、循环神...

【专利技术属性】
技术研发人员:余笑耕毛存礼黄于欣王琳钦王振晗张勇丙
申请(专利权)人:小语智能信息科技云南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1