基于多解码器联合学习的缅甸语图像文本识别方法及装置制造方法及图纸

技术编号：31754873 阅读：16 留言：0更新日期：2022-01-05 16:37

本发明专利技术涉及基于多解码器联合学习的缅甸语图像文本识别方法及装置，属自然语言处理领域。为解决缅甸语图像中上下标字符文本识别准确率低的问题，本发明专利技术提出了基于多解码器联合学习的缅甸语图像文本识别方法，包括缅甸语图像进行预处理、联合基于CTC解码器、基于注意力机制解码器以及基于分割解码器的缅甸语图像文本识别模型构建、基于多解码器联合学习的缅甸语识别模型训练、缅甸语图像文本识别模型四部分构成。根据这四部分功能模块化制成基于多解码器联合学习的缅甸语图像文本识别装置，对输入的缅甸语图片进行文字识别，本发明专利技术提高了缅甸语图像文本识别的正确率，有效地解决缅甸语图像中由于字符遮挡或者上下标字符缺失导致难以识别的问题。致难以识别的问题。致难以识别的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于多解码器联合学习的缅甸语图像文本识别方法及装置

[0001]本专利技术涉及基于多解码器联合学习的缅甸语图像文本识别方法及装置，属于自然语言处理

技术介绍

[0002]在缅甸语中，存在复杂的字符空间组合结构，例如，缅甸语在图像的一个感受野中由三个字符(/u107f)，(/u1015)和(/u102e)组成，但是在英语中一个感受野内的“n”由一个字符“n”(/u006e)组成，同时缅甸语具有特殊的字符编码顺序，图像文本信息识别过程如果出现字符丢失或者识别错误，有可能导致后续语义信息错误，虽然目前图像文本检测的相关工作已经取得了一定的进展，但是在缅甸语特殊语言上仍然存在未能全部框选的问题，文本检测时可能未能检测缅甸语完整的上下标字符，检测出的图像再进行缅甸语图像文本识别时，准确率呈现较低的现象，尽管中文或者英文等常规文本识别已经成熟，但是在缅甸语特殊文本识别上仍然是一项困难的任务。随着深度学习的发展，虽然有关图像文本识别的最新研究已经取得一些成果，但是由于缅甸语字符、语言编码结构、字符组合形状等巨大差异，同时伴随着背景干扰、遮挡、图像模糊等各种问题，现有图像文本识别方法还无法有效的解决此类问题。
[0003]在实际应用中，图像文本检测后框选出的图像大多数会出现缅甸语字符缺失或者不完整现象，例如图像里组合字符和中的字符很可能没有完全检测框选完整，计算机很容易会将其识别为或者这将严重影响识别准确度。同时，此类问题不是单独存在的，缅甸语中存在大量的上标和下标字符，例如等字符，目前的相关技术在识别这种显示不完...

【技术保护点】

【技术特征摘要】
1.基于多解码器联合学习的缅甸语图像文本识别方法，其特征在于：所述方法的具体步骤如下：Step1、对缅甸语图像进行处理；Step2、基于多解码器联合学习的缅甸语识别模型构建：构建联合基于CTC解码器、基于注意力机制解码器以及基于分割解码器的缅甸语图像文本识别模型，分别用于实现对长序列缅甸语、短序列组合字符缅甸语以及缅甸语单字符的识别；Step3、基于多解码器联合学习的缅甸语识别模型训练：设置基于CTC解码器、基于注意力机制解码器以及基于分割解码器的三个子网络的输入，基于多解码器联合学习的方法将三个子网络以相互学习的方式进行联合训练，通过子网络模型参数之间的共享学习，计算网络训练之间的损失值，来优化三个子网络的学习参数与模型权重，进而提升了缅甸语OCR的识别准确度；Step4、基于多解码器联合学习的缅甸语识别模型预测：对模型输入的相关参数进行设置，达到对图像批量处理的目的，从而提高缅甸语OCR模型的速度，接着将训练好的神经网络模型进行保存，并部署于服务器上，实现对缅甸语图像中的文本信息识别。2.根据权利要求1所述的基于多解码器联合学习的缅甸语图像文本识别方法，其特征在于：将缅甸语训练数据的像素高、像素宽处理为32*120。3.根据权利要求1所述的基于多解码器联合学习的缅甸语图像文本识别方法，其特征在于：所述Step2的具体步骤为：Step2.1、构建基于CTC解码器子网络，其中包含构建适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取和基于CTC解码器参数的设置，用于实现对长序列图像更准确的文本识别；Step2.2、构建基于注意力机制解码器的子网络，用于识别短序列组合字符缅甸语文本，同时构建包含构建适应缅甸语OCR任务需求的特征提取网络，以及注意力机制解码器参数的设置；Step2.3、构建基于分割解码器的子网络，其中包含构建适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取和基于分割解码器参数的设置；Step2.4、将构建好的基于注意力的解码器网络、基于CTC的解码器网络与基于分割的解码器的三个子网络之间的解码端进行联合，进而构建了基于多解码器联合学习的缅甸语图像文本识别方法网络框架，实现子网络之间的参数学习。4.根据权利要求3所述的基于多解码器联合学习的缅甸语图像文本识别方法，其特征在于：所述Step2.1中：Step2.1.1、特征提取网络中采用ResNet
‑
45的思想，删除深度卷积神经网络ResNet
‑
45的全连接层，同时保留残差块、最大池化层和卷积层，实现对缅甸语文本图像特征的提取，并用作后续的BiLSTM网络的输入；Step2.1.2、在基于ResNet
‑
45的卷积神经网络中将其内部结构中池化层的池化窗口改为1
×
2大小，用于保证得到30帧的特征序列，使特征向量能够完成保留图像信息；Step2.1.3、为利用上下文信息提升模型的识别精度，设计循环神经网络BiLSTM对ResNet
‑
45得到特征序列进行再次编码，以保证经过BiLSTM的特征序列能够获取缅甸语上下文信息的同时，获得每一列对应的预测概率分布；
Step2.1.4、选择CTC作为解码器，该解码器基于最近邻候选目标的方式来选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果，将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p1。5.根据权利要求3所述的基于多解码器联合学习的缅甸语图像文本识别方法，其特征在于：所述Step2.2中：Step2.2.1、网络选取的特征提取网络与循环神经网络的选择与构建基于CTC解码器子网络中的适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取保持相同；Step2.2.2、选择基于注意力机制的解码器，该网络将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p2。6.根据权利要求3所述的基于多解码器联合学习的缅甸语图像文本识别方法，其特征在于：所述Step2.3的具体步骤为：Step2.3.1、网络选取的特征提取网络与循环神经网络的选择与构建基于CTC解码器子网络中的适应缅甸语OCR任务需求的特征提取网络、循环神...

【专利技术属性】
技术研发人员：余笑耕，毛存礼，黄于欣，王琳钦，王振晗，张勇丙，
申请(专利权)人：小语智能信息科技云南有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人