基于CRNN的缅甸语图像文本识别方法技术

技术编号:23892379 阅读:71 留言:0更新日期:2020-04-22 07:00
本发明专利技术涉及基于CRNN的缅甸语图像文本识别方法,属自然语言处理领域。本发明专利技术包括步骤:构建缅甸语文本信息图像的训练集、测试集、评估集数据;利用缅甸语Unicode排序算法标注缅甸语图像里面的文本信息;采用深度卷积神经网络从输入的缅甸语图像中提取出对应的特征向量序列;利用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列,获取序列的上下文信息,从而得到每列特征的概率分布;利用CTC计算出所有的标签序列概率,基于词典和查找候选目标的模式选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果。本发明专利技术实现了对缅甸语图像文本的识别,且识别精确率高,效果好。

A text recognition method of Myanmar image based on crnn

【技术实现步骤摘要】
基于CRNN的缅甸语图像文本识别方法
本专利技术涉及基于CRNN的缅甸语图像文本识别方法,属于自然语言处理

技术介绍
缅甸语图像文本识别是缅甸语自然语言研究中的基础任务,传统的图像上的缅甸语文本信息无法直接用计算机识别提取,无法将图像上的文本用于自然语言处理研究上,通常的处理方法都是通过人工看图敲打出来,费时费力。目前,在中文和英文图像文本识别任务结合深度学习的方法已经达到了非常好的效果了,但是对于缅甸语图像文本识别领域至今还未出现突破性进展,因为缅甸语特殊的音节结构,一个音节可能将会由多个字符组成并且无法分割,不像英文或者中文只是单独的一个Unicode编码就可以组成一个英文字母或者一个中文单词,例如:英文“I”只由Unicode编码(/u0049)组成,“我”是由Unicode编码(/u6211)组成。而缅甸语一个音节可能由好几个Unicode编码共同组成,例如:是由(/u101b)和(/u102f)共同组成的,这给计算机图像文本信息识别任务带来了巨大的挑战,同时,目前还没有现成缅甸语图像文本识别数据。如果能将图像上的缅甸语信息提本文档来自技高网...

【技术保护点】
1.基于CRNN的缅甸语图像文本识别方法,其特征在于:所述方法的具体步骤如下:/nStep1、数据预处理:结合缅甸语语言特征构建出不同力度片段的长序列和短序列的缅甸语文本信息图像的训练集、测试集、评估集数据;/n然后利用缅甸语Unicode排序算法标注缅甸语图像里面的文本信息,训练任务开始之前,将全部输入的缅甸语图像像素缩放为固定120*32分辨率进行下一步的深度卷积神经网络输入;/nStep2、特征向量序列提取:采用深度卷积神经网络从输入的缅甸语图像中提取出对应的特征向量序列,利用深度卷积神经网络模型中的卷积层和最大池化层来构造卷积层,这一层用于从输入的缅甸语图像中提取出特征向量序列;/nS...

【技术特征摘要】
1.基于CRNN的缅甸语图像文本识别方法,其特征在于:所述方法的具体步骤如下:
Step1、数据预处理:结合缅甸语语言特征构建出不同力度片段的长序列和短序列的缅甸语文本信息图像的训练集、测试集、评估集数据;
然后利用缅甸语Unicode排序算法标注缅甸语图像里面的文本信息,训练任务开始之前,将全部输入的缅甸语图像像素缩放为固定120*32分辨率进行下一步的深度卷积神经网络输入;
Step2、特征向量序列提取:采用深度卷积神经网络从输入的缅甸语图像中提取出对应的特征向量序列,利用深度卷积神经网络模型中的卷积层和最大池化层来构造卷积层,这一层用于从输入的缅甸语图像中提取出特征向量序列;
Step3、利用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列,获取序列的上下文信息,从而得到每列特征的概率分布;
同时将具有偏差的序列连接成映射,将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层;
Step4、转录:对RNN得到的每帧预测的标签分布利用转录层中的联接时间分类CTC计算出所有的标签序列概率,基于词典和查找候选目标的模式选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果。


2.根据权利要求1所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:
所述步骤Step1的具体步骤为:
Step1.1、通过国际在线网站进行数据采集获取到缅甸语30100个句子;
Step1.2、利用缅甸语音节切分工具将缅甸语段落和句子切分成高力度特征的长序列缅甸语音节文本数据;
Step1.3、结合缅甸语的语言特征手动切分出低力度特征的短序列缅甸语音节文本数据,该数据是由多字符组合成的缅甸语;
Step1.4、利用文本生成图像工具将切分好的文本数据生成对应的缅甸语图像,把构建出不同力度片段的长序列和短序列的Zawgyi-One字体缅甸语文本信息图像的训练集、测试集、评估集数据;
Step1.5、按照缅甸语Unicode编码算法顺序:<辅音>,<声调>,<元音>,<韵母>,<中音>对生成的缅甸语图像和网络采集的缅甸语场景文本图像进行规则性标注;
Step1.6、训练任务开始之前,将全部输入的缅甸语图像大小缩放为固定120*32分辨率进行下一步的深度卷积神经网络输入。


3.根据权利要求2所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:所述步骤Step1.4中:
将上述步骤Step1.2-Step1.3获得的30100句缅甸语句子进行去重切分成104797个缅甸语短序列音节和长序列音节;
再通过调用文本生成图像程序,随机生成800万张分辨率10*5~500*300像素的训练集图像,90万张测试集图像,90万张评估集图像。


4.根据权利要求2所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:所述步骤Step1.6的具体步骤为:
Step1.6.1、将全部训练集的输入图像缩放到像素大小为120*32,用以加快深度卷积神经网络的训练效率;
Step1.6.2、然后从缩放后的图像中生成30帧的特征序列;特征序列的每一个特征向量在特征图上按列从左到右生成;这意味着第x个特征向量是所有特征图第x列的连接;设置每列的宽度固定为单个像素。


5.根据权利要求1所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、搭建适应任务要求的深度卷积神经网络模型;
Step2.2、采用深度卷积神经网络模型从输入的缅甸语图像中提取出其对应的序列特征。


6.根据权利要求5所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:所述步骤Step2.1的具体步骤为:
Step2.1.1、利用基于VGG-VeryDeep架构构建出适应任务需求的深度卷积神经网络模型组件,在第三个和第四个最大池化层中采用1×2大小的矩形池化...

【专利技术属性】
技术研发人员:毛存礼谢旭阳余正涛高盛祥
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1