基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置制造方法及图纸

技术编号:39287976 阅读:7 留言:0更新日期:2023-11-07 10:58
本发明专利技术涉及基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置,属于自然语言处理技术领域。缅甸语属于低资源语言,现有的缅甸语识别方法难以解决缅甸语文本图像识别中上下标丢失的问题。针对现有缅甸语识别模型难以准确识别缅甸语上下标的问题,本发明专利技术提出了一种基于缅甸语字符簇特征的缅甸语文本图像识别方法,主要包括构建缅甸语字符簇解码字典、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型、缅甸语文本图像识别三部分。根据这三个功能模块化制成基于缅甸语字符簇特征的缅甸语文本图像识别装置,对输入的缅甸语文本图像进行识别,本发明专利技术有效提升了缅甸语文本图像的识别效果。像的识别效果。像的识别效果。

【技术实现步骤摘要】
基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置


[0001]本专利技术涉及基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置,属于自然语言处理


技术介绍

[0002]缅甸语是一种东南亚低资源语言,其文字具有独特的形态和结构。随着数字化技术的迅速发展,缅甸语文本图像识别逐渐成为了一个重要的研究领域。缅甸语文本图像识别可以帮助本专利技术将印刷或手写的缅甸语文本转换为可编辑的数字形式,这对于数字化文献、信息检索和自然语言处理等领域都具有重要的应用价值。然而现有的缅甸语识别模型在识别缅甸语时,由于缅甸语中存在着大量组合字符,导致识别过程中易发生漏识、错识某些关键字符,容易出现乱码的现象,同时缅甸语中存在多种字符编码模式,不同的编码模式对应的字符排列顺序也不尽相同。

技术实现思路

[0003]本专利技术提供了基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置,以缓解现有缅甸语文本图像识别模型难以准确识别缅甸语中上下标的问题。
[0004]本专利技术的技术方案是:第一方面,本专利技术提供基于缅甸语字符簇特征的缅甸语文本图像识别方法,所述方法包括如下:
[0005]Step1、构建缅甸语字符簇解码字典:将缅甸语文字中纵向堆叠的字符定义为一个字符簇,切分字符簇,构建了缅甸语字符簇解码字典;
[0006]Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型:设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码,再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示,从而利用字符粒度特征指导字符簇粒度特征在缅甸语上下标上进行更准确的解码和识别;
[0007]Step3、缅甸语文本图像识别:建立缅甸语文本图像识别服务器,部署模型并开发缅甸语文本图像识别API接口,通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本。
[0008]进一步地,所述Step1的具体步骤为:
[0009]Step1.1、获取缅甸语文本图像,并划分训练集、测试集、验证集;利用缅甸语字符簇切分算法将缅甸语文本图像切分为字符簇序列;
[0010]Step1.2、对所有训练数据中的文本标签进行字符簇切分,得到字符簇解码字典,再利用该字典分别对所有缅甸语图像数据标签切分,以便后续模型进行特征学习。
[0011]进一步地,所述Step2的具体步骤为:
[0012]Step2.1、为了提取到字符粒度的图像特征和字符簇粒度的图像特征,在使用视觉几何组网络VGGNet的基础上分别构建了适应于提取缅甸语字符粒度和字符簇粒度的特征提取网络,即多粒度特征提取模块;考虑到字符簇粒度在纵向上的分布相比于横向分布的
占比更大,使用横纵比为1:2的卷积核来提取字符簇粒度的图像特征;将图片输入多粒度特征提取模块,分别得到512维的字符粒度特征 和字符簇粒度特征 ,其中 ,, 分别为通道数、高度和宽度;计算如下:
[0013][0014][0015]Step2.2、使用BiLSTM对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模,以提高模型对图像噪声和畸变的鲁棒性以及对缅甸语文本图像的表征能力;计算如下:
[0016][0017][0018]其中,为不同粒度的图像特征向量,为字符粒度的图像特征向量,为字符簇粒度的图像特征向量,,均为图像特征向量特征建模层,和均为线性变换层;
[0019]Step2.3、使用基于Transformer的多粒度特征融合模块来将、进行融合,其中,;为字符粒度特征维度,为字符簇粒度特征维度,为中每一维度的分量,为中每一维度的分量,jN,N表示正整数,B表示一个批次训练数据的数量;基于Transformer的多粒度特征位置编码模块采用了多头注意力机制来对图像特征向量进行位置编码;使用Transformer中的位置编码方法来对图像特征向量进行位置编码;在进行位置编码之前,先将图像特征向量按维度大小进行放缩,分别得到两个放缩后的图像特征向量,放缩后的图像特征向量大小分别为和;为了让注意力机制更加有效,同时让和在水平方向上具有位移不变性,采用了一种基于正弦和余弦函数的位置编码方式,计算公式如下所示:
[0020][0021][0022][0023][0024]其中、、为缩放后矩阵的大小参数,为中索引为偶数的位置编码计算方法;为中索引为偶数的位置编码计算方法;为中索引为奇数的位置编码计算方法;为中索引为奇数的位置编码计算方法,、、,为位置编码模块的维度大小;
[0025]其中多头注意力机制计算如下:
[0026][0027][0028][0029]其中,,为参数矩阵,为多头注意力机制计算的函数名,为函数的形参,为深度学习pytorch库中的连接函数,为多头注意力机制中注意头head的个数,为随机初始化的权重矩阵,是整数,k=M;
[0030]Step2.4、将图像特征向量、分别和其各自的位置编码进行融合得到融合图像特征向量、,为了使用优化,使用交叉注意力模块对和进行融合得到;该交叉注意力模块的输入为,,,这里将作为,作为,:
[0031][0032]其中,,为交叉注意力模块的形参,为形参的维度向量的大小;为最终融合之后的图像特征向量,即融合了多粒度特征的缅甸语文本图像的向量表示;为归一化层;
[0033]Step2.5、解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成;通过将最终融合之后的图像特征向量通过Transformer模块得到最终的预测序列,最后将预测序列输入转换器Convert得到对应的缅甸语文本;Convert为将预测出的最大概率的文本索引转换为文本的功能函数,具体转换时,Convert按照预测出的最大概率的文本索引去缅甸语字符簇解码字典里找对应的文本,为解码器输出的预测序列;
[0034];
[0035]。
[0036]进一步地,所述Step3的具体步骤为:
[0037]Step3.1、构建缅甸语文本图像识别模型的后端服务框架,并将其部署到用于缅甸语文本图像识别的服务器上,这个框架将为模型提供必要的基础设施和功能,以确保模型能在服务器上高效地运行;
[0038]Step3.2、将把已经训练好的缅甸语文本图像识别模型以".pth"格式的文件的形式部署到缅甸语文本图像识别服务器的端上;同时还开发一个API接口,用于与服务器进行交互和通信,这样其他应用程序或用户就能通过该接口与服务器进行通信,使用缅甸语文本图像识别功能;
[0039]Step3.3、服务器将接收到图像数据输入缅甸语文本识别模型中进行预测;模型将根据输入的图像数据生成相应的预测结果;然后这些预测结果将被送入后处理模块,该模块将对字符顺序进行重排列,以便得到正确的缅甸语文本顺序;
[0040]Step3.4、在Web端调用部署在服务器上的缅甸语文本图像识别模型,通过在We本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于缅甸语字符簇特征的缅甸语文本图像识别方法,其特征在于:所述方法包括如下:Step1、构建缅甸语字符簇解码字典:将缅甸语文字中纵向堆叠的字符定义为一个字符簇,切分字符簇,构建了缅甸语字符簇解码字典;Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型:设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码,再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示;Step3、缅甸语文本图像识别:建立缅甸语文本图像识别服务器,部署模型并开发缅甸语文本图像识别API接口,通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本。2.根据权利要求1所述的基于缅甸语字符簇特征的缅甸语文本图像识别方法,其特征在于:所述Step1的具体步骤为:Step1.1、获取缅甸语文本图像,并划分训练集、测试集、验证集;利用缅甸语字符簇切分算法将缅甸语文本图像切分为字符簇序列;Step1.2、对所有训练数据中的文本标签进行字符簇切分,得到字符簇解码字典,再利用该字典分别对所有缅甸语图像数据标签切分。3.根据权利要求1所述的基于缅甸语字符簇特征的缅甸语文本图像识别方法,其特征在于:所述Step2中,设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码的具体步骤为:Step2.1、在使用视觉几何组网络VGGNet的基础上分别构建了适应于提取缅甸语字符粒度和字符簇粒度的特征提取网络,即多粒度特征提取模块;使用横纵比为1:2的卷积核来提取字符簇粒度的图像特征;将图片输入多粒度特征提取模块,分别得到512维的字符粒度特征 和字符簇粒度特征 ,其中 ,, 分别为通道数、高度和宽度;计算如下:;;Step2.2、使用BiLSTM对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模;计算如下:;;其中,为不同粒度的图像特征向量,为字符粒度的图像特征向量,为字符簇粒度的图像特征向量,,均为图像特征向量特征建模层,和均为线性变换层;Step2.3、使用基于Transformer的多粒度特征融合模块来将、进行融合,其中,;为字符粒度特征维度,为字符簇粒度特征维度,为中每一维度的分量,为中每一维度的分量,jN,N表示正整数,B表示一个批次训练数据的数量;基于Transformer的多粒度特征位置编码模块采用
了多头注意力机制来对图像特征向量进行位置编码;使用Transformer中的位置编码方法来对图像特征向量进行位置编码;在进行位置编码之前,先将图像特征向量按维度大小进行放缩,分别得到两个放缩后的图像特征向量,放缩后的图像特征向量大小分别为和;采用了一种基于正弦和余弦函数的位置编码方式,计算公式如下所示:;;;;...

【专利技术属性】
技术研发人员:毛存礼高盛祥黄于欣陈蕊张勇丙何恩宇
申请(专利权)人:小语智能信息科技云南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1