基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置制造方法及图纸

技术编号：39287976 阅读：7 留言：0更新日期：2023-11-07 10:58

本发明专利技术涉及基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置，属于自然语言处理技术领域。缅甸语属于低资源语言，现有的缅甸语识别方法难以解决缅甸语文本图像识别中上下标丢失的问题。针对现有缅甸语识别模型难以准确识别缅甸语上下标的问题，本发明专利技术提出了一种基于缅甸语字符簇特征的缅甸语文本图像识别方法，主要包括构建缅甸语字符簇解码字典、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型、缅甸语文本图像识别三部分。根据这三个功能模块化制成基于缅甸语字符簇特征的缅甸语文本图像识别装置，对输入的缅甸语文本图像进行识别，本发明专利技术有效提升了缅甸语文本图像的识别效果。像的识别效果。像的识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

[0001]本专利技术涉及基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置，属于自然语言处理

技术介绍

[0002]缅甸语是一种东南亚低资源语言，其文字具有独特的形态和结构。随着数字化技术的迅速发展，缅甸语文本图像识别逐渐成为了一个重要的研究领域。缅甸语文本图像识别可以帮助本专利技术将印刷或手写的缅甸语文本转换为可编辑的数字形式，这对于数字化文献、信息检索和自然语言处理等领域都具有重要的应用价值。然而现有的缅甸语识别模型在识别缅甸语时，由于缅甸语中存在着大量组合字符，导致识别过程中易发生漏识、错识某些关键字符，容易出现乱码的现象，同时缅甸语中存在多种字符编码模式，不同的编码模式对应的字符排列顺序也不尽相同。

技术实现思路

[0003]本专利技术提供了基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置，以缓解现有缅甸语文本图像识别模型难以准确识别缅甸语中上下标的问题。
[0004]本专利技术的技术方案是：第一方面，本专利技术提供基于缅甸语字符簇特征的缅甸语文本图像识别方法，所述方法包括如下：
[0005]Step1、构建缅甸语字符簇解码字典：将缅甸语文字中纵向堆叠的字符定义为一个字符簇，切分字符簇，构建了缅甸语字符簇解码字典；
[0006]Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型：设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码，再基于交叉注意力机制得到融合了多粒度特...

【技术保护点】

【技术特征摘要】
1.基于缅甸语字符簇特征的缅甸语文本图像识别方法，其特征在于：所述方法包括如下：Step1、构建缅甸语字符簇解码字典：将缅甸语文字中纵向堆叠的字符定义为一个字符簇，切分字符簇，构建了缅甸语字符簇解码字典；Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型：设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码，再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示；Step3、缅甸语文本图像识别：建立缅甸语文本图像识别服务器，部署模型并开发缅甸语文本图像识别API接口，通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本。2.根据权利要求1所述的基于缅甸语字符簇特征的缅甸语文本图像识别方法，其特征在于：所述Step1的具体步骤为：Step1.1、获取缅甸语文本图像，并划分训练集、测试集、验证集；利用缅甸语字符簇切分算法将缅甸语文本图像切分为字符簇序列；Step1.2、对所有训练数据中的文本标签进行字符簇切分，得到字符簇解码字典，再利用该字典分别对所有缅甸语图像数据标签切分。3.根据权利要求1所述的基于缅甸语字符簇特征的缅甸语文本图像识别方法，其特征在于：所述Step2中，设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码的具体步骤为：Step2.1、在使用视觉几何组网络VGGNet的基础上分别构建了适应于提取缅甸语字符粒度和字符簇粒度的特征提取网络，即多粒度特征提取模块；使用横纵比为1：2的卷积核来提取字符簇粒度的图像特征；将图片输入多粒度特征提取模块，分别得到512维的字符粒度特征和字符簇粒度特征，其中，，分别为通道数、高度和宽度；计算如下：；；Step2.2、使用BiLSTM对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模；计算如下：；；其中，为不同粒度的图像特征向量，为字符粒度的图像特征向量，为字符簇粒度的图像特征向量，，均为图像特征向量特征建模层，和均为线性变换层；Step2.3、使用基于Transformer的多粒度特征融合模块来将、进行融合，其中，；为字符粒度特征维度，为字符簇粒度特征维度，为中每一维度的分量，为中每一维度的分量，jN，N表示正整数，B表示一个批次训练数据的数量；基于Transformer的多粒度特征位置编码模块采用
了多头注意力机制来对图像特征向量进行位置编码；使用Transformer中的位置编码方法来对图像特征向量进行位置编码；在进行位置编码之前，先将图像特征向量按维度大小进行放缩，分别得到两个放缩后的图像特征向量，放缩后的图像特征向量大小分别为和；采用了一种基于正弦和余弦函数的位置编码方式，计算公式如下所示：；；；；...

【专利技术属性】
技术研发人员：毛存礼，高盛祥，黄于欣，陈蕊，张勇丙，何恩宇，
申请(专利权)人：小语智能信息科技云南有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人