特殊语言的文字识别方法、识别模型训练方法和装置制造方法及图纸

技术编号:26891634 阅读:35 留言:0更新日期:2020-12-29 16:10
本说明书公开了一种特殊语言的文字识别方法、识别模型训练方法和装置。该特殊语言的文字识别模型的训练方法包括:分别对多个特殊语言字符对应的手写笔记进行分割,得到所述多个特殊语言字符各自的手写图像集合,其中,一个特殊语言字符对应的手写笔记中包含该特殊语言字符的多个手写字符;基于目标特殊语言文字短语和所述多个特殊语言字符各自的手写图像集合,生成所述目标特殊语言文字短语对应的目标特殊语言文字短语图像;以所述目标特殊语言文字短语图像为样本,并以所述目标特殊语言文字短语图像对应的所述目标特殊语言文字短语为标签,对特殊语言文字识别模型进行训练。

【技术实现步骤摘要】
特殊语言的文字识别方法、识别模型训练方法和装置
本文件涉及计算机
,尤其涉及一种特殊语言的文字识别方法、模型训练方法和装置。
技术介绍
目前,光学字符识别(OpticalCharacterRecognition,OCR)可以通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。具体来说,OCR通常是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工。然而,由于目前市面上缺乏特殊语言例如特殊语言文字等小语种的文字数据库,因此,如何将OCR技术应用于缅甸文字等特殊语言文字的识别仍然需要提供进一步的解决方案。
技术实现思路
本说明书实施例提供了一种特殊语言的文字识别方法、识别模型训练方法和装置,以解决现有技术中缺乏特殊语言文字例如缅甸文字等小语种的文字数据库难以将OCR技术应用于特殊语言文字的识别的问题。为解决上述技术问题,本说明书实施例是本文档来自技高网...

【技术保护点】
1.一种特殊语言文字识别模型的训练方法,包括:/n分别对多个特殊语言字符对应的手写笔记进行分割,得到所述多个特殊语言字符各自的手写图像集合,其中,一个特殊语言字符对应的手写笔记中包含该特殊语言字符的多个手写字符;/n基于目标特殊语言文字短语和所述多个特殊语言字符各自的手写图像集合,生成所述目标特殊语言文字短语对应的目标特殊语言文字短语图像;/n以所述目标特殊语言文字短语图像为样本,并以所述目标特殊语言文字短语图像对应的所述目标特殊语言文字短语为标签,对特殊语言文字识别模型进行训练。/n

【技术特征摘要】
1.一种特殊语言文字识别模型的训练方法,包括:
分别对多个特殊语言字符对应的手写笔记进行分割,得到所述多个特殊语言字符各自的手写图像集合,其中,一个特殊语言字符对应的手写笔记中包含该特殊语言字符的多个手写字符;
基于目标特殊语言文字短语和所述多个特殊语言字符各自的手写图像集合,生成所述目标特殊语言文字短语对应的目标特殊语言文字短语图像;
以所述目标特殊语言文字短语图像为样本,并以所述目标特殊语言文字短语图像对应的所述目标特殊语言文字短语为标签,对特殊语言文字识别模型进行训练。


2.如权利要求1所述的方法,以所述目标特殊语言文字短语图像为样本,并以所述目标特殊语言文字短语图像对应的所述目标特殊语言文字短语为标签,对特殊语言文字识别模型进行训练,包括:
通过卷积神经网络依次提取所述目标特殊语言文字短语图像的特征,得到所述目标特殊语言文字短语图像的特征图;
将所述目标特殊语言文字短语图像的特征图转换为所述目标特殊语言文字短语图像的特征序列;
通过双向长短期记忆网络LSTM对所述目标特殊语言文字短语图像的特征序列进行识别,得到所述目标特殊语言文字短语图像的特征序列对应的特殊语言字符;
基于所述目标特殊语言文字短语图像的特征序列对应的特殊语言字符、所述目标特殊语言文字短语、以及预设损失函数,对所述特殊语言文字识别模型进行优化,直到训练得到所述特殊语言文字识别模型。


3.如权利要求2所述的方法,基于所述目标特殊语言文字短语图像的特征序列对应的特殊语言字符、所述目标特殊语言文字短语、以及预设损失函数,对所述特殊语言文字识别模型进行优化,直到训练得到所述特殊语言文字识别模型,包括:
将所述目标特殊语言文字短语图像的特征序列对应的特殊语言字符组合起来,得到所述目标特殊语言文字短语图像对应的特殊语言文字短语;
基于所述目标特殊语言文字短语图像对应的特殊语言文字短语、所述目标特殊语言文字短语、以及预设损失函数,对所述特殊语言文字识别模型进行优化,直到训练得到所述特殊语言文字识别模型。


4.如权利要求3所述的方法,将所述目标特殊语言文字短语图像的特征序列对应的特殊语言字符组合起来,得到所述目标特殊语言文字短语图像对应的特殊语言文字短语,包括:
将所述目标特殊语言文字短语图像的特征序列对应的特殊语言字符组合起来,得到所述目标特殊语言文字短语图像对应的待处理的特殊语言文字短语;
对所述目标特殊语言文字短语图像对应的待处理的特殊语言文字短语进行预设处理,得到所述目标特殊语言文字短语图像对应的特殊语言文字短语;
其中,所述预设处理至少包括去除待处理的特殊语言文字短语中的空白字符和连续的重复字符。


5.一种特殊语言文字的识别方法,包括:
获取待识别的目标特殊语言文字短语图像;
将所述目标特殊语言文字短语图像作为特殊语言文字识别模型的输入,以输出所述目标特殊语言文字短语图像中的特殊语言文字短语;
其中,所述特殊语言文字识别模型基于多个样本图像和对应的标签训练得到的,所述多个样本图像中包含特殊语言文字短语,所述多个样本图像对应的标签为所述多个样本图像包含的特殊语言文字短语。


6.如权利要求5所述的方法,将所述目标图像作为特殊语言文字识别模型的输入,以输出所述目标图像中包含的特殊语言文字,包括:
通过所述特殊语言文字识别模型中的卷积神经网络提取所述目标特殊语言文字短语图像的特征,分别得到所述目标特殊语言文字短语图像的特征图;
通过所述特殊语言文字识别模型将所述目标特殊语言文字短语图像的特征图转换为所述目标特殊语言文字短语图像的特征序列;
通过所述特殊语言文字识别模型中的双向长短期记忆网络LSTM对所述目标特殊语言文字短语图像的特征序列进行识别,得到所述目标特殊语言文字短语图像的特征序列对应的特殊语言字符;
通过所述特殊语言文字识别模型对所述目标特殊语言文字短语图像的特征序列对应的特殊语言字符进行处理,输出得到所述目标特殊语言文字短语图像中包含的特殊语言文字短语。


7.如权利要求6所述的方法,通过所述特殊语言文字识别模型对所述目标特殊语言文字短语图像的特征序列对应的特殊语言字符进行处理,输出得到所述目标特殊语言文字短语图像中包含的特殊语言文字短...

【专利技术属性】
技术研发人员:甘宇飞
申请(专利权)人:支付宝实验室新加坡有限公司
类型:发明
国别省市:新加坡;SG

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1