多语种文本识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号:37123453 阅读:16 留言:0更新日期:2023-04-01 05:19
本申请公开了一种多语种文本识别方法、装置、设备及可读存储介质,获取文本图像,将文本图像输入预先训练的多语种文本识别模型,输出与文本图像对应的文本识别结果,多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以训练文本图像对应的文本作为训练标签训练得到,而该词汇表中包括256个单字节的Unicode码,且词汇表中的不同单字节的Unicode码的组合足以覆盖所有语种的不同字符单元,所有语种的不同字符单元均由不同单字节的Unicode码的组合来表示,在实现多语种文本识别的基础上,将词汇表的大小固定为256,极大程度上降低了词汇表中的词汇量,使得模型的训练将变得非常简单,提高了多语种文本识别的效率。效率。效率。

【技术实现步骤摘要】
多语种文本识别方法、装置、设备及可读存储介质


[0001]本申请涉及互联网
,更具体的说,涉及一种多语种文本识别方法、装置、设备及可读存储介质。

技术介绍

[0002]在日常生活中,文本图像是除语音、视频外最常见的承接信息的方式,文本图像中包含丰富的语义信息,因此对文本图像进行识别得到文本图像中的文本是计算机视觉领域重要的研究热点之一,通常文本图像中的文本为多语种的文本,多语种文本识别在人类以及人机之间的无障碍信息传递和理解具有重要的支撑作用,同时便于世界各国之间无障碍交流,推动其各行各业人员密切交流,促进全球经济进一步发展。
[0003]现有的多语种文本识别方法中通常是将所有语种的词汇组合成一个大型词汇表,再基于该词汇表训练神经网络模型,当没有涉及很多语种时,这种方法可以很好地工作,然而,随着涉及的语种越来越多,词汇表中的词汇量越来越大,使得模型的训练将变得非常困难,多语种文本识别的效率十分低。

技术实现思路

[0004]有鉴于此,本申请提供了一种多语种文本识别方法、装置、设备及可读存储介质,用于解决现有的多语种文本识别方法使用的词汇表中的词汇量非常大,使得模型的训练将变得非常困难,导致多语种文本识别的效率十分低的问题。
[0005]为了实现上述目的,现提出的方案如下:
[0006]一种多语种文本识别方法,包括:
[0007]获取文本图像;
[0008]将所述文本图像输入预先训练的多语种文本识别模型,得到与所述文本图像对应的文本识别结果;
[0009]其中,所述多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以所述训练文本图像对应的文本作为训练标签训练得到;
[0010]所述词汇表中包括多个单字节的Unicode码,每种语种的不同字符单元均由所述词汇表中的不同单字节的Unicode码的组合来表示。
[0011]优选地,所述词汇表的构建过程,包括:
[0012]根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元;
[0013]对每种所述语种对应的字符单元进行Unicode编码,得到Unicode码集合;
[0014]将所述Unicode码集合中的所有Unicode码均拆分为单字节的Unicode码,将得到的单字节的Unicode码构建为所述词汇表。
[0015]优选地,所述根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元之前,还包括:
[0016]将各所述语种中由基础字母组成的语种划分为第一类语种;
[0017]将各所述语种中的中文划分为第二类语种;
[0018]将各所述语种中除了所述第一类语种及所述第二类语种之外的语种划分为第三类语种;
[0019]所述根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元,包括:
[0020]将所述第一类语种的基础组成字母构建为字符单元;
[0021]将所述第二类语种的偏旁部首构建为字符单元;
[0022]将所述第三类语种按照预设的字符连接规则划分得到的子词构建为字符单元。
[0023]优选地,所述多语种文本识别模型包括:卷积网络、编码器网络及解码器网络;
[0024]所述卷积网络用于获取输入的所述文本图像,并获取所述文本图像的图像特征;
[0025]所述编码器网络用于将所述图像特征转化为深层图像特征;
[0026]所述解码器网络用于根据所述深层图像特征确定所述文本图像对应的多个单字节的Unicode码,将所述文本图像对应的多个单字节的Unicode码进行拼接得到多个字符单元对应的Unicode码,根据每个字符单元的Unicode码恢复出所述文本识别结果,输出所述文本识别结果。
[0027]优选地,所述解码器网络根据所述深层图像特征获取所述文本图像对应的多个单字节的Unicode码的过程,包括:
[0028]解码器网络根据所述深层图像特征确定所述文本图像对应的各个单字节的Unicode码在所述词汇表中的序号,根据各个所述序号在所述词汇表中获取所述文本图像对应的多个单字节的Unicode码。
[0029]优选地,所述解码器网络为基于注意力机制的解码器网络。
[0030]优选地,所述多语种文本识别模型的训练过程,包括:
[0031]获取预先构建的所述词汇表、所述训练文本图像及所述训练文本图像对应的文本;
[0032]将所述训练文本图像输入所述多语种文本识别模型,得到所述多语种文本识别模型预测的文本结果;
[0033]根据所述文本结果及所述训练文本图像对应的文本计算损失函数;
[0034]基于损失函数对所述多语种文本识别模型进行训练,直至满足设定的训练结束条件。
[0035]一种多语种文本识别装置,包括:
[0036]文本图像获取单元,用于获取文本图像;
[0037]多语种文本识别单元,用于将所述文本图像输入预先训练的多语种文本识别模型,得到与所述文本图像对应的文本识别结果;
[0038]其中,所述多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以所述训练文本图像对应的文本作为训练标签训练得到;
[0039]所述词汇表中包括多个单字节的Unicode码,每种语种的不同字符单元均由所述词汇表中的不同单字节的Unicode码的组合来表示。
[0040]一种多语种文本识别设备,包括存储器和处理器;
[0041]所述存储器,用于存储程序;
[0042]所述处理器,用于执行所述程序,实现如上述多语种文本识别方法的各个步骤。
[0043]一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述多语种文本识别方法的各个步骤。
[0044]从上述的技术方案可以看出,本申请实施例提供的多语种文本识别方法,获取文本图像,将文本图像输入预先训练的多语种文本识别模型,输出与文本图像对应的文本识别结果,其中,多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以训练文本图像对应的文本作为训练标签训练得到,而该词汇表中包括多个单字节的Unicode码,单字节的Unicode码为对已有的双字节的Unicode码进行拆分得到的Unicode码,可拆分得到256个单字节的Unicode码,而双字节的Unicode码可编65536字符单元(组成每种语种的字符的基础单元),基本上包含了世界上所有的语言字符单元,所以该词汇表中的不同单字节的Unicode码的组合足以覆盖所有语种的不同字符单元,所有语种的不同字符单元均由该词汇表中的不同单字节的Unicode码的组合来表示,在实现多语种文本识别的基础上,将词汇表的大小固定为256,极大程度上降低了词汇表中的词汇量,使得模型的训练将变得非常简单,提高了多语种文本识别的效率。
附图说明
[0045]为了更清楚地说明本申请实施例或现有技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语种文本识别方法,其特征在于,包括:获取文本图像;将所述文本图像输入预先训练的多语种文本识别模型,得到与所述文本图像对应的文本识别结果;其中,所述多语种文本识别模型为基于预先构建的词汇表,以训练文本图像作为训练样本,以所述训练文本图像对应的文本作为训练标签训练得到;所述词汇表中包括多个单字节的Unicode码,每种语种的不同字符单元均由所述词汇表中的不同单字节的Unicode码的组合来表示。2.根据权利要求1所述的方法,其特征在于,所述词汇表的构建过程,包括:根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元;对每种所述语种对应的字符单元进行Unicode编码,得到Unicode码集合;将所述Unicode码集合中的所有Unicode码均拆分为单字节的Unicode码,将得到的单字节的Unicode码构建为所述词汇表。3.根据权利要求2所述的方法,其特征在于,所述根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元之前,还包括:将各所述语种中由基础字母组成的语种划分为第一类语种;将各所述语种中的中文划分为第二类语种;将各所述语种中除了所述第一类语种及所述第二类语种之外的语种划分为第三类语种;所述根据每种所述语种的语言及结构特性构建每种所述语种对应的字符单元,包括:将所述第一类语种的基础组成字母构建为字符单元;将所述第二类语种的偏旁部首构建为字符单元;将所述第三类语种按照预设的字符连接规则划分得到的子词构建为字符单元。4.根据权利要求1所述的方法,其特征在于,所述多语种文本识别模型包括:卷积网络、编码器网络及解码器网络;所述卷积网络用于获取输入的所述文本图像,并获取所述文本图像的图像特征;所述编码器网络用于将所述图像特征转化为深层图像特征;所述解码器网络用于根据所述深层图像特征确定所述文本图像对应的多个单字节的Unicode码,将所述文本图像对应的多个单字节的Unicode码进行拼接得到多个字符单元对应的Unicode码,根据每个字符单元的Unicode码恢复...

【专利技术属性】
技术研发人员:吴嘉嘉黄一琦宋彦
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1