基于图像的语种识别方法及装置制造方法及图纸

技术编号:12470216 阅读:61 留言:0更新日期:2015-12-09 19:23
本发明专利技术提供了一种基于图像的语种识别方法及装置。所述语种识别方法包括:计算给定文字图像的图像特征;以及基于所计算的图像特征利用训练好的分类模型确定所述给定文字图像上的文字所属的语种。本发明专利技术提供的基于图像的语种识别方法及装置通过图像特性自动判断给定文字所属的语种,识别精度高且速度快,此外还免去了人工辨识和指定语种的过程,因此可以极大提高文档处理、自动翻译等过程的效率。

【技术实现步骤摘要】

本专利技术涉及图像处理
,具体而言涉及一种基于图像的语种识别方法及装 置。
技术介绍
在世界范围内,不同国家、地区的人使用不同种类的语言,相应地,文字也各不相 同。因此,各种书籍、资料、文档以及物品上的文字所属的语种也千差万别(如中文、英文、 阿拉伯文和泰文等,样例见图1)。随着全球化的飞速发展,来自不同国家和地区的人员之 间的往来和交流日益频繁,而语言和文字的差异是一种严重的障碍。各种光学字符识别 (OCR)、自动翻译技术应运而生,且得到了大规模的普及和应用。 然而,现有的OCR和自动翻译技术和系统都假定文字所属的类别(也即语种)已 知。例如,ABBYY公司推出的OCR产品可以识别数十种语言的文字,但是需要用户事先指定 待识别文字的语种。因此,当语种未知或指定错误时,该类产品无法给出正确的识别结果。 另外,有一类技术可以从语音中自动判别语种以及一种采用总变化量因子的语种识别方法 及系统。然而,该类技术只能处理语音数据,无法应用于图像数据。总之,目前尚缺乏可以 从文字图像(见图1)中直接判断语种的技术和系统。
技术实现思路
针对现有技术的不足,一方面,本专利技术提供一种基于图像的语种识别方法。所述语 种识别方法包括:计算给定文字图像的图像特征;以及基于所计算的图像特征利用训练好 的分类模型确定所述给定文字图像上的文字所属的语种。 在本专利技术的一个实施例中,所述分类模型的训练包括:构建文字图像数据库,所 述文字图像数据库包括多个文字图像以及每个文字图像相应的标签,所述标签指示相应 的文字图像上的文字所属的语种;计算所述文字图像数据库中的每一个文字图像的图像 特征;基于所述标签和所计算的每个文字图像的图像特征构建训练集;以及采用随机森林 (Random Forest)算法在所述训练集上训练出所述分类模型。 在本专利技术的一个实施例中,所述分类模型的训练还包括:在构建所述文字图像数 据库之后、在计算所述每一个文字图像的图像特征之前对所述文字图像数据库进行扩充, 所述扩充包括:将所述文字图像数据库中所有文字图像的高度归一化并对高度归一化后的 文字图像执行预定次数的第一操作,所述第一操作包括:将文字图像的宽度拉伸或压缩为 原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及向宽度拉伸或 压缩后的文字图像中添加高斯随机噪声。 在本专利技术的一个实施例中,所述计算给定文字图像的图像特征包括:将给定文字 图像的高度归一化;对高度归一化后的给定文字图像执行预定次数的第二操作,以生成所 述给定文字图像的多个派生图像;以及计算所述多个派生图像各自的图像特征。其中,所 述第二操作包括:将给定文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不 变,其中λ为预定范围内的随机数;以及向宽度拉伸或压缩后的给定文字图像中添加高斯 随机噪声。 示例性地,所述基于所计算的图像特征利用训练好的分类模型确定所述给定文字 图像上的文字所属的语种包括:将所计算的所述多个派生图像的图像特征分别输入到所述 分类模型以得到多个识别结果;以及对所述多个识别结果取平均值作为所述给定文字图像 上的文字所属的语种的最终识别结果。 示例性地,所述λ的取值范围为。 示例性地,所述高斯随机噪声的均值为0、方差的取值范围为。 示例性地,所述预定次数为100次或200次。 在本专利技术的一个实施例中,计算文字图像的图像特征包括计算文字图像的纹理特 征和/或形状特征。 示例性地,计算文字图像的纹理特征包括计算文字图像的词袋模型(Bag of Words)〇 示例性地,计算文字图像的形状特征包括计算文字图像的形状上下文(Shape Context)〇 另一方面,本专利技术还提供一种基于图像的语种识别装置。所述语种识别装置包括: 特征提取模块,用于计算给定文字图像的图像特征;以及图像分类模块,用于利用其包括的 训练好的分类模型、基于所计算的图像特征确定所述给定文字图像上的文字所属的语种。 在本专利技术的一个实施例中,所述分类模型的训练包括:构建文字图像数据库,所述 文字图像数据库包括多个文字图像以及每个文字图像相应的标签,所述标签指示相应的文 字图像上的文字所属的语种;计算所述文字图像数据库中的每一个文字图像的图像特征; 基于所述标签和所计算的每个文字图像的图像特征构建训练集;以及采用随机森林算法在 所述训练集上训练出所述分类模型。 在本专利技术的一个实施例中,所述分类模型的训练还包括:在构建所述文字图像数 据库之后、在计算所述每一个文字图像的图像特征之前对所述文字图像数据库进行扩充, 所述扩充包括:将所述文字图像数据库中所有文字图像的高度归一化并对高度归一化后的 文字图像执行预定次数的第一操作,所述第一操作包括:将文字图像的宽度拉伸或压缩为 原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及向宽度拉伸或 压缩后的文字图像中添加高斯随机噪声。 在本专利技术的一个实施例中,所述特征提取模块计算给定文字图像的图像特征的方 法包括:将给定文字图像的高度归一化;对高度归一化后的给定文字图像执行预定次数的 第二操作,以生成所述给定文字图像的多个派生图像;以及计算所述多个派生图像各自的 图像特征。其中,所述第二操作包括:将给定文字图像的宽度拉伸或压缩为原来宽度的λ 倍,同时保持高度不变,其中λ为预定范围内的随机数;以及向宽度拉伸或压缩后的给定 文字图像中添加高斯随机噪声。 示例性地,所述图像分类模块利用其包括的训练好的分类模型、基于所计算的图 像特征确定所述给定文字图像上的文字所属的语种的方法包括:将所计算的所述多个派生 图像的图像特征分别输入到所述分类模型以得到多个识别结果;以及对所述多个识别结果 取平均值作为所述给定文字图像上的文字所属的语种的最终识别结果。 示例性地,所述λ的取值范围为。 示例性地,所述高斯随机噪声的均值为0、方差的取值范围为。 示例性地,所述预定次数为100次或200次。 在本专利技术的一个实施例中,所述特征提取模块计算文字图像的图像特征的方法包 括计算文字图像的纹理特征和/或形状特征。 示例性地,所述特征提取模块计算文字图像的纹理特征的方法包括计算文字图像 的词袋模型。 示例性当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种基于图像的语种识别方法,其特征在于,所述语种识别方法包括:计算给定文字图像的图像特征;以及基于所计算的图像特征利用训练好的分类模型确定所述给定文字图像上的文字所属的语种。

【技术特征摘要】

【专利技术属性】
技术研发人员:姚聪周舒畅周昕宇徐梓哲印奇
申请(专利权)人:北京旷视科技有限公司北京小孔科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1