一种语种识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24685404 阅读:44 留言:0更新日期:2020-06-27 08:30
本申请涉及计算机视觉技术领域,尤其涉及一种语种识别方法、装置、电子设备及存储介质,其中,该方法包括:获取目标文本图像,其中,所述目标文本图像中携带有目标文本;将所述目标文本图像划分为多个目标文本子图像;根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型,确定与所述目标文本对应的语种。采用上述方案,利用训练出的语种识别模型直接对文本图像进行语种识别,使得识别效率和识别准确率较高,适用性较强。

A language recognition method, device, electronic equipment and storage medium

【技术实现步骤摘要】
一种语种识别方法、装置、电子设备及存储介质
本申请涉及计算机视觉
,具体而言,涉及一种语种识别方法、装置、电子设备及存储介质。
技术介绍
在世界范围内,不同国家的人使用不同种类的语言,相应地,文字也各不相同。因此,在自然场景图像中的文字所属的语种(如中文、英文、阿拉伯文等)也千差万别。为了解决语种和文字之间的障碍,光学文字识别(OpticalCharacterRecognition,OCR)技术应运而生,且得到了广泛的应用。在相关技术中,当需要识别图像中的文字信息时,通常需要先在图像中确定出文字行,然后使用OCR技术识别文字行中的文字信息。然而,现有的OCR技术均需要假定文字所属的语种已知,也即,在基于OCR技术进行文字识别时,均需要预先指定待识别文字的语种。因此,当语种未知或指定错误时,OCR的识别效果较差,且通常需要针对不同的语种设计专门的OCR系统,适用性较差。可见,目前尚缺乏识别图像中的文本语种的方案。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种语种识别方法、装置、电子设备及本文档来自技高网...

【技术保护点】
1.一种语种识别方法,其特征在于,所述方法包括:/n获取目标文本图像,其中,所述目标文本图像中携带有目标文本;/n将所述目标文本图像划分为多个目标文本子图像;/n根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型,确定与所述目标文本对应的语种。/n

【技术特征摘要】
1.一种语种识别方法,其特征在于,所述方法包括:
获取目标文本图像,其中,所述目标文本图像中携带有目标文本;
将所述目标文本图像划分为多个目标文本子图像;
根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型,确定与所述目标文本对应的语种。


2.根据权利要求1所述的方法,其特征在于,所述预先训练的语种识别模型中的内设参数用于反映所述目标文本图像与各个目标文本子图像之间的已知关联程度。


3.根据权利要求1所述的方法,其特征在于,所述将所述目标文本图像划分为多个目标文本子图像,包括:
将所述目标文本图像按照预设大小依次划分为多个目标文本子图像;
所述根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型,确定与所述目标文本对应的语种,包括:
确定所述目标文本图像对应的图像特征向量;并按照所述多个目标文本子图像划分的逻辑顺序,确定所述多个目标文本子图像对应的文本特征矩阵;
将所述图像特征向量和所述文本特征矩阵,输入至预先训练的语种识别模型中,得到与所述目标文本对应的语种。


4.根据权利要求3所述的方法,其特征在于,所述确定所述目标文本图像对应的图像特征向量,包括:
将所述目标文本图像输入至预先训练的图像特征提取模型中,得到所述目标文本图像对应的图像特征向量。


5.根据权利要求4所述的方法,其特征在于,按照如下步骤训练所述图像特征提取模型:
获取参考文本图像;
确定与所述参考文本图像对应的图像特征向量;
将所述参考文本图像作为待训练的图像特征提取模型的输入,将确定的所述图像特征向量作为待训练的图像特征提取模型的输出,训练得到所述图像特征提取模型。


6.根据权利要求3所述的方法,其特征在于,所述确定所述多个目标文本子图像对应的文本特征矩阵,包括:
针对每个目标文本子图像,从该目标文本子图像中提取出目标子文本;
针对每个目标子文本,将该目标子文本输入至预先训练的文本特征提取模型中,得到所述目标子文本对应的文本特征向量;
按照所述多个目标文本子图像划分的逻辑顺序,将多个目标子文本对应的文本特征向量进行组合,得到所述多个目标文本子对应的文本特征矩阵;
将得到的所述多个目标文本子对应的文本特征矩阵,确定为所述多个目标文本子图像对应的文本特征矩阵。


7.根据权利要求6所述的方法,其特征在于,按照如下步骤训练所述文本特征提取模型:
获取参考子文本;
确定所述参考子文本对应的文本特征向量;
将所述参考子文本作为待训练的文本特征提取模型的输入,将确定的所述文本特征向量作为待训练的文本特征提取模型的输出,训练得到所述文本特征提取模型。


8.根据权利要求1所述的方法,其特征在于,所述确定与所述目标文本对应的语种,包括:
确定所述目标文本属于多种预设语种中每一种语种的概率,选取对应的概率最大的预设语种作为所述目标文本对应的语种。


9.根据权利要求1~8中任一项所述的方法,其特征在于,按照如下步骤训练所述语种识别模型:
获取参考文本图像集;
针对所述参考文本图像集中的每个参考文本图像,将该参考文本图像划分为多个参考文本子图像,其中,所述参考文本图像中携带有参考文本;
根据所述参考文本图像集中的每个参考文本图像、该参考文本图像划分后的多个参考文本子图像、以及与该参考文本图像中携带的参考文本对应的实际语种,训练得到语种识别模型。


10.根据权利要求9所述的方法,其特征在于,所述根据所述参考文本图像集中的每个参考文本图像、该参考文本图像划分后的多个参考文本子图像、以及与该参考文本图像中携带的参考文本对应的实际语种,训练得到语种识别模型,包括:
针对所述参考文本图像集中的每个参考文本图像,确定所述参考文本图像对应的图像特征向量;并按照所述多个参考文本子图像划分的逻辑顺序,确定所述多个参考文本子图像对应的文本特征矩阵;
将所述参考文本图像对应的图像特征向量和所述多个参考文本子图像对应的文本特征矩阵作为待训练的语种识别模型的输入,将与所述参考文本图像中携带的参考文本对应的实际语种作为待训练的语种识别模型的输出,训练得到所述语种识别模型。


11.根据权利要求10所述的方法,其特征在于,所述将所述参考文本图像对应的图像特征向量和所述多个参考文本子图像对应的文本特征矩阵作为待训练的语种识别模型的输入,将与所述参考文本图像中携带的参考文本对应的实际语种作为待训练的语种识别模型的输出,训练得到所述语种识别模型,包括:
针对所述参考文本图像集中的每个参考文本图像,将该参考文本图像对应的图像特征向量和该参考文本图像划分后的多个参考文本子图像对应的文本特征矩阵输入至待训练的语种识别模型中,进行至少一轮模型训练,直至模型输出的该参考文本图像中参考文本对应的语种与该参考文本对应的实际语种一致时,停止循环,训练得到所述语种识别模型。


12.根据权利要求11所述的方法,其特征在于,按照如下步骤进行每轮模型训练:
针对所述参考文本图像集中的每个参考文本图像,将该参考文本图像对应的图像特征向量和该参考文本图像划分后的多个参考文本子图像对应的文本特征矩阵输入至待训练的语种识别模型中,输出该参考文本图像中参考文本对应的语种;
确定输出的该参考文本图像中参考文本对应的语种与该参考文本对应的实际语种是否一致,若不一致,则调整所述语种识别模型中的内设参数,并基于调整后的内设参数进行下一轮模型训练。


13.一种语种识别装置,其特征在于,所述装置包括:<...

【专利技术属性】
技术研发人员:张雪雷沈海峰苟巍
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1