【技术实现步骤摘要】
文本识别方法及相关装置
[0001]本申请涉及计算机
,提供一种文本识别方法及相关装置。
技术介绍
[0002]随着计算机技术的不断发展,基于图像的文本识别技术应用广泛,基于图像的文本识别技术是指识别出待识别图像中包含的文本信息。
[0003]相关技术中,通常先确定待识别图像对应的目标语种,再根据目标语种对应的识别模型,确定待识别图像中包含的文本信息。
[0004]然而,采用上述文本识别方式,无法对包含多个语种的文字的图像进行文本识别。此外,一旦目标语种识别错误,会直接影响文本识别结果,导致识别准确率较低。
技术实现思路
[0005]本申请实施例提供一种文本识别方法及相关装置,用以提高文本识别准确率。
[0006]第一方面,本申请实施例提供一种文本识别方法,包括:将包含文本的待识别图像输入至目标分类模型中,获得相应的语种分布信息和原始文本呈现方向,其中,所述语种分布信息中包含所述文本对应的多个语种,以及所述多个语种各自对应的文本位置信息;基于所述原始文本呈现方向和预设的目标文字呈 ...
【技术保护点】
【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:将包含文本的待识别图像输入至目标分类模型中,获得相应的语种分布信息和原始文本呈现方向,其中,所述语种分布信息中包含所述文本对应的多个语种,以及所述多个语种各自对应的文本位置信息;基于所述原始文本呈现方向和预设的目标文字呈现方向,对所述待识别图像进行图像矫正,并将矫正后得到的待识别图像,作为目标识别图像;基于获得的各文本位置信息,从所述目标识别图像中,确定所述多个语种各自对应的文本区域图像集;基于获得的各文本区域图像集,分别采用对应语种关联的目标文本识别模型,得到所述待识别图像对应的文本识别结果。2.如权利要求1所述的方法,其特征在于,所述基于获得的各文本区域图像集,分别采用对应语种关联的目标文本识别模型,得到所述待识别图像对应的文本识别结果,包括:将获得的各文本区域图像集,分别输入至对应语种关联的目标文本识别模型中,获得所述各文本区域图像集各自对应的文本识别子结果;基于获得的各文本识别子结果,得到所述待识别图像对应的文本识别结果。3.如权利要求1所述的方法,其特征在于,所述目标分类模型中包含目标语种识别子模型,则所述目标语种识别子模型通过以下操作得到:基于获取的第一训练数据集,对初始识别模型中包含的初始语种识别子模型进行模型训练,输出所述目标语种识别子模型,其中,在一次迭代过程中,执行以下操作:将所述第一训练数据集中包含的一个训练数据,输入至初始语种识别子模型中,得到所述一个训练数据对应的预测语种分布信息;基于所述预测语种分布信息,以及所述一个训练数据对应的真实语种分布信息,确定第一模型损失,并基于所述第一模型损失,对所述初始语种识别子模型进行模型参数调整。4.如权利要求3所述的方法,其特征在于,所述基于所述预测语种分布信息,以及所述一个训练数据对应的真实语种分布信息,确定第一模型损失,包括:基于所述预测语种分布信息,确定预测分布概率,所述预测分布概率中包含有各语种各自对应的预测概率,每个预测概率用于表征对应的语种在所述各语种中的文本长度占比;基于所述真实语种分布信息,确定真实分布概率,所述真实分布概率中包含各语种各自对应的真实概率,每个真实概率用于表征对应的语种在所述各语种中的文本长度占比;基于所述预测分布概率和所述真实分布概率,确定所述第一模型损失。5.如权利要求1
‑
4中任一项所述的方法,其特征在于,所述目标分类模型中包含目标方向识别子模型,则所述目标方向识别子模型通过以下操作得到:基于获取的第一训练数据集,对初始识别模型中包含的初始方向识别子模型进行模型训练,输出所述目标方向识别子模型,其中,在一次迭代过程中,执行以下操作:获取所述第一训练数据集中包含的一个训练数据,并按照预设的图像旋转角度,对所述一个训练数据进行旋转,得到一个对比数据;将所述一个训练数据和所述一个对比数据,分别输入至所述初始方向识别子模型中,得到所述一个训练数据和所述一个对比数据各自对应的预测文本呈现方向;
基于得到的各预测文本呈现方向,确定第二模型损失,并基于所述第二模型,对所述初始方向识别子模型进行模型参数调整。6.如权利要求5所述的方法,其特征在于,所述基于得到的各预测文本呈现方向,确定第二模型损失,包括:基于所述一个训练数据和所述一个对比数据各自对应的图像特征,确定对比损失;基于所述一个训练数据和所述一个对比数据各自对应的真实文本呈现方向,以及得到的所述各预测文本呈现方向,确定所述一个训练数据和所述一个对比数据各自对应的模型预测损失;基于得到的各模型预测损失、所述对比损失,以及基于模型预测损失权重、对比损失权重,确定第二模型损失。7.如权利要求5所述的方法,其特征在于,所述目标分类模型中还包含目标特征提取网络,所述目标特征提取网络通过以下操作训练得到:基于初始特征提取网络,构建预训练语种识别模型;基于获取的第二训练数据集,对所述预训练识别网络进行迭代训练,得到所述目标特征提取网络。8.如权利要求1
‑
4中任一项所述的方法,其特征在于,所述将包含文本的待识别图像输入至目标分类模型中,获得相应的语种分布信息和原始文本呈现方向之前,还包括:获取原始图像,并从所述原始图...
【专利技术属性】
技术研发人员:姜媚,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。