【技术实现步骤摘要】
文字识别模型的训练方法、文字识别方法和设备、电子设备及介质
[0001]本申请涉及文字识别
,特别是涉及一种文字识别模型的训练方法、文字识别方法和设备、电子设备及介质。
技术介绍
[0002]通常,随着人们对产品设备使用的各种需求的提升,在使用产品设备进行文字识别时,用户往往希望能够既保持产品设备识别文字的及时性,又保持产品设备识别文字的准确性。
[0003]光学字符识别(optical character recognition,OCR)已经成为人工智能领域中比较重要的技术之一,基于OCR技术对通用场景进行文字识别具有重要意义。通用场景下文本识别准确率与数据样本容量相关,大多数场景都是通过智能手机、相机等设备拍摄得到的。
[0004]目前,在对获取的图像上的文本进行识别的过程中,由于对场景文本的筛选,将一些困难的文字样本进行滤除,使得获取的文字样本进一步减少,并且文本中文字或字符之间往往并不存在规律性的语义信息,无法对场景文字中的编号进行语义建模,并且现实场景中往往需要大量的人工标注,导致各个场景中, ...
【技术保护点】
【技术特征摘要】
1.一种文字识别模型的训练方法,其特征在于,所述方法包括:获取有标签数据、无标签数据以及所述有标签数据和所述无标签数据的反馈联合损失,所述反馈联合损失基于所述有标签数据、所述无标签数据和损失函数计算得到;对所述无标签数据进行字符扰动增强,得到扰动后的无标签数据;使用所述有标签数据、所述反馈联合损失以及所述扰动后的无标签数据对训练中的文字识别模型进行有监督联合半监督训练,直至所述损失函数收敛时,得到训练后的文字识别模型。2.根据权利要求1所述的方法,其特征在于,所述训练中的文字识别模型包括训练中的学生模型和训练中的教师模型,所述教师模型的网络结构和所述学生模型的网络结构相同;所述使用所述有标签数据、所述反馈联合损失以及所述扰动后的无标签数据对所述训练中的文字识别模型进行有监督联合半监督训练,包括:将所述反馈联合损失、所述有标签数据以及所述扰动后的无标签数据输入所述训练中的学生模型进行有监督联合半监督训练,得到第一预测值;将所述扰动后的无标签数据输入所述训练中的教师模型进行所述半监督训练,得到第二预测值。3.根据权利要求2所述的方法,其特征在于,所述损失函数收敛时,得到训练后的文字识别模型,包括:提取所述有标签数据的标签;对所述标签、所述第一预测值以及所述第二预测值输入所述损失函数进行损失计算,得到预设损失结果以使所述损失函数收敛,得到所述训练后的文字识别模型。4.根据权利要求3所述的方法,其特征在于,所述损失函数包括有监督损失函数和无监督损失函数,所述有监督损失函数至少包括联结时间分类损失函数;所述对所述标签、所述第一预测值以及所述第二预测值输入所述损失函数进行损失计算,包括:调用所述有监督损失函数,对所述标签以及所述第一预测值进行拟合,得到联结时间分类损失值以使所述联结时间分类损失函数收敛,得到训练后的学生模型;调用所述无监督损失函数,对所述第二预测值与所述第一预测值进行处理,得到均方误差损失值以使所述无监督损失函数收敛,得到训练后的教师模型,所述第二预测值与所述第一预测值之间的差值小于预设差值,以使所述训练后的学生模型和所述训练后的教师模型组成所述训练后的文字识别模型;其中,所述反馈联合损失是基于所述联结时间分类损失值和所述均方误差损失值的和确定的。5.根据权利要求2
‑
4任一项所述的方法,其特征在于,所述对无标签数据进行字符扰动增强,包括:获取输入所述学生模型的文本图像作为所述无标签数据;将所述文本图像均分为N个图像子块,所述N为大于等于1的正整数;沿着所述文本图像的边界,将所述N个图像子块初始化形成2(N+1)个基准点,其中,每
个基准点设置半径为R的范围圆,以圆的中心为初始原点,其中所述R大于等于0;对范围圆内的像素点按照高斯分布进行随机扰动,以改变所述无标签数据中的每个字符的形状和/或扭曲度。6.根据权利要求5所述的方法,其...
【专利技术属性】
技术研发人员:孟闯,熊剑平,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。