【技术实现步骤摘要】
模型训练方法、文本识别方法、装置、设备和介质
[0001]本公开涉及文本识别
,尤其涉及模型训练方法、文本识别方法、装置、设备和介质。
技术介绍
[0002]当前文本识别技术应用范围广泛,是很多计算机视觉任务的前置步骤,例如图像识别、文字识别、身份识别等,文本识别的主要目的是定位文本行或字符在图像中的位置。相较于通用第二识别而言,文本具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点,因此对文本的精准定位既十分重要又具有挑战性。
[0003]目前常见的文本检测方法大致包括两类,一类方案是基于自底向上的策略,将识别问题拆分为字符检测、字符识别和字符组合,逐个解决,该方法的优点是识别结果准确,缺点是需要字符级别的标注,即每个字符在输入图像上的位置、以及信息都需要标注,需要耗费大量的人工成本;另一类方案是基于整体分析的策略,即序列到序列的方法,先将图像编码,然后进行序列解码直接得出整个字符串,该方法的优点是标注简单,只需要转录字符串即可,缺点是存在识别结果多识别字符或漏识别字符的情况。
[0004 ...
【技术保护点】
【技术特征摘要】
1.一种文本识别模型训练方法,其特征在于,包括:利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支,得到训练后的第一目标分支,所述第一训练样本包括第一文本图像以及第一文本图像对应的文本字符,所述第二候选分支采用循环神经网络;基于所述训练后的第一目标分支和第三候选分支构建第二候选模型,并利用第二训练样本训练所述第二候选模型得到所述文本识别模型,所述第二训练样本包括第二文本图像以及第二文本图像对应的文本字符,所述第三候选分支采用图神经网络。2.根据权利要求1所述的方法,其特征在于,所述利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支,得到训练后的第一目标分支,包括:将所述第一训练样本中的第一文本图像输入所述第一候选模型,得到第一预测结果;基于第一预设损失函数,根据所述第一预测结果和所述第一训练样本中的与所述第一文本图像对应的文本字符,对所述第一候选模型中的第一候选分支和第二候选分支进行训练,获得第一候选分支经训练后对应的第一目标分支。3.根据权利要求2所述的方法,其特征在于,所述将所述第一训练样本中的第一文本图像输入所述第一候选模型,得到第一预测结果,包括:通过所述第一候选模型中的第一候选分支对所述第一文本图像进行第一特征提取,得到第一文本图像对应的第一图像特征,其中,所述第一图像特征为经过残差网络提取的特征映射图;通过所述第一候选模型的第二候选分支对所述第一图像特征进行第二特征提取,得到第二图像特征,并对所述第二图像特征进行解码转录,得到第一预测文本字符,其中,所述第二图像特征为经过双向长短期记忆神经网络提取的特征映射图。4.根据权利要求3所述的方法,其特征在于,所述第一候选分支包括残差网络,所述残差网络包括依次串联的N个残差块,其中,N为大于1的正整数;所述通过所述第一候选模型中的第一候选分支对所述第一文本图像进行第一特征提取,得到第一文本图像对应的第一图像特征,包括:拼接前N
‑
1个残差块输出的特征映射,获得拼接特征映射;将所述拼接特征映射与第N个残差块提取的特征映射进行逐点相加,得到所述第一图像特征。5.根据权利要求3所述的方法,其特征在于,所述第二候选分支包括双向长短期记忆网络、自注意力层和门控循环网络;所述通过所述第一候选模型的第二候选分支对所述第一图像特征进行第二特征提取,得到第二图像特征,并对所述第二图像特征进行解码转录,得到第一预测文本字符,包括:通过所述第二候选分支的双向长短期记忆网络对所述第一图像特征进行第二特征提取,得到与所述第一图像特征对应的第二图像特征;通过所述第二候选分支的自注意力层和门控循环网络对所述第二图像特征进行解码转录,得到第一预测文本字符。6.根据权利要求2所述的方法,其特征在于,所述基于第一预设损失函数,根据所述第一预测结果和所述第一训练样本中的与所述第一文本图像对应的文本字符,对所述第一候选模型中的第一候选分支和第二候选分支进行训练,获得第一候选分支经训练后对应的第
一目标分支,包括:基于第一预设损失函数,根据所述第一预测结果和所述第一训练样本中与所述第一文本图像对应的文本字符,确定第一损失值;根据所述第一损失值调整所述第一候选模型中的第一候选分支的参数和所述第二候选分支的参数,直至第一候选模型收敛,获得所述第一目标分支。7.根据权利要求1所述的方法,其特征在于,所述利用第二训练样本训练所述第二候选模型得到所述文本识别模型,包括:将所述第二训练样本中的第二文本图像输入第二候选模型,得到第二预测结果;基于第二预设损失函数,根据所述第二预测结果和所述第二训练样本中的与所述第二文本图像对应的文本字符,对所述第二候选模型中的第三候选分支进行训练,获得训练后的第三目标分支;基于所述第一目标分支和所述第三目标分支,生成所述文本识别模型。8.根据权利要求7所述的方法,其特征在于,所述将所述第二训练样本中的第二文本图像输入第二候选模型,得...
【专利技术属性】
技术研发人员:秦勇,
申请(专利权)人:北京世纪好未来教育科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。