System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于图像处理领域,具体涉及一种基于自蒸馏的半监督文本识别方法。
技术介绍
1、随着计算机相关科学技术的发展,人类的生产活动逐步转向人机协同工作的智能化时代,图像文本识别即其中重要的应用问题之一。图像文本识别的任务是将图像中的文本转录为计算机符号形式的序列等计算机可以理解的形式。图像中的文本通常包含着极为重要的语义信息与场景信息,是人类理解图像的重要渠道,文本识别技术拥有广阔的实际应用前景,如:自动驾驶中的路标理解、票据信息抽取、文档识别等都涉及文本识别任务。
2、由于自然场景中的文本图像存在复杂背景、不均匀光照、拍摄角度造成的图像变换、文字被遮挡造成的残缺、图像分辨率较低造成的模糊等大量不确定因素,文本识别任务针对的场景具有较高的复杂性,导致文本识别算法对训练数据的数据量与数据多样性有较高的要求。在实际应用中,开发者通常会在模型部署前收集业务场景下的大量真实数据并进行标注,用于模型的训练。然而,高昂的数据标注代价会极大的提高场景文本识别模型落地的门槛,且人工标注的数据通常无法满足复杂的业务场景的需求,导致模型在真实场景中的性能不高。除此之外,解决文本识别模型对训练数据的依赖的另一主流方法为通过算法合成大量数据进行训练,最具代表性的合成场景文本数据集为synthtext与mjsynth。但是现有数据合成算法得到的数据与实际应用场景的数据存在较大的差异,合成数据的复杂度与真实数据的复杂度有较大的差距,且合成数据的数据量通常较大,会带来较高的算力需求,阻碍了模型在实际场景中的应用。
3、近年来,许多学
技术实现思路
1、本专利技术是为了解决上述问题而进行的,目的在于提供一种基于自蒸馏的半监督文本识别方法。
2、本专利技术提供了一种基于自蒸馏的半监督文本识别方法,其特征在于,包括:步骤s1-1,将待识别文本图像经过预处理得到预处理文本图像;步骤s1-2,将预处理文本图像输入预先训练好的文本识别模型进行推理,迭代地得到文本行中每一个位置的行文本识别结果;步骤s1-3,对行文本识别结果中进行字符拼接得到最终的文本识别结果,其中,文本识别模型的训练过程包括监督学习训练阶段以及基于半监督学习框架进行的半监督学习训练阶段,半监督学习框架至少包括教师文本识别模块、预测结果筛选模块、注意力缓存模块、学生文本识别模块以及注意力对齐模块,教师文本识别模块包含教师模型,用于对轻度数据增强样本进行预测得到对应的注意力图作为第一预测结果,预测结果筛选模块利用教师文本识别模块的预测置信度对教师文本识别模块的预测结果进行筛选,从而得到高置信度的筛选结果,注意力缓存模块通过指数移动平均值对筛选结果对应的注意力图进行缓存形成注意力缓存,学生文本识别模块包含用于训练的学生模型,用于对重度数据增强样本进行预测得到第二预测结果,并通过该第二预测结果计算分类损失与注意力对齐损失,进一步通过反向传播对学生模型的模型参数进行更新,并将更新后的模型参数同步到教师模型中,注意力对齐模块在学生模型的训练过程中从注意力缓存中提取对应的注意力图,并用于学生模型的注意力对齐损失的计算,学生模型的初始状态为执行监督学习训练阶段后的文本识别模型。
3、根据本专利技术提供的基于自蒸馏的半监督文本识别方法,还可以具有这样的技术特征,其中,半监督学习训练阶段包括如下步骤:步骤s3-1,从训练用有标签文本图像数据集中采集有标签文本图像与对应的标签信息,并从训练用无标签文本图像数据集中采集无标签文本图像;步骤s3-2,在预设的强度区间内,随机选取轻度数据增强算法与重度数据增强算法的强度,并利用选取的强度作为数据增强算法的初始化参数,进行数据增强算法的初始化,其中,轻度数据增强算法的强度低于重度数据增强算法的强度;步骤s3-3,利用轻度与重度数据增强算法对有标签文本图像与无标签文本图像进行处理,将处理得到的图像进行预处理得到轻度数据增强样本以及重度数据增强样本;步骤s3-4,将轻度数据增强样本输入教师模型进行预测得到第一预测结果,并基于预测结果筛选模块得到筛选结果以及基于注意力缓存模块得到注意力缓存;步骤s3-5,将重度数据增强样本输入学生模型得到第二预测结果,当重度数据增强样本对应于训练用有标签文本图像数据集时,利用标签信息与注意力图信息进行损失函数计算,当重度数据增强样本对应于训练用无标签文本图像数据集时,利用教师模型产生的伪标签与注意力图信息进行损失函数计算,损失函数分别为用于计算分类损失的分类损失函数与用于计算注意力对齐损失的注意力对齐损失函数;步骤s3-6,利用分类损失与注意力对齐损失对学生模型的模型参数进行求导,再使用反向传播对模型参数进行更新,将更新后的模型参数同步到教师模型作为新的教师模型;步骤s3-7,判断更新后的模型参数是否达到终止条件,当判断为否则进入步骤s3-2,当判断为是则进入下一步骤;步骤s3-8,保存更新后的模型参数,得到训练好的文本识别模型。
4、根据本专利技术提供的基于自蒸馏的半监督文本识别方法,还可以具有这样的技术特征,其中,分类损失函数为交叉熵损失:
5、
6、式中,训练用有标签文本图像数据集表示为z={(zn,pn):n∈(1,...,n)},表示训练用有标签文本图像数据集中的第i张图像的标签,表示标签中的第t个字符,注意力对齐损失函数为l1损失:
7、
8、式中,astudent为重度数据增强样本的学生分支的文本识别模型产生的注意力图,而acache为通过指数移动平均值缓存的教师分支的文本识别模型产生的注意力图,半监督学习训练阶段的损失函数为:
9、
10、
11、
12、式中,与分别为有标签数据部分的损失与无标签数据部分的损失,λssl与λattn为平衡因子,该平衡因子为常数。
13、根据本专利技术提供的基于自蒸馏的半监督文本识别方法,还可以具有这样的技术特征,其中,指数移动平均值的公式为:
14、ema(xn)=β·ema(xn-1)+(1-β)·xn
15、式中,ema(xn)定义为以xn为第n项的序列的指数移动平均值,β为指数移动平均值的加权权重。
16、根据本专利技术提供的基于自蒸馏的半监督文本识别方法,还可以具有这样的技术特征,其中,监督学习训练阶段包含如下步骤:步骤s2-1,从训练用有标签文本图像数据集中采集用于有监督训练的有标签文本图像以及对应的标签信息;步骤s2-2,构建初始文本识别模型,并将有标签文本图像与对应标签信息输入至初始文本识别模型,初始文本识别模型由图像特征提取模块、序列上下文特征建模模块以及结果转录本文档来自技高网...
【技术保护点】
1.一种基于自蒸馏的半监督文本识别方法,其特征在于,包括:
2.根据权利要求1所述的基于自蒸馏的半监督文本识别方法,其特征在于:
3.根据权利要求2所述的基于自蒸馏的半监督文本识别方法,其特征在于:
4.根据权利要求1至3中任意一项所述的基于自蒸馏的半监督文本识别方法,其特征在于:
5.根据权利要求1所述的基于自蒸馏的半监督文本识别方法,其特征在于:
6.根据权利要求1所述的基于自蒸馏的半监督文本识别方法,其特征在于:
7.根据权利要求6所述的基于自蒸馏的半监督文本识别方法,其特征在于:
8.根据权利要求6所述的基于自蒸馏的半监督文本识别方法,其特征在于:
9.根据权利要求1所述的基于自蒸馏的半监督文本识别方法,其特征在于:
10.根据权利要求1所述的基于自蒸馏的半监督文本识别方法,其特征在于:
【技术特征摘要】
1.一种基于自蒸馏的半监督文本识别方法,其特征在于,包括:
2.根据权利要求1所述的基于自蒸馏的半监督文本识别方法,其特征在于:
3.根据权利要求2所述的基于自蒸馏的半监督文本识别方法,其特征在于:
4.根据权利要求1至3中任意一项所述的基于自蒸馏的半监督文本识别方法,其特征在于:
5.根据权利要求1所述的基于自蒸馏的半监督文本识别方法,其特征在于:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。