半监督场景文本识别方法、系统、设备及存储介质技术方案

技术编号:42167051 阅读:20 留言:0更新日期:2024-07-27 00:14
本发明专利技术公开了一种半监督场景文本识别方法、系统、设备及存储介质,它们是一一对应的方案,方案中:关注了字符形态特征,通过采用半监督学习的场景文本识别框架,同时使用简单的合成数据(有标注的图像数据)和无标注的图像数据进行训练,并且通过对文本图像字符形式进行统一化,降低了困难样本的识别难度,其次提出复杂样本在线生成策略和字符单向对齐损失,使得模型能够对具有背景噪声和复杂字符形态的文本图像提取纯净有效的字符特征,进而实现仅从简单的合成训练数据集中泛化出识别复杂文本的能力。大量的实验证明了本发明专利技术的性能优于之前的方法,能够以较少的模型参数量和较快的推理速度对困难文本图像进行准确地识别。

【技术实现步骤摘要】

本专利技术涉及场景文本识别,尤其涉及一种半监督场景文本识别方法、系统、设备及存储介质


技术介绍

1、场景文本识别算法旨在从裁剪后的文本图像中识别出文本内容,并将其转化为计算机可读的字符串序列。场景文本识别作为一项基础任务,可以为理解自然场景提供辅助信息,在金融系统、自动驾驶和虚拟现实等领域中有着广泛的应用。

2、由于有标注图像数据难以获取,目前大多数基于深度学习的场景文本识别算法都使用合成数据集训练,然而,合成数据集中的文本图像几乎都是简单的样本,即字符风格比较规律、背景单一,导致在这些数据上训练的模型难以在复杂的真实场景中有不错的表现,尤其是对于艺术字和具有严重形变的字符难以正确识别。

3、由于无标注的真实场景文本数据容易获取,一些场景文本识别方法采用大规模无标注图像数据预训练的方法,或者使用半监督学习模型来同时使用无标注和有标注图像数据来提高模型的识别精度,但是只是简单的引入更多的无标注图像数据而忽略了字符形态特征,导致这些方法在困难的场景下依旧难以取得不错的性能。

4、有鉴于此,特提出本专利技术。


...

【技术保护点】

1.一种半监督场景文本识别方法,其特征在于,包括:

2.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述学生模型包括:学生编码器、学生解码器、投影层、学生线性层与学生分类器;

3.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述教师模型包括:教师编码器、教师解码器、教师线性层与教师分类器;

4.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述根据有标注图像数据的标签生成字符方向统一,且字符风格多样的新图像样本包括:

5.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,还包括:训练所...

【技术特征摘要】

1.一种半监督场景文本识别方法,其特征在于,包括:

2.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述学生模型包括:学生编码器、学生解码器、投影层、学生线性层与学生分类器;

3.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述教师模型包括:教师编码器、教师解码器、教师线性层与教师分类器;

4.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述根据有标注图像数据的标签生成字符方向统一,且字符风格多样的新图像样本包括:

5.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,还包括:训练所述半监督场景文本识别模型时,对图像数据进行增广操作...

【专利技术属性】
技术研发人员:谢洪涛屈亚东张勇东王裕鑫
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1