【技术实现步骤摘要】
本专利技术涉及场景文本识别,尤其涉及一种半监督场景文本识别方法、系统、设备及存储介质。
技术介绍
1、场景文本识别算法旨在从裁剪后的文本图像中识别出文本内容,并将其转化为计算机可读的字符串序列。场景文本识别作为一项基础任务,可以为理解自然场景提供辅助信息,在金融系统、自动驾驶和虚拟现实等领域中有着广泛的应用。
2、由于有标注图像数据难以获取,目前大多数基于深度学习的场景文本识别算法都使用合成数据集训练,然而,合成数据集中的文本图像几乎都是简单的样本,即字符风格比较规律、背景单一,导致在这些数据上训练的模型难以在复杂的真实场景中有不错的表现,尤其是对于艺术字和具有严重形变的字符难以正确识别。
3、由于无标注的真实场景文本数据容易获取,一些场景文本识别方法采用大规模无标注图像数据预训练的方法,或者使用半监督学习模型来同时使用无标注和有标注图像数据来提高模型的识别精度,但是只是简单的引入更多的无标注图像数据而忽略了字符形态特征,导致这些方法在困难的场景下依旧难以取得不错的性能。
4、有鉴于此,特提出本专利技
【技术保护点】
1.一种半监督场景文本识别方法,其特征在于,包括:
2.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述学生模型包括:学生编码器、学生解码器、投影层、学生线性层与学生分类器;
3.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述教师模型包括:教师编码器、教师解码器、教师线性层与教师分类器;
4.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述根据有标注图像数据的标签生成字符方向统一,且字符风格多样的新图像样本包括:
5.根据权利要求1所述的一种半监督场景文本识别方法,其特征
...【技术特征摘要】
1.一种半监督场景文本识别方法,其特征在于,包括:
2.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述学生模型包括:学生编码器、学生解码器、投影层、学生线性层与学生分类器;
3.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述教师模型包括:教师编码器、教师解码器、教师线性层与教师分类器;
4.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,所述根据有标注图像数据的标签生成字符方向统一,且字符风格多样的新图像样本包括:
5.根据权利要求1所述的一种半监督场景文本识别方法,其特征在于,还包括:训练所述半监督场景文本识别模型时,对图像数据进行增广操作...
【专利技术属性】
技术研发人员:谢洪涛,屈亚东,张勇东,王裕鑫,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。