场景文本识别方法、系统、设备及存储介质技术方案

技术编号：39429927 阅读：12 留言：0更新日期：2023-11-19 16:15

本发明专利技术公开了一种场景文本识别方法、系统、设备及存储介质，它们是一一对应的方案，方案中：从文本图像天然包含文本序列的阅读顺序和序列中每一个字符的视觉语义概念特性出发，在预训练阶段中实现对视觉空间中文本序列阅读顺序的感知和建模，并进一步地增强了局部的字符视觉语义。通过大量的实验证明了本发明专利技术性能优于以往的方法，对于规则，不规则文本以及模糊遮挡等多种真实场景下的文本图像均具备鲁棒的识别效果和先进的识别精度。鲁棒的识别效果和先进的识别精度。鲁棒的识别效果和先进的识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
场景文本识别方法、系统、设备及存储介质

[0001]本专利技术涉及场景文本识别
，尤其涉及一种场景文本识别方法、系统、设备及存储介质。

技术介绍

[0002]场景文本识别是从多种自然场景图像的裁剪区域中读取文本，一般为读取单词级别的文本。场景文本识别是光符字符识别（Optical Character Recognition，OCR）领域中的一项基础且关键的任务，对于文档图像理解、自动驾驶、信息抽取等领域有着重要的价值和作用。
[0003]传统的场景文本识别技术以监督学习的方式在带有标签的合成数据上进行端到端的训练。近年来随着深度学习领域自监督预训练技术的快速发展，越来越多的场景文本识别模型探索如何设计自监督预训练任务来挖掘无标记真实数据上的潜在知识，以提升模型在场景文本识别任务中的精度和鲁棒性。目前场景文本识别中常见的自监督预训练技术主要依赖于对比学习、掩膜图像建模或者是两者的集成。尽管这些方法都取得了一定的成功，但是目前大部分针对场景文本识别的自监督预训练技术是对通用图像分类中的自监督预训练技术的迁移应用，并没有考虑文本图像的特殊性，因此，识别精度还有待提升。

技术实现思路

[0004]本专利技术的目的是提供一种场景文本识别方法、系统、设备及存储介质，对于规则，不规则文本以及模糊遮挡等多种真实场景下的文本图像均具备鲁棒的识别效果和先进的识别精度。
[0005]本专利技术的目的是通过以下技术方案实现的：一种场景文本识别方法，包括：构建包含视觉编码器与图像解码器的多方向重建模型，并...

【技术保护点】

【技术特征摘要】
1.一种场景文本识别方法，其特征在于，包括：构建包含视觉编码器与图像解码器的多方向重建模型，并进行预训练：对原始文本图像进行处理，获得不同方向的翻转图像，将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器，获得对应的特征表达；将设置的方向提示向量与特征表达输入至图像解码器，获得重建图像，包括重建的原始文本图像与重建的不同方向的翻转图像，结合重建图像的重建效果优化多方向重建模型；利用预训练后多方向重建模型中的视觉编码器与文本解码器建立场景文本识别模型，并使用带有标注的文本图像对所述场景文本识别模型进行微调训练；利用微调训练后的场景文本识别模型对输入的文本图像进行文本识别，获得相应文本内容。2.根据权利要求1所述的一种场景文本识别方法，其特征在于，所述对原始文本图像进行处理，获得不同方向的翻转图像包括：对原始文本图像进行水平翻转操作与垂直翻转操作，获得水平翻转图像以及垂直翻转图像。3.根据权利要求1或2所述的一种场景文本识别方法，其特征在于，所述将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器包括：所述不同方向的翻转图像包括：水平翻转图像以及垂直翻转图像；水平翻转图像与原始文本图像叠加后称为水平方向叠加图像，垂直翻转图像与原始文本图像叠加后称为垂直方向叠加图像；以设定的概率随机选择水平方向叠加图像与垂直方向叠加图像作为视觉编码器的输入。4.根据权利要求1或3所述的一种场景文本识别方法，其特征在于，获得对应的特征表达的过程表示为：；其中，为视觉编码器Enc的输入，为对应的特征表达；R为实数集符号；W与H分别为原始文本图像的宽度与高度；与表示视觉编码器Enc中划分窗口的宽度与高度，表示视觉编码器输出的特征维度大小。5.根据权利要求1所述的一种场景文本识别方法，其特征在于，所述设置的方向提示向量包括：正向提示向量与反向的可学习提示向量；其中，正向提示向量用于指导图像解码器重建原始文本图像，反向的可学习提示向量用于指导图像解码器重建不同方向的翻转图像。6.根据权利要求1或5所述的一种场景文本识别方法，其特征在于，所述将设置的方向提示向量与特征表达输入至图像解码器，获得重建图像包括：当视觉编码器的...

【专利技术属性】
技术研发人员：张勇东，高钻，谢洪涛，王裕鑫，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人