场景文本识别方法、系统、设备及存储介质技术方案

技术编号:39429927 阅读:12 留言:0更新日期:2023-11-19 16:15
本发明专利技术公开了一种场景文本识别方法、系统、设备及存储介质,它们是一一对应的方案,方案中:从文本图像天然包含文本序列的阅读顺序和序列中每一个字符的视觉语义概念特性出发,在预训练阶段中实现对视觉空间中文本序列阅读顺序的感知和建模,并进一步地增强了局部的字符视觉语义。通过大量的实验证明了本发明专利技术性能优于以往的方法,对于规则,不规则文本以及模糊遮挡等多种真实场景下的文本图像均具备鲁棒的识别效果和先进的识别精度。鲁棒的识别效果和先进的识别精度。鲁棒的识别效果和先进的识别精度。

【技术实现步骤摘要】
场景文本识别方法、系统、设备及存储介质


[0001]本专利技术涉及场景文本识别
,尤其涉及一种场景文本识别方法、系统、设备及存储介质。

技术介绍

[0002]场景文本识别是从多种自然场景图像的裁剪区域中读取文本,一般为读取单词级别的文本。场景文本识别是光符字符识别(Optical Character Recognition,OCR)领域中的一项基础且关键的任务,对于文档图像理解、自动驾驶、信息抽取等领域有着重要的价值和作用。
[0003]传统的场景文本识别技术以监督学习的方式在带有标签的合成数据上进行端到端的训练。近年来随着深度学习领域自监督预训练技术的快速发展,越来越多的场景文本识别模型探索如何设计自监督预训练任务来挖掘无标记真实数据上的潜在知识,以提升模型在场景文本识别任务中的精度和鲁棒性。目前场景文本识别中常见的自监督预训练技术主要依赖于对比学习、掩膜图像建模或者是两者的集成。尽管这些方法都取得了一定的成功,但是目前大部分针对场景文本识别的自监督预训练技术是对通用图像分类中的自监督预训练技术的迁移应用,并没有考虑文本图像的特殊性,因此,识别精度还有待提升。

技术实现思路

[0004]本专利技术的目的是提供一种场景文本识别方法、系统、设备及存储介质,对于规则,不规则文本以及模糊遮挡等多种真实场景下的文本图像均具备鲁棒的识别效果和先进的识别精度。
[0005]本专利技术的目的是通过以下技术方案实现的:一种场景文本识别方法,包括:构建包含视觉编码器与图像解码器的多方向重建模型,并进行预训练:对原始文本图像进行处理,获得不同方向的翻转图像,将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器,获得对应的特征表达;将设置的方向提示向量与特征表达输入至图像解码器,获得重建图像,包括重建的原始文本图像与重建的不同方向的翻转图像,结合重建图像的重建效果优化多方向重建模型;利用预训练后多方向重建模型中的视觉编码器与文本解码器建立场景文本识别模型,并使用带有标注的文本图像对所述场景文本识别模型进行微调训练;利用微调训练后的场景文本识别模型对输入的文本图像进行文本识别,获得相应文本内容。
[0006]一种场景文本识别系统,包括:模型构建与预训练单元,用于构建包含视觉编码器与图像解码器的多方向重建模型,并进行预训练:对原始文本图像进行处理,获得不同方向的翻转图像,将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器,获得对应的特征表达;将设置的方
向提示向量与特征表达输入至图像解码器,获得重建图像,包括重建的原始文本图像与重建的不同方向的翻转图像,结合重建图像的重建效果优化多方向重建模型;模型构建与微调单元,用于利用预训练后多方向重建模型中的视觉编码器与文本解码器建立场景文本识别模型,并使用带有标注的文本图像对所述场景文本识别模型进行微调训练;文本识别单元,用于利用微调训练后的场景文本识别模型对输入的文本图像进行文本识别,获得相应文本内容。
[0007]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0008]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0009]由上述本专利技术提供的技术方案可以看出,从文本图像天然包含文本序列的阅读顺序和序列中每一个字符的视觉语义概念特性出发,在预训练阶段中实现对视觉空间中文本序列阅读顺序的感知和建模,并进一步地增强了局部的字符视觉语义。总体来说,本专利技术的方案能够提升真实场景下的文本图像的识别精度。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0011]图1为本专利技术实施例提供的一种场景文本识别方法的流程图;图2为本专利技术实施例提供的预训练方案与微调方案的示意图;图3为本专利技术实施例提供的多方向重建可视化效果图;图4为本专利技术实施例提供的通用基准评估数据上的识别效果图;图5为本专利技术实施例提供的一种场景文本识别系统的示意图;图6为本专利技术实施例提供的一种处理设备的示意图。
具体实施方式
[0012]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0013]首先对本文中可能使用的术语进行如下说明:术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公
知的其它技术特征要素。
[0014]下面对本专利技术所提供的一种场景文本识别方法、系统、设备及存储介质进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本专利技术实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
[0015]实施例一本专利技术实施例提供一种场景文本识别方法,如图1所示,其主要包括如下步骤:步骤1、构建包含视觉编码器与图像解码器的多方向重建模型,并进行预训练。
[0016]预训练阶段中,对原始文本图像进行处理,获得不同方向的翻转图像,将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器,获得对应的特征表达;将设置的方向提示向量与特征表达输入至图像解码器,获得重建图像,包括重建的原始文本图像与重建的不同方向的翻转图像,结合重建图像的重建效果优化多方向重建模型,直至模型收敛。
[0017]本专利技术实施例中,主要考虑水平与垂直两个方向,对原始文本图像进行水平翻转操作与垂直翻转操作,可获得水平翻转图像(又称为阅读顺序翻转图像)以及垂直翻转图像。
[0018]将原始文本图像和水平翻转图像叠加以构建水平方向叠加图像(又称为阅读顺序叠加图像),通过视觉编码器将阅读顺序叠加图像映射到潜在特征空间中,获得对应的特征表达。并且,通过一对方向提示向量来指导图像解码器对特征表达进行图像重建,具体的,按照从左向右阅读顺序、以及从右向左阅读顺序分别对应的重建出原始文本图像、水平翻转图像。
[0019]同样的,将原始文本图像和垂直翻转图像叠加以构建垂直方向叠加图像(又称为语义叠加图像),通过视觉编码器将语义叠加图像映射到潜在特征空间中,获得对应的特征表达。并且,通过一对方向提示向量来指导图像解码器对特征表达进行图像重建,具体的按照从上本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场景文本识别方法,其特征在于,包括:构建包含视觉编码器与图像解码器的多方向重建模型,并进行预训练:对原始文本图像进行处理,获得不同方向的翻转图像,将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器,获得对应的特征表达;将设置的方向提示向量与特征表达输入至图像解码器,获得重建图像,包括重建的原始文本图像与重建的不同方向的翻转图像,结合重建图像的重建效果优化多方向重建模型;利用预训练后多方向重建模型中的视觉编码器与文本解码器建立场景文本识别模型,并使用带有标注的文本图像对所述场景文本识别模型进行微调训练;利用微调训练后的场景文本识别模型对输入的文本图像进行文本识别,获得相应文本内容。2.根据权利要求1所述的一种场景文本识别方法,其特征在于,所述对原始文本图像进行处理,获得不同方向的翻转图像包括:对原始文本图像进行水平翻转操作与垂直翻转操作,获得水平翻转图像以及垂直翻转图像。3.根据权利要求1或2所述的一种场景文本识别方法,其特征在于,所述将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器包括:所述不同方向的翻转图像包括:水平翻转图像以及垂直翻转图像;水平翻转图像与原始文本图像叠加后称为水平方向叠加图像,垂直翻转图像与原始文本图像叠加后称为垂直方向叠加图像;以设定的概率随机选择水平方向叠加图像与垂直方向叠加图像作为视觉编码器的输入。4.根据权利要求1或3所述的一种场景文本识别方法,其特征在于,获得对应的特征表达的过程表示为:;其中,为视觉编码器Enc的输入,为对应的特征表达;R为实数集符号;W与H分别为原始文本图像的宽度与高度;与表示视觉编码器Enc中划分窗口的宽度与高度,表示视觉编码器输出的特征维度大小。5.根据权利要求1所述的一种场景文本识别方法,其特征在于,所述设置的方向提示向量包括:正向提示向量与反向的可学习提示向量;其中,正向提示向量用于指导图像解码器重建原始文本图像,反向的可学习提示向量用于指导图像解码器重建不同方向的翻转图像。6.根据权利要求1或5所述的一种场景文本识别方法,其特征在于,所述将设置的方向提示向量与特征表达输入至图像解码器,获得重建图像包括:当视觉编码器的...

【专利技术属性】
技术研发人员:张勇东高钻谢洪涛王裕鑫
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1