System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种具有语义引导的高效场景文本图像超分辨率方法,属于计算机图像处理领域。
技术介绍
1、场景文本图像超分辨率(stisr)技术,其核心目标是显著提升从现实场景中捕获的文本图像的分辨率与清晰度。随着低光照或运动模糊条件下捕获的低分辨率场景文本图像数量的急剧增加,stisr技术已成为研究领域的热点。作为文本识别流程中不可或缺的预处理步骤,stisr对于后续的场景文本识别、文档深度分析以及文本信息的精准提取与解析具有举足轻重的意义。其重要性不仅体现在提高识别准确率上,更在于它能够大幅优化整个文本处理流程的效率与性能。
2、近年来,随着对场景文本图像质量提升需求的日益增长,研究者们提出了多种方法来优化str(场景文本识别)的性能。一些方法直接运用了单一图像超分辨率模型作为文本图像重建的基线,显著提升了图像的分辨率。然而,这些传统的单一图像超分辨率模型在处理时通常将场景文本图像视作一般对象,忽视了文本特有的属性和结构。为了克服这一局限性,后续的研究开始引入文本先验信息来指导场景文本图像的重建过程。其中,一些方法利用字符概率序列来更有效地恢复文本字符的细节。有些方法则通过确保恢复的规则文本与变形文本之间的结构一致性,进一步提升了文本结构的清晰度。
3、尽管这些方法在性能上取得了显著的进步,但它们也存在一些不容忽视的局限性。这些方法往往依赖于复杂的网络结构,并且可能需要广泛的预训练模型提供的先验知识,这在一定程度上限制了它们在资源受限设备上的应用。此外,由于推理过程中涉及的参数众多且计算复杂度较高,这些s
技术实现思路
1、本专利技术为了克服现有技术的不足,提供了一种具有语义引导的高效场景文本图像超分辨率方法。本专利技术在实现出色性能的同时,显著降低了参数数量和计算复杂度。本专利技术的输入为低分辨率场景文本图像,输出高分辨率场景文本图像。本专利技术先构建融合了超分辨率分支与语义引导分支,然后将图像分别输入两个分支,获得图像特征和文本特征分布进行融合,最后输入到顺序残差块,以像素重组的方式生成高分辨文本图像。
2、本专利技术的技术方案具体介绍如下。
3、一种具有语义引导的高效场景文本图像超分辨率方法,场景文本图像基于超分辨率分支阶段模型和语义引导分支阶段模型进行超分辨率,超分辨率分支阶段模型由cnn编码器和特征融合模块组成,语义引导分支阶段模型由文本识别模型和视觉-语义对齐模块组成;包括以下步骤:
4、步骤一、对图像进行预处理;
5、步骤二、以低分辨率场景文本图像作为超分辨率分支阶段模型的输入,用cnn编码器从文本图像中提取重要的视觉特征fs,然后输入到特征融合模块来融合视觉特征fs和高级指导信息hg,以重建高分辨率场景文本图像;其中:高级指导信息hg通过下述方法获得:
6、以低分辨率场景文本图像作为语义引导分支阶段模型的输入,用预训练好的文本识别模型从文本图像中提取重要的文本分布特征并进行自注意力计算,得到丰富的语义特征ht,然后将语义特征ht与超分辨率分支模型中用cnn编码器提取的视觉特征fs输入到由自注意力和交叉注意力机制组成的视觉-语义对齐模块中,通过交叉注意力机制实现对齐,获得高级指导信息hg。
7、本专利技术中,特征融合模块中,cnn编码器提取的视觉特征fs和视觉-语义对齐模块输出的高级指导信息hg首先通过三个并行的1×1卷积连接起来并生成不同的特征fs1、fs2和fs3,然后对fs1进行通道注意力操作,得到注意力分数,并将该分数与fs2相乘,生成通道注意力特征,将其与fs3相加得到融合后的特征f;如公式(1):
8、
9、其中ca表示通道注意机制。
10、本专利技术中,步骤二中,特征融合模块融合后的特征f输入到顺序残差块,以构建更深层次的残差依赖关系后,通过像素重组生成超分辨率图像;其中:顺序残差块由cnn编码器和双向长短记忆机制blstm组成,顺序残差块的输入为特征图,通过cnn编码器提取特征,然后对特征图进行排列和调整大小,然后通过blstm传播误差微分,并将特征图反转为特征序列,最后反馈到卷积层。
11、本专利技术中,顺序残差块的数量为2。
12、本专利技术中,文本识别模型采用svtr模型。由于svtr采用了单一视觉模型的设计,因此整个识别过程更加简洁和高效,适用于各种场景文本识别任务。
13、本专利技术中,视觉-语义对齐模块包含一个自注意力层和两个交叉注意力层;对于第一个交叉注意力层,使用语义特征ht作为查询,视觉特征fs作为键和值来计算每个字符与图像中不同区域之间的关系,如公式(2)和公式(3):
14、h′i=ln(multihead(hi-1,fs,fs)+hi-1) (2)
15、hi=ln(mlp(h′i)+f′i) (3)
16、其中i表示第i个注意力层,初始的h0是语义特征ht,hi-1是前一个注意力层的输出;使用第一个交叉注意层的输出hca作为第二个交叉注意层的键,fs作为查询,ht作为值,让fs的每个元素都可以通过hca找到它应该关注的文本特征,通过第二个交叉注意力层对齐文本信息和视觉特征获得高级指导hg。
17、本专利技术中,采用三种不同类型的损失函数组合作为最终的损失函数l,如公式(4):
18、l=lrc+α1lre+α2lft (4)
19、其中lrc是采用均方误差损失在超分辨率分支中进行图像重建监督;识别损失lre是由位置感知损失lpos和内容感知损失lre组成,用于监督语言知识的学习;lft作为微调损失用于文本识别模型适应低分辨率输入,α1、α2是超参数;实施例中,α1=0.5,α2=0.01;lrc=mse(isr-ihr) (5)
20、其中,isr和ihr分别表示模型预测的超分图像和真实标签图像;
21、lpos=||ahr-asr||1
22、lcon=wce(psr,ylabel) (6)
23、lre=λposlpos+λconlcon
24、其中,ahr是给定的hr文本图像经过预训练好的文本识别模型输出的注意力图,asr是超分图像经过预训练好的文本识别模型输出的注意力图,wce表示加权交叉熵,psr是超分图像经过预训练好的文本识别模型预测出的字符概率分布,ylabel是数据集的每个文本图像对应的字符标签,λpos、λcon是超参数,实施例中,λpos=10,λcon=0.0005;
25、lft=ce(ppr,ylabel) (7)
26、其中,ce是交叉熵损失函数,ppr表示预训练文本识别模型预测的字符概率分布。
27、和现有技术相比,本专利技术的有益效果在于:
28、本专利技术提出本文档来自技高网...
【技术保护点】
1.一种具有语义引导的高效场景文本图像超分辨率方法,其特征在于,场景文本图像基于超分辨率分支阶段模型和语义引导分支阶段模型进行超分辨率,超分辨率分支阶段模型由CNN编码器和特征融合模块组成,语义引导分支阶段模型由文本识别模型和视觉-语义对齐模块组成;包括以下步骤:
2.根据权利要求1所述的高效场景文本图像超分辨率方法,其特征在于,步骤一中,预处理包括依次调整图像大小、对图像R、G、B三个通道的像素分别进行归一化的步骤。
3.根据权利要求1所述的高效场景文本图像超分辨率方法,其特征在于,特征融合模块中,CNN编码器提取的视觉特征fs和视觉-语义对齐模块输出的高级指导信息hg首先通过三个并行的1×1卷积连接起来并生成不同的特征fs1、fs2和fs3,然后对fs1进行通道注意力操作,得到注意力分数,并将该分数与fs2相乘,生成通道注意力特征,将其与fs3相加得到融合后的特征f;如公式(1):
4.根据权利要求3所述的高效场景文本图像超分辨率方法,其特征在于,步骤二中,特征融合模块融合后的特征输入到顺序残差块,以构建更深层次的残差依赖关系后,通过像素重
5.根据权利要求4所述的高效场景文本图像超分辨率方法,其特征在于,顺序残差块的数量为2。
6.根据权利要求1所述的高效场景文本图像超分辨率方法,其特征在于,文本识别模型采用SVTR模型。
7.根据权利要求1所述的高效场景文本图像超分辨率方法,其特征在于,视觉-语义对齐模块包含一个自注意力层和两个交叉注意力层;对于第一个交叉注意力层,使用语义特征ht作为查询,视觉特征fs作为键和值来计算每个字符与图像中不同区域之间的关系,如公式(2)和公式(3):
8.根据权利要求1所述的高效场景文本图像超分辨率方法,其特征在于,采用三种不同类型的损失函数组合作为最终的损失函数L,如公式(4):
...【技术特征摘要】
1.一种具有语义引导的高效场景文本图像超分辨率方法,其特征在于,场景文本图像基于超分辨率分支阶段模型和语义引导分支阶段模型进行超分辨率,超分辨率分支阶段模型由cnn编码器和特征融合模块组成,语义引导分支阶段模型由文本识别模型和视觉-语义对齐模块组成;包括以下步骤:
2.根据权利要求1所述的高效场景文本图像超分辨率方法,其特征在于,步骤一中,预处理包括依次调整图像大小、对图像r、g、b三个通道的像素分别进行归一化的步骤。
3.根据权利要求1所述的高效场景文本图像超分辨率方法,其特征在于,特征融合模块中,cnn编码器提取的视觉特征fs和视觉-语义对齐模块输出的高级指导信息hg首先通过三个并行的1×1卷积连接起来并生成不同的特征fs1、fs2和fs3,然后对fs1进行通道注意力操作,得到注意力分数,并将该分数与fs2相乘,生成通道注意力特征,将其与fs3相加得到融合后的特征f;如公式(1):
4.根据权利要求3所述的高效场景文本图像超分辨率方法,其特征在于,步骤二中,特征融合模块融合后的特征输...
【专利技术属性】
技术研发人员:刘思杰,杜响成,王卓曜,周钊,金城,郑莹斌,
申请(专利权)人:复旦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。