感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法技术

技术编号:38753105 阅读:10 留言:0更新日期:2023-09-10 09:37
本发明专利技术涉及一种感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率重建的方法,其中,该方法包括:采集真实世界文本图像超分辨率的数据集,并对其进行相应的预处理操作;构建超分辨率分支将输入的低分辨率图像重建为清晰的超分辨率图像;构建文本识别分支从低分辨率图像中提取视觉特征和文本特征构建图像

【技术实现步骤摘要】
感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法


[0001]本专利技术涉及数字图像
,尤其涉及计算机视觉
,具体是指一种感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法。

技术介绍

[0002]图像超分辨率重建是计算机视觉领域中的一个重要研究方向,旨在从低分辨率图像中重建出含有清晰细节特征的高分辨图像。文本图像超分辨率(scene text image super

resolution,STISR)是图像超分辨率领域中的一个重要分支。文本图像超分辨针对低分辨文本图像进行重建,提升图像分辨率和视觉质量,将原本模糊、难以辨认的字符恢复为清晰的文本。目前,主流的文本识别网络在识别高分辨率文本图像时能获得较高的识别率,但在处理低分辨率的模糊文本图像时识别率较低,利用超分辨率技术对文本图像进行预处理,可以有效提升文本识别任务的准确率。
[0003]近年来,得益于深度学习技术的快速发展,图像超分辨率恢复技术的研究也不断取得突破,通过深度神经网络实现的超分辨率模型也已成为超分辨技术研究的主流方法。超分辨率技术日渐成熟,在自然图像上已经有很好的研究成果,但在处理真实世界的文本图像时,仍面临较大挑战。一方面,由于文本图像因为扭曲、遮挡、定向模糊、杂乱的背景以及不同的视角等因素的影响,并且文本本身也存在不同字体、不同字号以及不同颜色的情况,导致常规的超分辨率方法对文本图像的处理效果不佳。另一方面,与利用双三次下采样等方式得到的低分辨率图像相比,真实世界采集的低分辨率图像退化更加严重复杂,而人为设计的退化方式不能很好地模拟真实世界的情况。因此,真实世界的文本图像超分辨任务难度更大。
[0004]目前,不少研究者开始关注真实世界的文本图像超分辨率方法。例如,Wang等人提出首个真实世界的文本图像超分辨率数据集TextZoom,并提出由序列化残差模块构成的基准模型TSRN,该数据集和模型的提出,很大程度上推动了STISR研究进展。Fang等人引入判别器,防止超分辨网络生成过于平滑的图像,同时利用三元注意力模块,提升特征表达能力,并使网络对特征的不同位置有不同的关注度。Ma等人利用文本识别网络,提取文本先验信息,指导超分辨重建过程。同时,采用迭代方式不断优化提取地文本特征。Chen等人设计了像素级的监督模块,有效恢复文本图像的颜色和轮廓。同时,利用笔画关注模块,突出笔画区域的细节。目前的方法中,均未充分提取文本图像中的重要特征,也未考虑在频域学习特征,超分辨率重建的性能仍有进步空间。

技术实现思路

[0005]本专利技术的目的是针对上述方法的不足,提出了一种感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法。
[0006]为了实现上述目的,本专利技术的感知多重特征的双分支网络实现针对真实世界文本
图像的超分辨率的方法如下:
[0007]该感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法,其主要特点是,所述的方法包括以下步骤:
[0008](1)采集真实世界文本图像超分辨率的数据集,并对低分辨率图像和高分辨率图像进行预处理操作;
[0009](2)构建双分支网络:超分辨率分支将输入的低分辨率图像重建为清晰的超分辨率图像,文本识别分支从所述的低分辨率图像中提取视觉特征和文本特征,指导超分辨率任务;
[0010](3)构建图像

图像融合模块:将所述的文本识别分支中ResNet的浅层、深层特征与所述的超分辨率分支中的图像特征进行融合,加强视觉特征;
[0011](4)构建频率

空间感知模块:利用频域分支和时域分支,分别在频域和时域学习相应的特征;
[0012](5)构建文本

图像融合模块:将所述的文本识别分支中位于位置注意力模块处的上下文特征与所述的超分辨率分支中的图像特征进行融合,辅助超分辨率分支感知文本的序列信息;
[0013](6)采用图像重建损失和文本识别损失,训练、优化所述的双分支网络。
[0014]较佳地,所述的步骤(1)具体为:
[0015]将原始的高分辨率图像缩放为32
×
128pt,低分辨图像缩放为16
×
64pt,得到训练以及测试的图像。
[0016]较佳地,所述的步骤(2)具体包括以下步骤:
[0017](2.1)采用如下方式进行超分辨率分支的处理:
[0018]输入低分辨率LR图像及其掩码图像,构建空间变换网络将低分辨率LR图像和高分辨率HR图像进行对齐,再将对齐的LR特征图输入到一个卷积层,提取浅层特征,进而利用堆叠的5个多重特征增强模块提取深层特征,最后将相应的特征输入到图像重建模块,输出超分辨率SR图像;
[0019](2.2)采用如下方式进行文本识别分支的处理:
[0020]输入上采样后的低分辨率LR图像构建视觉提取器,提取视觉特征,再将对应的图像输入到位置注意力模块,对视觉特征进行序列建模,提取文本特征,最后将提取出的文本特征输入到全连接层和线性层,输出字符序列。
[0021]较佳地,所述的步骤(2.1)具体包括以下步骤:
[0022](2.1.1)给定LR图像计算平均灰度值作为阈值生成二值掩码图像计算平均灰度值作为阈值生成二值掩码图像并将其与所述的LR图像I
LR
进行拼接,得到4通道的输入图像其中,H和W分别为输入图像的高和宽;
[0023](2.1.2)构建空间变换网络,利用可学习的仿射变换,将所述的LR图像和HR图像进行对齐;
[0024](2.1.3)利用一个9
×
9卷积层,从对齐后的LR图像中提取浅层特征F
s

[0025](2.1.4)构建5个堆叠的多重特征增强模块,并从所述的浅层特征F
s
中提取深层特征F
d
,其中,所述的多重特征增强模块包括图像

图像融合模块、频率

空间感知模块、文本

图像融合模块和双向门控循环单元,并将第5个多重特征增强模块输出的深度特征记作F
d

[0026](2.1.5)构建图像重建模块:由1个像素重组层、1个9
×
9卷积层和激活层构成;输入所述的深度特征F
d
,重建出超分辨率SR图像
[0027]较佳地,所述的步骤(2.2)具体包括以下步骤:
[0028](2.2.1)将所述的LR图像进行双三次上采样处理构建视觉提取器,得到特征其中,Bic表示双三次上采样,H,W分别表示图像的高度、宽度;
[0029](2.2.2)所述的视觉特征提取器由ResNet和2个Transformer模块组成,从特征(2.2.2)所述的视觉特征提取器由ResNet和2个Transformer模块组成,从特征中提取视觉特征...

【技术保护点】

【技术特征摘要】
1.一种感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法,其特征在于,所述的方法包括以下步骤:(1)采集真实世界文本图像超分辨率的数据集,并对低分辨率图像和高分辨率图像进行预处理操作;(2)构建双分支网络:超分辨率分支将输入的低分辨率图像重建为清晰的超分辨率图像,文本识别分支从所述的低分辨率图像中提取视觉特征和文本特征,指导超分辨率任务;(3)构建图像

图像融合模块:将所述的文本识别分支中ResNet的浅层、深层特征与所述的超分辨率分支中的图像特征进行融合,加强视觉特征;(4)构建频率

空间感知模块:利用频域分支和时域分支,分别在频域和时域学习相应的特征;(5)构建文本

图像融合模块:将所述的文本识别分支中位于位置注意力模块处的上下文特征与所述的超分辨率分支中的图像特征进行融合,辅助超分辨率分支感知文本的序列信息;(6)采用图像重建损失和文本识别损失,训练、优化所述的双分支网络。2.根据权利要求1所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法,其特征在于,所述的步骤(1)具体为:将原始的高分辨率图像缩放为32
×
128pt,低分辨图像缩放为16
×
64pt,得到训练以及测试的图像。3.根据权利要求2所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法,其特征在于,所述的步骤(2)具体包括以下步骤:(2.1)采用如下方式进行超分辨率分支的处理:输入低分辨率LR图像及其掩码图像,构建空间变换网络将低分辨率LR图像和高分辨率HR图像进行对齐,再将对齐的LR特征图输入到一个卷积层,提取浅层特征,进而利用堆叠的5个多重特征增强模块提取深层特征,最后将相应的特征输入到图像重建模块,输出超分辨率SR图像;(2.2)采用如下方式进行文本识别分支的处理:输入上采样后的低分辨率LR图像构建视觉提取器,提取视觉特征,再将对应的图像输入到位置注意力模块,对视觉特征进行序列建模,提取文本特征,最后将提取出的文本特征输入到全连接层和线性层,输出字符序列。4.根据权利要求3所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法,其特征在于,所述的步骤(2.1)具体包括以下步骤:(2.1.1)给定LR图像计算平均灰度值作为阈值生成二值掩码图像计算平均灰度值作为阈值生成二值掩码图像并将其与所述的LR图像I
LR
进行拼接,得到4通道的输入图像其中,H和W分别为输入图像的高和宽;(2.1.2)构建空间变换网络,利用可学习的仿射变换,将所述的LR图像和HR图像进行对齐;(2.1.3)利用一个9
×
9卷积层,从对齐后的LR图像中提取浅层特征F
s
;(2.1.4)构建5个堆叠的多重特征增强模块,并从所述的浅层特征F
s
中提取深层特征F
d

其中,所述的多重特征增强模块包括图像

图像融合模块、频率

空间感知模块、文本

图像融合模块和双向门控循环单元,并将第5个多重特征增强模块输出的深度特征记作F
d
;(2.1.5)构建图像重建模块:由1个像素重组层、1个9
×
9卷积层和激活层构成;输入所述的深度特征F
d
,重建出超分辨率SR图像5.根据权利要求3所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法,其特征在于,所述的步骤(2.2)具体包括以下步骤:(2.2.1)将所述的LR图像进行双三次上采样处理构建视觉提取器,得到特征其中,Bic表示双三次上采样,H,W分别表示图像的高度、宽度;(2.2.2)所述的视觉特征提取器由ResNet和2个Transformer模块组成,从特征(2.2.2)所述的视觉特征提取器由ResNet和2个Transformer模块组成,从特征中提取视觉特征(2.2.3)位置注意力模块基于Attention机制,对所述的视觉特征V
F
进行序列建模,提取文本特征(2.2.4)将所述的文本特征T输入到全连接层和softmax层,输出字符序列其中,C

表示字符的类别数。6.根据权利要求3所述的感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法,其特征在于,所述的步骤(3)具体包括以下步骤:(3.1)将4个经过所述的ResNet进行特征处理的输出特征图记作{F2,F3,F4,F5{,其中,超分辨分支的特征图记作(3.2)利用反卷积将特征图F3,F4,F5转换为与所述的超分辨率分支中的特征图I分辨率相同的特征图D3,D4,D5,其中,特征图F2经过恒等映射作为D2;(3.3)对{D2,D3,D4,D5}取均值后,再将其与特征图I在通道维度上拼接,得到特征}取均值后,再将其与特征图I在通道维度上拼接,得到特征(3.4)利用轻量级的通道注意力自适应分配特征P的通道权重,再经过3
×
3卷积层,将通道数2C降为C,所述的图像

图像融合模块最终输出特征图7.根据权利要求6所述的感知多重特征的双分支网络实现针对...

【专利技术属性】
技术研发人员:朱煜施秦汪楠凌小峰叶炯耀
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1