一种基于文本感知损失的注意力文本超分辨率方法技术

技术编号:36692939 阅读:30 留言:0更新日期:2023-02-27 20:02
本发明专利技术涉及一种基于文本感知损失的注意力文本超分辨率方法,包括输入RGB文本图片,计算灰度形式的平均值,获取二进制单通道分割掩码,并将该二进制单通道掩码与三通道文本图片进行通道连接,结果输入至文本超分辨网络中,对输入的图片做像素级校正,校正后的图片输入到包含两个正交方向的Gru模型、通道注意力、空间注意力用于细化特征的基本块中,将基本块输出的超分辨率图片和其对应的高分辨率图计算获得MSE损失函数、SFM损失函数作为总的损失函数进行反向梯度传播,并最终输出三通道的超分辨率图片。本发明专利技术关注到了利用注意力细化混合特征,同时考虑到了对于识别特征和语义分割特征的利用,取得了相比此前模型更优秀的性能。取得了相比此前模型更优秀的性能。取得了相比此前模型更优秀的性能。

【技术实现步骤摘要】
一种基于文本感知损失的注意力文本超分辨率方法


[0001]本专利技术涉及图像处理
,具体涉及一种基于文本感知损失的注意力文本超分辨率方法。

技术介绍

[0002]场景文本超分辨率是以给定的低分辨率图片作为输入,通过深度神经网络得到更高分辨率的场景文本图片。该任务与一般的图片超分辨率任务相比,主要用于配合场景文本识别和场景文本检测算法以提升这两种方法的性能。因此,场景文本超分辨率技术已发展成为光学字符识别(OCR)任务的关键组成部分。
[0003]超分辨率目的在于输出与给定低分辨率图像一致的合理高分辨率图像,传统方法,如双线性、双三次,利用了相邻像素通常呈现相似颜色的想法,并根据预定义公式通过在相邻像素的颜色之间插值来生成输出。而在深度学习时代,超分辨率被视为回归问题,其中输入是低分辨率图像,目标输出是高分辨率图像,在输入和目标输出对上训练深度神经网络,以最小化预测和GT之间的距离度量。这些工作主要是在合成数据集上进行的,即其中的低分辨率图像通常由下采样插值或高斯模糊滤波器生成,而在最近的针对场景文本超分辨率的工作中提出了一个新的数据集TextZoom,它填补了真实场景下文本超分辨率数据集的不足,此后,针对场景文本超分辨率的工作也逐渐多了起来。
[0004]最早针对真实场景下场景文本超分辨率的工作发表于2020年的ECCV《Scene Text Image Super

Resolution in the Wild》,该方法采用TextZoom进行训练和测试,并引入了TPS/>‑
align模块用于解决低分辨率图片和高分辨率图片之间的像素不对齐问题,同时沿用了SRResNet的基础结构,使用了5个顺序的基本块作为网络的基础结构,并在基本块中加入了两个正交方向的Gru用于建模两个正交方向的上下文特征。由于该模型是第一个针对场景文本任务的模型,因此其性能在当时也是取得了最优的,并且该网络也成为了场景文本超分辨率任务中一个经典的基础结构,在其之后的相关工作都是在该结构的基础上进行的相关改进,以获得更优秀性能的模型。

技术实现思路

[0005]本专利技术的目的是提供一种基于文本感知损失的注意力文本超分辨率方法,以获得更有性能的超分辨率图像。
[0006]为达到上述目的,本专利技术采用的技术方案是:
[0007]一种基于文本感知损失的注意力文本超分辨率方法,包括:
[0008]S1:输入三通道RGB文本图片,并计算该文本图片的灰度形式的平均值,
[0009]S2:获取该文本图片的二进制单通道分割掩码,并将该二进制单通道掩码与三通道RGB文本图片进行通道连接,并将结果输入至文本超分辨网络中,
[0010]S3:对输入的图片做像素级校正,
[0011]S4:校正后的图片输入到基本块中,该基本块包含两个正交方向的Gru模型、通道
注意力、空间注意力用于细化特征,
[0012]S5:将基本块输出的超分辨率图片和其对应的高分辨率图计算获得MSE损失函数、SFM损失函数作为总的损失函数进行反向梯度传播,并最终输出三通道的超分辨率图片。
[0013]上述技术方案优选地,在S2中,创建一个单通道张量,根据S1中的平均值对该单通道张量赋值,大于该平均值的灰度值设置为255,小于该平均值的灰度值设置为0,获取该文本图片的二进制单通道分割掩码。
[0014]上述技术方案优选地,在S2中,通过基于阈值的语义分割方法获取二进制单通道分割掩码。
[0015]上述技术方案优选地,在S2中,通过计算平均值的方法将文本图片划分成文字、背景两个部分,将二进制单通道掩码与文本图片进行通道连接。
[0016]上述技术方案优选地,使用TPS

align模块对输入的图片做像素级校正。
[0017]上述技术方案优选地,在S4中,在基本块中,先通过两个正交方向的Gru模型产生上下文信息感知的特征,再通过通道注意力、空间注意力细化特征关注超分辨率所需要的高频信息。
[0018]进一步优选地,上下文信息感知的特征为:
[0019][0020][0021]其中:Ht表示Gru中的隐藏层,t1,t2分别表示水平方向和垂直方向的循环连接,X
t
表示输入特征,φ表示Gru定义的矩阵运算。
[0022]进一步优选地,通道注意力、空间注意力的方法为:
[0023][0024][0025]其中:F表示输入特征,Mc表示通道注意力,σ表示Sigmoid函数,MLP表示多层感知机制,AvgPool表示平均池化,MaxPool表示最大池化,Ms表示空间注意力,f表示卷积运算。
[0026]进一步优选地,在S5中,使用预训练好的场景文字识别模型CRNN作为判别器,超分辨率图片和高分辨率图片分别作为该判别器的输入以得到二者对应的语义特征,两个特征之间的差值通过L1损失函数计算获得所求的感知损失函数。
[0027]进一步优选地,在S5中,使用由成对低分辨率

高分辨率图片对组成的数据集TextZoom做训练和测试数据集。
[0028]由于上述技术方案运用,本专利技术与现有技术相比具有下列优点:
[0029]本专利技术通过生成分割掩码从而将语义分割信息引入到场景文字超分辨率模型中,并考虑到了利用注意力机制细化双向Gru输出的上下文特征以使模型更加关注该任务所需要的高频信息,结合预训练好的识别模型来计算感知损失函数以将识别模型的语义信息引入到场景文字超分辨率模型中,取得了相比此前模型更优秀的性能。
附图说明
[0030]附图1为本专利技术方法的流程示意图;
[0031]附图2a、2b为本专利技术方法的分割效果对比图;
[0032]附图3为本专利技术方法基本块的框架示意图;
[0033]附图4为本专利技术方法的通道注意力结构;
[0034]附图5为本专利技术方法的空间注意力结构。
具体实施方式
[0035]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]如图1、2所示的一种基于文本感知损失的注意力文本超分辨率方法,其考虑到了利用语义分割信息,注意力机制以及感知损失来优化场景文字超分辨率模型。具体包括以下步骤:
[0037]输入三通道RGB文本图片,并计算该文本图片的灰度形式的平均值,创建一个单通道张量,根据S1中的平均值对该单通道张量赋值,针对RGB文本图片的灰度形式,大于该平均值的灰度值设置为255,小于该平均值的灰度值设置为0,这样做的目的是为了获得一个单通道的文本图片“非0即1”二进制分割掩码,并将该二进制单通道掩码与三通道RGB文本图片进行通道连接以利用原图片的语义分割信息。
[0038]引入语义分割信息能本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于文本感知损失的注意力文本超分辨率方法,其特征在于:包括:S1:输入三通道RGB文本图片,并计算该文本图片的灰度形式的平均值,S2:获取该文本图片的二进制单通道分割掩码,并将该二进制单通道掩码与三通道RGB文本图片进行通道连接,并将结果输入至文本超分辨网络中,S3:对输入的图片做像素级校正,S4:校正后的图片输入到基本块中,该基本块包含两个正交方向的Gru模型、通道注意力、空间注意力用于细化特征,S5:将基本块输出的超分辨率图片和其对应的高分辨率图计算获得MSE损失函数、SFM损失函数作为总的损失函数进行反向梯度传播,并最终输出三通道的超分辨率图片。2.根据权利要求1所述的基于文本感知损失的注意力文本超分辨率方法,其特征在于:在S2中,创建一个单通道张量,根据S1中的平均值对该单通道张量赋值,大于该平均值的灰度值设置为255,小于该平均值的灰度值设置为0,获取该文本图片的二进制单通道分割掩码。3.根据权利要求1所述的基于文本感知损失的注意力文本超分辨率方法,其特征在于:在S2中,通过基于阈值的语义分割方法获取二进制单通道分割掩码。4.根据权利要求1所述的基于文本感知损失的注意力文本超分辨率方法,其特征在于:在S2中,通过计算平均值的方法将文本图片划分成文字、背景两个部分,将二进制单通道掩码与文本图片进行通道连接。5.根据权利要求1所述的基于文本感知损失的注意力文本超分辨率方法,其特征在于:使用TPS

align模块对输入的图片做像素级校正。6.根据权...

【专利技术属性】
技术研发人员:邓若愚胡尚薇
申请(专利权)人:同济人工智能研究院苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1