【技术实现步骤摘要】
一种基于文本感知损失的注意力文本超分辨率方法
[0001]本专利技术涉及图像处理
,具体涉及一种基于文本感知损失的注意力文本超分辨率方法。
技术介绍
[0002]场景文本超分辨率是以给定的低分辨率图片作为输入,通过深度神经网络得到更高分辨率的场景文本图片。该任务与一般的图片超分辨率任务相比,主要用于配合场景文本识别和场景文本检测算法以提升这两种方法的性能。因此,场景文本超分辨率技术已发展成为光学字符识别(OCR)任务的关键组成部分。
[0003]超分辨率目的在于输出与给定低分辨率图像一致的合理高分辨率图像,传统方法,如双线性、双三次,利用了相邻像素通常呈现相似颜色的想法,并根据预定义公式通过在相邻像素的颜色之间插值来生成输出。而在深度学习时代,超分辨率被视为回归问题,其中输入是低分辨率图像,目标输出是高分辨率图像,在输入和目标输出对上训练深度神经网络,以最小化预测和GT之间的距离度量。这些工作主要是在合成数据集上进行的,即其中的低分辨率图像通常由下采样插值或高斯模糊滤波器生成,而在最近的针对场景文本超分辨率的工 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本感知损失的注意力文本超分辨率方法,其特征在于:包括:S1:输入三通道RGB文本图片,并计算该文本图片的灰度形式的平均值,S2:获取该文本图片的二进制单通道分割掩码,并将该二进制单通道掩码与三通道RGB文本图片进行通道连接,并将结果输入至文本超分辨网络中,S3:对输入的图片做像素级校正,S4:校正后的图片输入到基本块中,该基本块包含两个正交方向的Gru模型、通道注意力、空间注意力用于细化特征,S5:将基本块输出的超分辨率图片和其对应的高分辨率图计算获得MSE损失函数、SFM损失函数作为总的损失函数进行反向梯度传播,并最终输出三通道的超分辨率图片。2.根据权利要求1所述的基于文本感知损失的注意力文本超分辨率方法,其特征在于:在S2中,创建一个单通道张量,根据S1中的平均值对该单通道张量赋值,大于该平均值的灰度值设置为255,小于该平均值的灰度值设置为0,获取该文本图片的二进制单通道分割掩码。3.根据权利要求1所述的基于文本感知损失的注意力文本超分辨率方法,其特征在于:在S2中,通过基于阈值的语义分割方法获取二进制单通道分割掩码。4.根据权利要求1所述的基于文本感知损失的注意力文本超分辨率方法,其特征在于:在S2中,通过计算平均值的方法将文本图片划分成文字、背景两个部分,将二进制单通道掩码与文本图片进行通道连接。5.根据权利要求1所述的基于文本感知损失的注意力文本超分辨率方法,其特征在于:使用TPS
‑
align模块对输入的图片做像素级校正。6.根据权...
【专利技术属性】
技术研发人员:邓若愚,胡尚薇,
申请(专利权)人:同济人工智能研究院苏州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。