基于结构注意和文本感知的文本图像修复模型及方法技术

技术编号：37864549 阅读：35 留言：0更新日期：2023-06-15 20:54

本发明专利技术公开了基于结构注意和文本感知的文本图像修复模型及方法，模型包括结构先验重建网络和生成网络，结构先验重建网络包括第一CNN编码器、仅解码器的Transformer及第一CNN解码器，生成网络包括第二CNN编码器、第三CNN编码器、轻量门控融合模块、带自注意力的门控融合模块、残差模块、SE模块及第二CNN解码器。本发明专利技术以Transformer为基础构建一个结构先验重建网络，捕捉全局依赖关系重建文本骨架和边缘结构先验图像，采用门控融合注意力模块将图像纹理特征和文本先验特征进行融合，利用跳跃连接将其融合到修复网络中，在文本感知损失等联合损失的监督下，使修复后的文本笔划连贯，内容真实自然，语义合理，能增强修补过程中纹理和结构的一致和连续性。理和结构的一致和连续性。理和结构的一致和连续性。

全部详细技术资料下载

【技术实现步骤摘要】
基于结构注意和文本感知的文本图像修复模型及方法

[0001]本专利技术涉及文本图像修复技术，具体是基于结构注意和文本感知的文本图像修复模型及方法。

技术介绍

[0002]图像修复是对受损图像的缺失区域进行重建的过程，广泛应用于物体去除、旧照片恢复、图像编辑等领域。文本图像修复作为图像修复的一部分，目前对其研究主要分为以下两部分：一部分研究的重点是文本图像盲修复，主要目的是重建完整的文本，提高识别率。现阶段这种方式只对二值图像进行完全文本笔画恢复，不考虑原始RGB图像的视觉效果和语义一致性。因此，这种修复方式易导致修复后图像存在视觉不完整、语义不合理的缺陷。
[0003]另一部分研究的重点是在文本图像修复任务中使用现有基于学习的图像修复方法，不考虑文本图像的特点，通过学习大量的图像集合，合成与真实纹理一致的结构。因目前的图像修复方法多用于自然图像和人脸图像，一些方法首先重建整体结构先验信息，如边缘、分割映射或粗预测图像，然后利用预测信息对修复结果进行细化。因文本图像的结构特征与自然图像、人脸图像的结构先验信息不一致，修...

【技术保护点】

【技术特征摘要】
1.基于结构注意和文本感知的文本图像修复模型，其特征在于，包括结构先验重建网络和生成网络，所述结构先验重建网络包括依次设置的第一CNN编码器、仅解码器的Transformer及第一CNN解码器，所述第一CNN编码器用于输入待修复文本图像并对文本图像下采样，在每个空间位置对特征增加一个可学习的绝对位置嵌入；所述仅解码器的Transformer包括多层叠加的Transformer模块，所述仅解码器的Transformer用于重建第一CNN编码器输出图像的边缘和文本骨架图像；所述第一CNN解码器用于将仅解码器的Transformer输出图像进行上采样使输出图像达到输入待修复文本图像大小，得到先验图像；其中，所述第一CNN编码器输入的图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像；所述生成网络采用具有跳跃连接的编码器
‑
解码器结构，其包括第二CNN编码器、第三CNN编码器、轻量门控融合模块、带自注意力的门控融合模块、残差模块、SE模块及第二CNN解码器，所述第二CNN编码器与第三CNN编码器共享权重，所述第二CNN编码器用于输入第一CNN解码器输出的先验图像并对先验图像下采样，所述第三CNN编码器用于输入损坏的图像并对损坏的图像下采样，所述轻量门控融合模块用于融合跳跃连接传递的多尺度的特征中第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征；所述带自注意力的门控融合模块用于获取第三CNN编码器最后一层编码层包含高级语义信息的纹理特征，采用自注意力机制对纹理特征的长期依赖关系进行建模以获取全局上下文特征，再获取第二CNN编码器最后一层编码层输出的先验特征与采用自注意力机制处理后的纹理特征融合, 所述带自注意力的门控融合模块进行特征融合后将融合后特征依次经残差模块和SE模块输入第二CNN解码器；所述第二CNN解码器对输入SE模块后得到的输出特征进行上采样，在上采样阶段将轻量门控融合模块融合后特征在通道维度拼接起来以补充上采样阶段丢失的空间信息，然后输出修复后文本图像。2.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述第一CNN编码器和第一CNN解码器均包括四个依次设置的卷积模块。3.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述第二CNN编码器、第三CNN编码器及第二CNN解码器均包括四个依次设置的卷积模块，所述轻量门控融合模块的数量为三个，三个所述的轻量门控融合模块分别融合第二CNN编码器和第三CNN编码器两者前三个卷积模块的特征并分别输出至第二CNN解码器后三个卷积模块。4.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述轻量门控融合模块包括Relu层、sigmod函数层及三个1
×
1卷积层，轻量门控融合模块输入的第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征分别经一个1
×
1卷积层后进行矩阵相加进行融合，融合后特征再依次经Relu层、1
×
1卷积层及sigmod函数层处理，得到的权重特征再与轻量门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。5.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述带自注意力的门控融合模块包括Relu层、sigmod函数层及六个1
×
1卷积层，带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征复制三份，其中两份图像纹理特征分别经过1
×
1卷积层后进行矩阵相乘实现相似度计算，再采用softmax函数归一化
权重后得到注意力图，注意力图特征与另一份经过1
×
1卷积层处理的第三CNN编码器生成的图像纹理特征进行矩阵相乘，再次经过1
×
1卷积层处理后与带自注意力的...

【专利技术属性】
技术研发人员：赵启军，刘雨轩，格桑多吉，高定国，潘帆，普布旦增，扎西多吉，
申请(专利权)人：西藏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人