一种基于文本分割的两阶段场景文本擦除方法技术

技术编号：37395847 阅读：50 留言：0更新日期：2023-04-27 07:33

本发明专利技术公开了一种基于文本分割的两阶段场景文本擦除方法，方法包括以下步骤：构建数据集：将现有的文本分割数据集和场景文本擦除数据集整理并收集；场景文本分割：利用训练好的多尺度注意力文本分割网络对场景文本进行分割，从而得到文本图像；场景文本擦除：利用训练好的文本擦除网络进行场景文本擦除，生成真实的无文本图像。本发明专利技术采用两阶段的训练方法，可以有效的擦除场景文本图像中的文字，并且可以选择性擦除文本，可应用于图像隐私保护、去除水印、场景文本编辑等多领域，提供更加真实的背景图像。真实的背景图像。真实的背景图像。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本分割的两阶段场景文本擦除方法

[0001]本专利技术属于图像处理技术与人工智能领域，尤其是一种基于文本分割的两阶段场景文本擦除方法。

技术介绍

[0002]场景文本是我们生活中不可或缺的一部分，不论是在现实生活中还是在虚拟世界中，它们都与人们的生活、生产密切相关。除了公共信息，如新闻、报纸、招聘广告等外，场景文本还包含大量的私人或敏感信息，比如交易记录、通信内容、征信信息、账号密码、财产信息以及行踪轨迹等。保护个人隐私免受不法分子的侵害是非常重要的，它直接关系到个人的生命和财产安全。目前，最常见的保护隐私的方法是直接删除图像文字中的敏感信息，但这需要大量的人工成本。随着人工智能的发展，基于深度学习的自然场景文本擦除已成为一个新兴的研究领域。
[0003]文本擦除的过程类似于图像修复，但它的难度却更大。这是因为，文本擦除不仅需要重新填充文本区域，同时也需要保护非文本区域，防止非文本区域被误判为文本区域并被擦除。因此，文本擦除比图像修复更为复杂。
[0004]近年来，基于深度学习的自然场景文本擦除方法主要可以分为一阶段方法和两阶段方法。
[0005]一阶段文本擦除方法使用端到端技术，即用一个网络框架完成任务。如Nakamura等人在《Scene text eraser》中提出了一种基于单尺度滑动窗口的神经网络，使用图像变换快速处理图像裁剪，保留非文本区域。Liu等人在《EraseNet:End
‑
to
‑
end text removal in the...

【技术保护点】

【技术特征摘要】
1.一种基于文本分割的两阶段场景文本擦除方法，其特征在于，包括以下步骤：构建数据集：将现有的文本分割数据集和场景文本擦除数据集整理并收集，并为场景文本擦除数据集人工标注出精确的文本掩码，利用这些文本掩码，通过场景文本大小编辑技术，合成更多的含有不同尺寸文本的自然场景图像；场景文本分割：构建一个多尺度注意力文本分割网络，将训练集预处理后输入到多尺度注意力文本分割网络中进行训练，利用训练好的多尺度注意力文本分割网络对场景文本进行分割，从而得到文本图像；场景文本擦除：构建一个基于生成式对抗网络的文本擦除网络，将标注好的含有文本掩码的场景文本擦除数据集输入到文本擦除网络中训练，最后，利用训练好的文本擦除网络进行场景文本擦除，生成真实的无文本图像。2.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，数据集具体通过如下方法构建：收集并整理目前已有的文本分割数据集和场景文本擦除数据集，使用LabelMe软件为场景文本擦除数据集人工标注准确的文字掩码；收集含有不多纹理的背景图像，利用已有的文字掩码，使用OPenCV和图像合成方法，合成更多的多尺寸文本的自然场景文本图像，以增加背景和文字多样性；将数据集划分为训练集、验证集和测试集，并对训练集进行预处理操作，随机选取训练数据集的图像对，对图像对进行变换操作，变换操作包括旋转、放大和缩小。3.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，多尺度注意力文本分割网络由三个主要模块组成，具体为文本信息增强模块、文本分割模块、双感知解码器，整体结构是基于经典编码器
‑
解码器结构进行设计的，它的输入是一张自然场景文本图片。4.如权利要求3所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，文本信息增强模块引入了更高层次的文本语义信息，并提供文本注意力图作为先验知识，以促进文本识别，通过使模型更多地关注图像中的文本区域而不是背景，不仅可以减少背景中类似纹理对文本分割的干扰，还可以减少网络的计算量。5.如权利要求3所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，在特征编码阶段，所提出的文本分割模块被用来通过容纳全局和局部的特征对复杂的文本分割特征进行建模，它赋予全局文本同等的关注权重，以重新激活那些具有罕见纹理的文本，因为它们与主导文本有很强的语义关联，此外，它还适应不规则的多尺度场景文本，以消除背景噪声的干扰，从而捕获更有效的局部特征。6.如权利要求3所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，在解码阶段，像素聚合到特定类别中是通过上采样过程实现的，然而，深度特征图的微小偏差可能导致文本分割结果不准确或扭曲，特别是在具有复杂形状的场景文本上，为了解决这个问题，我们提出了一种双感知解码器，它的参数可以动态调整以适应空间和信道内容。7.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，多尺度注意力文本分割网络的总损失函数由三个损失函数组成，具体如公式(1)所示：L
final
＝L
sem
+αL
tri
+βL
tv
ꢀꢀꢀꢀ
(1)其中，α，β表示各个损失函数的权重；
输入到网络中训练的图像为x，经过网络提取特征，并且经过激活函数得到每个像素点...

【专利技术属性】
技术研发人员：张国栋，赖沁玲，
申请(专利权)人：张国栋，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人