本发明专利技术公开了一种基于文本分割的两阶段场景文本擦除方法,方法包括以下步骤:构建数据集:将现有的文本分割数据集和场景文本擦除数据集整理并收集;场景文本分割:利用训练好的多尺度注意力文本分割网络对场景文本进行分割,从而得到文本图像;场景文本擦除:利用训练好的文本擦除网络进行场景文本擦除,生成真实的无文本图像。本发明专利技术采用两阶段的训练方法,可以有效的擦除场景文本图像中的文字,并且可以选择性擦除文本,可应用于图像隐私保护、去除水印、场景文本编辑等多领域,提供更加真实的背景图像。真实的背景图像。真实的背景图像。
【技术实现步骤摘要】
一种基于文本分割的两阶段场景文本擦除方法
[0001]本专利技术属于图像处理技术与人工智能领域,尤其是一种基于文本分割的两阶段场景文本擦除方法。
技术介绍
[0002]场景文本是我们生活中不可或缺的一部分,不论是在现实生活中还是在虚拟世界中,它们都与人们的生活、生产密切相关。除了公共信息,如新闻、报纸、招聘广告等外,场景文本还包含大量的私人或敏感信息,比如交易记录、通信内容、征信信息、账号密码、财产信息以及行踪轨迹等。保护个人隐私免受不法分子的侵害是非常重要的,它直接关系到个人的生命和财产安全。目前,最常见的保护隐私的方法是直接删除图像文字中的敏感信息,但这需要大量的人工成本。随着人工智能的发展,基于深度学习的自然场景文本擦除已成为一个新兴的研究领域。
[0003]文本擦除的过程类似于图像修复,但它的难度却更大。这是因为,文本擦除不仅需要重新填充文本区域,同时也需要保护非文本区域,防止非文本区域被误判为文本区域并被擦除。因此,文本擦除比图像修复更为复杂。
[0004]近年来,基于深度学习的自然场景文本擦除方法主要可以分为一阶段方法和两阶段方法。
[0005]一阶段文本擦除方法使用端到端技术,即用一个网络框架完成任务。如Nakamura等人在《Scene text eraser》中提出了一种基于单尺度滑动窗口的神经网络,使用图像变换快速处理图像裁剪,保留非文本区域。Liu等人在《EraseNet:End
‑
to
‑
end text removal in the wild》中将文本检测网络和背景修复网络并行训练,通过引入从粗到精的体系结构和额外的分割头来帮助定位文本,提出了EraseNet。但一阶段方法并没有很好的区分文本区域和非文本区域,存在擦除非文本区域的问题。
[0006]两阶段的方法是将文字检测和背景修复作为上下游任务。首先检测图像中的文本区域,然后将文本区域的掩码输入到背景修复网络中进行修复。如Tursun等人在《MTRNet:A Generic Scene Text Eraser》提出MTRNet,利用人工提供的文本掩码改进检测网络定位文本,实现可控文本擦除。Tang等人在《Stroke
‑
based scene text erasing using synthetic data fortraining》提出预测单词图像上的文字笔画,然后将笔画和图像都输入到图像修复网络,生成无文本图像。但依旧存在文字检测不准确的问题,且如果是矩形文文本掩码,依然存在擦除部分非文本区域的问题。
[0007]自然场景文本图像往往存在字体多变、文本方向随意或背景复杂等问题,现有方法难以准确识别文本区域和非文本区域,影响擦除效果。并且,准确获取对应的文本掩码也是一项艰巨的挑战,如果不能获取非常完整的文本掩码,可能导致相反的效果。因此,本专利技术提出了一种基于文本分割的两阶段场景文本擦除方法,以解决现有技术中的不足之处。
技术实现思路
[0008]本专利技术的首要目的是提供一种基于文本分割的两阶段场景文本擦除方法,该方法利用文本分割得到的文本掩码,利用文本掩码可以有效的擦除场景文本图像中的文字,并且可以选择性擦除文本,可应用于图像隐私保护、去除水印、场景文本编辑等多领域,提供更加真实的背景图像。
[0009]基于此,本专利技术是按如下方式实现的:
[0010]一种基于文本分割的两阶段场景文本擦除方法,包括步骤如下:
[0011]构建数据集:将现有的文本分割数据集和场景文本擦除数据集整理并收集,并为场景文本擦除数据集人工标注出精确的文本掩码,利用这些文本掩码,通过场景文本大小编辑技术,合成更多的含有不同尺寸文本的自然场景图像;
[0012]场景文本分割:构建一个多尺度注意力文本分割网络,将训练集预处理后输入到多尺度注意力文本分割网络中进行训练,利用训练好的多尺度注意力文本分割网络对场景文本进行分割,从而得到文本图像;
[0013]场景文本擦除:构建一个基于生成式对抗网络的文本擦除网络,将标注好的含有文本掩码的场景文本擦除数据集输入到文本擦除网络中训练,最后,利用训练好的文本擦除网络进行场景文本擦除,生成真实的无文本图像。
[0014]本专利技术是个两阶段方法,构建数据集是网络训练的前提准备,且多尺度注意力文本分割网络和文本擦除网络是分开训练的。训练完成后,先将一张自然场景文本图片输入到全多尺度注意力文本分割网络模型中,得到的输出是分理出的文本图像,之后将该图像和自然场景文本图片一起传入文本擦除网络的生成器网络中,生成器网络的输出即为最后的预测结果。
[0015]进一步的改进在于,数据集具体通过如下方法构建:收集并整理目前已有的文本分割数据集和场景文本擦除数据集,使用LabelMe软件为场景文本擦除数据集人工标注准确的文字掩码。
[0016]进一步,收集含有不多纹理的背景图像,利用已有的文字掩码,使用OPenCV和图像合成方法,合成更多的多尺寸文本的自然场景文本图像,以增加背景和文字多样性;
[0017]更进一步,将数据集划分为训练集、验证集和测试集,并对训练集进行预处理操作,随机选取训练数据集的图像对,对图像对进行变换操作,变换操作包括旋转、放大和缩小。
[0018]进一步的改进在于,场景文本分割阶段,多尺度注意力文本分割网络由三个主要模块组成,具体为文本信息增强模块、文本分割模块、双感知解码器,整体结构是基于经典编码器
‑
解码器结构进行设计的,它的输入是一张自然场景文本图片。
[0019]进一步,文本信息增强模块引入了更高层次的文本语义信息,并提供文本注意力图作为先验知识,以促进文本识别,通过使模型更多地关注图像中的文本区域而不是背景,不仅可以减少背景中类似纹理对文本分割的干扰,还可以减少网络的计算量。
[0020]进一步,在特征编码阶段,所提出的文本分割模块被用来通过容纳全局和局部的特征对复杂的文本分割特征进行建模,它赋予全局文本同等的关注权重,以重新激活那些具有罕见纹理的文本,因为它们与主导文本有很强的语义关联,此外,它还适应不规则的多尺度场景文本,以消除背景噪声的干扰,从而捕获更有效的局部特征。
[0021]更进一步,在解码阶段,像素聚合到特定类别中是通过上采样过程实现的,然而,深度特征图的微小偏差可能导致文本分割结果不准确或扭曲,特别是在具有复杂形状的场景文本上,为了解决这个问题,我们提出了一种双感知解码器,它的参数可以动态调整以适应空间和信道内容。
[0022]进一步的改进在于,多尺度注意力文本分割网络的总损失函数由三个损失函数组成,具体如公式(1)所示:
[0023]L
final
=L
sem
+αL
tri
+βL
tv
ꢀꢀ
(1)
[0024]其中,α,β表示各个损失函数的权重;
[0025]输入到网络中训练的图像为x,经过网络提取特征本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于文本分割的两阶段场景文本擦除方法,其特征在于,包括以下步骤:构建数据集:将现有的文本分割数据集和场景文本擦除数据集整理并收集,并为场景文本擦除数据集人工标注出精确的文本掩码,利用这些文本掩码,通过场景文本大小编辑技术,合成更多的含有不同尺寸文本的自然场景图像;场景文本分割:构建一个多尺度注意力文本分割网络,将训练集预处理后输入到多尺度注意力文本分割网络中进行训练,利用训练好的多尺度注意力文本分割网络对场景文本进行分割,从而得到文本图像;场景文本擦除:构建一个基于生成式对抗网络的文本擦除网络,将标注好的含有文本掩码的场景文本擦除数据集输入到文本擦除网络中训练,最后,利用训练好的文本擦除网络进行场景文本擦除,生成真实的无文本图像。2.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法,其特征在于,数据集具体通过如下方法构建:收集并整理目前已有的文本分割数据集和场景文本擦除数据集,使用LabelMe软件为场景文本擦除数据集人工标注准确的文字掩码;收集含有不多纹理的背景图像,利用已有的文字掩码,使用OPenCV和图像合成方法,合成更多的多尺寸文本的自然场景文本图像,以增加背景和文字多样性;将数据集划分为训练集、验证集和测试集,并对训练集进行预处理操作,随机选取训练数据集的图像对,对图像对进行变换操作,变换操作包括旋转、放大和缩小。3.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法,其特征在于,多尺度注意力文本分割网络由三个主要模块组成,具体为文本信息增强模块、文本分割模块、双感知解码器,整体结构是基于经典编码器
‑
解码器结构进行设计的,它的输入是一张自然场景文本图片。4.如权利要求3所述的一种基于文本分割的两阶段场景文本擦除方法,其特征在于,文本信息增强模块引入了更高层次的文本语义信息,并提供文本注意力图作为先验知识,以促进文本识别,通过使模型更多地关注图像中的文本区域而不是背景,不仅可以减少背景中类似纹理对文本分割的干扰,还可以减少网络的计算量。5.如权利要求3所述的一种基于文本分割的两阶段场景文本擦除方法,其特征在于,在特征编码阶段,所提出的文本分割模块被用来通过容纳全局和局部的特征对复杂的文本分割特征进行建模,它赋予全局文本同等的关注权重,以重新激活那些具有罕见纹理的文本,因为它们与主导文本有很强的语义关联,此外,它还适应不规则的多尺度场景文本,以消除背景噪声的干扰,从而捕获更有效的局部特征。6.如权利要求3所述的一种基于文本分割的两阶段场景文本擦除方法,其特征在于,在解码阶段,像素聚合到特定类别中是通过上采样过程实现的,然而,深度特征图的微小偏差可能导致文本分割结果不准确或扭曲,特别是在具有复杂形状的场景文本上,为了解决这个问题,我们提出了一种双感知解码器,它的参数可以动态调整以适应空间和信道内容。7.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法,其特征在于,多尺度注意力文本分割网络的总损失函数由三个损失函数组成,具体如公式(1)所示:L
final
=L
sem
+αL
tri
+βL
tv
ꢀꢀꢀꢀ
(1)其中,α,β表示各个损失函数的权重;
输入到网络中训练的图像为x,经过网络提取特征,并且经过激活函数得到每个像素点...
【专利技术属性】
技术研发人员:张国栋,赖沁玲,
申请(专利权)人:张国栋,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。