一种场景文本擦除模型的训练方法及装置制造方法及图纸

技术编号：40658589 阅读：4 留言：0更新日期：2024-03-18 18:50

本发明专利技术公开了一种场景文本擦除模型的训练方法。采用场景文本检测数据集作为场景文本擦除模型的训练集。将基线模型的最后一个分类层改为两个并行的分类层，由此将整个模型分为背景修复分支和文本擦除分支，得到场景文本擦除模型。训练背景修复分支；将部分遮挡的背景图像作为输入，要求预测文本区域和随机遮挡区域的背景填充内容；训练时使用背景图像作为该分支的标签对其学习过程进行监督。训练文本擦除分支；将输入图像作为输入，要求预测文本区域被擦除和修复后的背景填充内容；训练时使用替换后图像作为该分支的伪标签对其学习过程进行监督。本发明专利技术仅使用文本检测数据集以弱监督方式训练出场景文本擦除模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种场景文本擦除(scene text removal，str)模型的方法。

技术介绍

1、场景文本擦除是指在图像中擦除文本、并且对被擦除区域进行背景修复使其与周边区域平滑过渡的任务。该任务在隐私保护、文本图像编辑等方面起到重要的作用。随着深度学习技术的发展，近年来大量研究使用深度神经网络(deep neural networks，dnn)以全监督(supervised learning)训练方式实现场景文本擦除功能。但是，由于优化深度神经网络需要大量带有标签的训练样本，而场景文本擦除任务的标签需要使用图像编辑软件对图像进行像素级别的人工标注，这极大增加了标注成本，限制了场景文本擦除模型的大规模训练。

2、为了降低对人工标注的需求，现有方法通常使用合成数据对深度神经网络进行训练，然而合成域和真实域之间的数据分布存在较大差异，合成数据集上训练的场景文本擦除模型在真实场景下测试时性能下降较大。

技术实现思路

1、本专利技术所要解决的技术问题是提出一套弱监督(weakly supervised learning)的场景文本擦除模型的训练方法，仅通过使用包含边界框级别标注的文本检测数据集，能够端到端地训练场景文本擦除模型。

2、为解决上述技术问题，本专利技术提出了一种场景文本擦除模型的训练方法，包括如下步骤。步骤s1：采用场景文本检测数据集作为场景文本擦除模型的训练集；训练集中的每个训练样本是一幅图像，每幅图像都有文本位置标签。步骤s2：选择基线模型。

3、进一步地，所述步骤s1中，所述文本位置标签是包围图像中的每一处文本区域的矩形或多边形。

4、进一步地，所述步骤s2中，所述基线模型是一种用于在图像中进行文本擦除、或用于图像修复、或用于图像分割的深度学习模型。

5、进一步地，所述步骤s3中，背景修复分支用来对图像中的缺损区域预测应填充的背景内容；文本擦除分支用来对图像中的文本区域预测将文字去除后对该文本区域应填充的背景内容；这两个分支属于同一个神经网络。

6、进一步地，所述步骤s4中，监督是指要求背景修复分支预测的随机遮挡区域的背景填充内容与背景图像中的随机遮挡区域的原始内容尽可能一致。

7、进一步地，所述步骤s5中，监督是指要求文本擦除分支预测的文本区域的背景填充内容与替换后图像中的文本区域的背景填充内容尽可能一致。

8、进一步地，所述步骤s4具体包括如下子步骤。步骤s41：从训练集中随机抽取一个训练图像i和对应的文本位置标签，根据文本位置标签建立与输入图像i尺寸相同的文本区域掩码mtext；文本区域掩码mtext用来标记输入图像i中的文本区域。步骤s42：利用文本区域掩码mtext将输入图像i中的所有文本区域遮罩，得到不包含文本区域的背景图像ibg；ibg＝i*(1-mtext)，其中*表示哈达玛积。步骤s43：在背景图像ibg上生成随机覆盖部分非文本区域的随机掩码mrand，随机掩码mrand用来标记背景图像ibg中的随机遮挡区域；在该背景图像ibg中得到随机掩码mrand遮罩的部分遮挡的背景图像ib；ib＝ibg*mrand。步骤s44：将部分遮挡的背景图像ib作为背景修复分支的输入，要求背景修复分支的输出ob包含对文本区域和随机遮挡区域的预测填充背景内容；在训练背景修复分支时，使用背景图像ibg作为该分支的标签，计算背景修复分支的输出ob的重建损失lb，lb＝loss(ob,ibg)；其中，loss()表示损失函数。

9、进一步地，所述步骤s5具体包括如下子步骤。步骤s51：将训练图像i中的文字区域替换为背景修复分支的输出ob的对应区域，称为替换后图像，作为文本擦除任务的伪标签ipseudo；ipseudo＝i*(1-mtext)+ob*mtext。步骤s52：将训练图像i作为文本擦除分支的输入，要求文本擦除分支的输出ot包含文本区域被擦除和修复后的背景填充内容；在训练文本擦除分支时，使用伪标签ipseudo计算文本擦除分支的输出ot的重建损失lt，lt＝loss(ot,ipseudo)。

10、进一步地，所述步骤s6具体包括如下子步骤。步骤s61：将背景修复分支的重建损失lb和文本擦除分支的重建损失lt进行加权和得到最终损失l，l＝lt+αlt；其中α为超参数。步骤s62：使用梯度下降算法更新模型参数，重复步骤s4和步骤s5直至到达设定的最大迭代次数。

11、本专利技术还提出了一种场景文本擦除模型的训练装置，包括训练数据获取单元、模型初始构建单元、模型成型单元、背景修复分支训练单元、文本擦除分支训练单元、迭代训练单元。所述训练数据获取单元用来采用场景文本检测数据集作为场景文本擦除模型的训练集；训练集中的每个训练样本是一幅图像，每幅图像都有文本位置标签。所述模型初始构建单元用来选择基线模型。所述模型成型单元用来调整基线模型的网络结构，将基线模型的最后一个分类层改为两个并行的分类层，由此将整个模型分为背景修复分支和文本擦除分支，得到场景文本擦除模型。所述背景修复分支训练单元用来训练背景修复分支；对于训练集中的任意训练样本，首先利用输入图像中的文本位置标签生成文本区域掩码，将该输入图像中的所有文本区域使用文本区域掩码遮罩得到背景图像；进而在该背景图像中生成随机覆盖部分区域的随机掩码，在该背景图像中得到随机掩码遮罩的部分遮挡的背景图像；将部分遮挡的背景图像作为背景修复分支的输入，要求背景修复分支预测文本区域和随机遮挡区域的背景填充内容；训练时使用背景图像作为该分支的标签对其学习过程进行监督。所述文本擦除分支训练单元用来训练文本擦除分支；将该输入图像中的文本区域替换为背景修复分支预测的文本区域的背景填充内容，称为替换后图像；将输入图像作为文本擦除分支的本文档来自技高网...

【技术保护点】

1.一种场景文本擦除模型的训练方法，其特征是，包括如下步骤；

2.根据权利要求1所述的场景文本擦除模型的训练方法，其特征是，所述步骤S1中，所述文本位置标签是包围图像中的每一处文本区域的矩形或多边形。

3.根据权利要求1所述的场景文本擦除模型的训练方法，其特征是，所述步骤S2中，所述基线模型是一种用于在图像中进行文本擦除、或用于图像修复、或用于图像分割的深度学习模型。

4.根据权利要求1所述的场景文本擦除模型的训练方法，其特征是，所述步骤S3中，背景修复分支用来对图像中的缺损区域预测应填充的背景内容；文本擦除分支用来对图像中的文本区域预测将文字去除后对该文本区域应填充的背景内容；这两个分支属于同一个神经网络。

5.根据权利要求1所述的场景文本擦除模型的训练方法，其特征是，所述步骤S4中，监督是指要求背景修复分支预测的随机遮挡区域的背景填充内容与背景图像中的随机遮挡区域的原始内容尽可能一致。

6.根据权利要求1所述的场景文本擦除模型的训练方法，其特征是，所述步骤S5中，监督是指要求文本擦除分支预测的文本区域的背景填充内容与

7.根据权利要求1所述的场景文本擦除模型的训练方法，其特征是，所述步骤S4具体包括如下子步骤；

8.根据权利要求7所述的场景文本擦除模型的训练方法，其特征是，所述步骤S5具体包括如下子步骤；

9.根据权利要求8所述的场景文本擦除模型的训练方法，其特征是，所述步骤S6具体包括如下子步骤；

10.一种场景文本擦除模型的训练装置，其特征是，包括训练数据获取单元、模型初始构建单元、模型成型单元、背景修复分支训练单元、文本擦除分支训练单元、迭代训练单元；

...

【技术特征摘要】

1.一种场景文本擦除模型的训练方法，其特征是，包括如下步骤；

2.根据权利要求1所述的场景文本擦除模型的训练方法，其特征是，所述步骤s1中，所述文本位置标签是包围图像中的每一处文本区域的矩形或多边形。

3.根据权利要求1所述的场景文本擦除模型的训练方法，其特征是，所述步骤s2中，所述基线模型是一种用于在图像中进行文本擦除、或用于图像修复、或用于图像分割的深度学习模型。

4.根据权利要求1所述的场景文本擦除模型的训练方法，其特征是，所述步骤s3中，背景修复分支用来对图像中的缺损区域预测应填充的背景内容；文本擦除分支用来对图像中的文本区域预测将文字去除后对该文本区域应填充的背景内容；这两个分支属于同一个神经网络。

5.根据权利要求1所述的场景文本擦除模型的训练方法，其特征是，所述步骤s4中，监督是指要求背景修复分支预...

【专利技术属性】
技术研发人员：谢洪涛，刘鹏伟，郭丰俊，王紫霄，龙腾，丁凯，镇立新，
申请(专利权)人：上海合合信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人