基于文本指令的背景剔除方法、系统和计算机介质技术方案

技术编号：40291166 阅读：9 留言：0更新日期：2024-02-07 20:41

本发明专利技术公开一种基于文本指令的背景剔除方法、系统和计算机介质，方法包括以下步骤：S1：获取标注好的数据集，标注好的数据集格式为图文对且包括含背景的图片和对应的不含背景的图片；S2：利用步骤S1中的标注好的数据集训练一基于对抗神经网络的图像生成模型，得到训练好的基于对抗神经网络的图像生成模型，基于对抗神经网络的图像生成模型的输入为原始图片和对应的文本指令，基于对抗神经网络的图像生成模型的输出为根据文本剔除指定区域背景的图片；S3：将输入的文本指令和待剔除指定区域背景的图片输入至训练好的基于对抗神经网络的图像生成模型，得到剔除指定区域背景的图片。本发明专利技术可以根据文本描述将指定区域背景去除，得到不含背景的图片。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图片背景剔除，更具体地，涉及一种基于文本指令的背景剔除方法、系统和计算机介质。

技术介绍

1、在现代社会，图像处理和计算机视觉技术在各个领域都得到了广泛应用。特别是在数字媒体、广告、医学影像、虚拟现实和增强现实等领域，图像处理技术为提高用户体验、数据分析和决策支持发挥了重要作用。然而，这些应用中的许多情况下，需要对图像中的前景对象进行分割并剔除背景，以便将前景对象嵌入到新的环境中，或者以获取更准确的图像分析结果。传统的图像分割方法如基于边缘检测、阈值分割、区域生长等在一些简单场景中表现良好，但在处理复杂背景和多样性前景对象时可能出现失效。这些方法通常依赖于手动设置的参数，难以适应不同场景的变化。

2、传统的背景剔除方法如基于颜色、纹理、形状等特征的方法，以及基于图割、分水岭算法等，在一些简单场景中具有一定的效果。然而，这些方法在处理复杂场景、多样性前景对象以及图像语义保持方面存在一些限制。

3、现有技术公开一种手术场景图像转换方法，其包括构建改进的cyclegan模型，所述cyclegan模型包括第一生成器、第一判别器、第二生成器、第二判别器、对抗生成损失函数、循环一致性损失函数以及器械保护损失函数；获取手术场景图像数据集，所述手术场景图像数据集包括多个样本图像和期望图像，基于手术场景图像数据集训练所述改进的cyclegan模型；基于训练后的改进的cyclegan模型，根据所述样本图像，得到转换后的手术场景图像。该方案无法引入文本信息，无法通过文本指定区域进行图像分割操作。同时现有的gan的应用主要集中在两个方面：

4、(1)语义分割：gan被用于生成语义分割图，其中每个像素被赋予其对应的类别标签。生成器被训练为将输入图像转换为像素级别的类别预测图，判别器则评估生成的预测图是否与真实标签图相符。通过生成器和判别器的博弈，模型能够学习到更准确的像素级别类别预测。(2)实例分割：实例分割的目标是对图像中的不同实例进行分割，而不仅仅是像素级别的类别标签。gan在实例分割中被用于生成每个实例的分割掩码。生成器被设计为能够预测每个实例的边界和内部区域，从而生成高质量的实例分割结果。

5、利用gan实现背景剔除存在的问题有：在背景剔除任务中，前景对象与背景之间的边界可能非常复杂，传统的gan可能会在边界处产生伪影或模糊。如何在分割中保持前景对象的细节和清晰的边界，以获得准确的前景-背景分割，是一个技术难点。另外gan的训练过程可能不稳定，容易出现模式坍塌等问题。

技术实现思路

1、本专利技术的首要目的是提供一种基于文本指令的背景剔除方法，解决了现有技术中无法通过文本对指定区域进行图像分割操作的技术问题。

2、本专利技术的进一步目的是提供一种基于文本指令的背景剔除系统。

3、本专利技术的第三个目的是提供一种计算机介质。

4、为解决上述技术问题，本专利技术的技术方案如下：

5、一种基于文本指令的背景剔除方法，包括以下步骤：

6、s1：获取标注好的数据集，所述标注好的数据集格式为图文对且包括含背景的图片和对应的不含背景的图片；

7、s2：利用步骤s1中所述的标注好的数据集训练一基于对抗神经网络的图像生成模型，得到训练好的基于对抗神经网络的图像生成模型，所述基于对抗神经网络的图像生成模型的输入为原始图片和对应的文本指令，所述基于对抗神经网络的图像生成模型的输出为根据所述文本剔除指定区域背景的图片；

8、s3：将输入的文本指令和待剔除指定区域背景的图片输入至所述训练好的基于对抗神经网络的图像生成模型，得到剔除指定区域背景的图片。

9、进一步的，步骤s1中所述获取标注好的数据集具体为：

10、通过爬虫收集图文对，每个图片有对应的文本描述，通过包括ps的图片编辑工具，根据所述文本描述将指定区域的背景去除，得到不含背景的图片，所述标注好的数据集中每一样本为两端文本加两张图片，分比为原始图片、原始图片的文本描述、剔除背景后的图片和剔除背景的文本描述。

11、进一步的，步骤s2中所述基于对抗神经网络的图像生成模型，包括第一文本编码器、第二文本编码器、第一生成器、第二生成器和第一鉴别器，其中：

12、所述第一文本编码器的输入为标注的需要剔除指定区域的名称，所述第一文本编码器的输出为第一文本特征向量；

13、所述第二文本编码器的输入为原始图片对应的文本描述，所述第二文本编码器的输出为第二文本特征向量；

14、所述第一生成器的输入为原始图片和所述第一文本特征向量，所述第一生成器的输出为剔除了指定区域的图片；

15、所述第二生成器的输入为所述剔除了指定区域的图片和所述第二文本特征向量，所述第二生成器的输出为重建的原始图片；

16、所述第一鉴别器的输入为标注好的数据集中不含背景的图片和所述第一生成器输出的剔除了指定区域的图片，所述第一鉴别器的输出为第一分类结果，或者所述第一鉴别器的输入为所述原始图片和所述重建的原始图片，所述第一鉴别器的输出为第二分类结果。

17、进一步的，所述第一文本编码器和第二文本编码器在训练过程时不进行参数更新。

18、进一步的，步骤s2中所述利用步骤s1中所述的标注好的数据集训练一基于对抗神经网络的图像生成模型，具体为交替训练所述第一生成器、第二生成器和第一鉴别器。

19、进一步的，所述第一生成器、第二生成器的训练流程，具体为：

20、计算第一损失loss_1，所述第一损失loss_1为所述第一生成器的输出与标注好的数据集中不含背景的图片之间的差异，使用损失函数kl散度进行度量；

21、计算第二损失loss_2，所述第一损失loss_2为所述第一鉴别器评估所述第一生成器的输出的真实性，使用交叉熵损失进行度量；

22、计算第三损失loss_3，所述第一损失loss_3为所述第二生成器的输出与原始图片之间的差异，使用损失函数kl散度进行度量；

23、计算第四损失loss_4，所述第一损失loss_4为所述第一鉴别器评估所述第二生成器的输出的真实性，使用交叉熵损失进行度量；

24、计算生成器部分的损失loss_generator：

25、loss_generator＝a*loss_1+b*loss_2+c*loss_3+d*loss_4

26、式中，a、b、c、d为权重，训练过程中进行更新，通过反向传播计算相对于各个参数的损失函数的梯度，然后根据学习率和梯度方向来更新所述第一生成器和第二生成器的权重参数，以使损失逐渐减小，这一步不更新所述第一鉴别器的参数。

27、进一步的，所述第一鉴别器的训练流程，具体为：

28、计算第五损失loss_5，所述第五损失loss_5为第一鉴别器输出的第一分类结果与正确的分类结果的损失，使用交叉熵损失进行度量；

29、计算第六损失l本文档来自技高网...

【技术保护点】

1.一种基于文本指令的背景剔除方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于文本指令的背景剔除方法，其特征在于，步骤S1中所述获取标注好的数据集具体为：

3.根据权利要求1所述的基于文本指令的背景剔除方法，其特征在于，步骤S2中所述基于对抗神经网络的图像生成模型，包括第一文本编码器、第二文本编码器、第一生成器、第二生成器、第一鉴别器，其中：

4.根据权利要求3所述的基于文本指令的背景剔除方法，其特征在于，所述第一文本编码器和第二文本编码器在训练过程时不进行参数更新。

5.根据权利要求3所述的基于文本指令的背景剔除方法，其特征在于，步骤S2中所述利用步骤S1中所述的标注好的数据集训练一基于对抗神经网络的图像生成模型，具体为交替训练所述第一生成器、第二生成器和第一鉴别器。

6.根据权利要求5所述的基于文本指令的背景剔除方法，其特征在于，所述第一生成器、第二生成器的训练流程，具体为：

7.根据权利要求6所述的基于文本指令的背景剔除方法，其特征在于，所述第一鉴别器的训练流程，具体为：

9.一种基于文本指令的背景剔除系统，其特征在于，包括：

10.一种计算机介质，其特征在于，所述计算机介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至8任一项所述的基于文本指令的指定区域背景剔除方法。

...

【技术特征摘要】

1.一种基于文本指令的背景剔除方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于文本指令的背景剔除方法，其特征在于，步骤s1中所述获取标注好的数据集具体为：

3.根据权利要求1所述的基于文本指令的背景剔除方法，其特征在于，步骤s2中所述基于对抗神经网络的图像生成模型，包括第一文本编码器、第二文本编码器、第一生成器、第二生成器、第一鉴别器，其中：

4.根据权利要求3所述的基于文本指令的背景剔除方法，其特征在于，所述第一文本编码器和第二文本编码器在训练过程时不进行参数更新。

5.根据权利要求3所述的基于文本指令的背景剔除方法，其特征在于，步骤s2中所述利用步骤s1中所述的标注好的数据集训练一基于对抗神经网络的图像生成模型，具体为交替训练所述第一生成器、第...

【专利技术属性】
技术研发人员：牟昊，黄于晏，何宇轩，徐亚波，李旭日，
申请(专利权)人：广州数说故事信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人