一种基于提示词学习的多用途图像重绘方法、设备、介质技术

技术编号：40657712 阅读：3 留言：0更新日期：2024-03-18 18:49

本发明专利技术涉及一种基于提示词学习的多用途图像重绘方法、设备、介质，方法包括如下步骤：获取至少一个任务提示词、输入图像和掩膜数据；利用文本编码器对包括所述任务提示词的文本进行处理，得到条件编码和非条件编码；利用图像编码器对所述输入图像进行编码；将所述掩膜数据、条件编码、非条件编码以及编码后的输入图像作为扩散模型的输入进行重绘，对所述扩散模型的输出进行解码后得到重绘后的输出图像。与现有技术相比，本发明专利技术基于任务提示进行文本编码以指导扩散模型对输入图片进行多种任务的重绘。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，尤其是涉及一种基于提示词学习的多用途图像重绘方法、设备、介质。

技术介绍

1、图像局部重绘模型是根据物体输入图像和输入掩膜以及其他可选的控制条件，如文本等，得到一张在掩膜区域重绘后的输出图片，如图3所示。若文本作为控制条件，则输出的图片在掩膜区域需要符合文本所描述的内容。

2、现有的局部重绘方案存在以下的缺点：

3、(1)现有的局部重绘模型由于训练策略的局限性，通常不能很好的用一个模型完成掩膜区域内物体的消除和物体的新增。

4、(2)现有的局部重绘模型若以消除掩膜中的物体为训练目标时，通常训练策略为以图像周围信息为条件，恢复随机遮盖的图像区域。当周围物体较多时，模型会在遮盖区域中生成随机物体，这与消除物体的目标相悖，如图2(a)中所示。

5、(3)现有的局部重绘模型有的训练策略以全局图像描述文本为条件恢复随机大小的掩膜区域，这会导致文本语义与掩膜区域的图像内容存在不匹配，如图2(b)中所示。

6、(4)现有的局部重绘模型有的以局部物体描述文本为条件恢复含有物体的遮盖图像区域，而并没有精确考虑到掩膜区域和实际生成内容区域的大小和比例关系，这会导致生成的内容与图像整体内容不和谐，如图2(c)中所示。

7、综上，当前缺少一种图像局部重绘方法，以解决或部分解决前述问题。

技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于提示词学习的多用途图像重绘方法、设备、介质，以优化图像重绘的效果。

2、本专利技术的目的可以通过以下技术方案来实现：

3、本专利技术的一个方面，提供了一种基于提示词学习的多用途图像重绘方法，包括如下步骤：

4、获取至少一个任务提示词、输入图像和掩膜数据；

5、利用文本编码器对包括所述任务提示词的文本进行处理，得到条件编码和非条件编码；

6、利用图像编码器对所述输入图像进行编码；

7、将所述掩膜数据、条件编码、非条件编码以及编码后的输入图像作为扩散模型的输入进行重绘，对所述扩散模型的输出进行解码后得到重绘后的输出图像。

8、作为优选的技术方案，针对整体内容重绘构建任务，所述的任务提示词包括整体内容重绘构建任务提示词，以所述内容重绘构建任务提示词、空文本作为所述文本编码器的输入，分别得到条件编码和非条件编码。

9、作为优选的技术方案，针对特定物体重绘构建任务，所述的任务提示词包括特定物体重绘构建任务提示词，以所述特定物体重绘构建任务提示词与获取到的输入文本叠加作为所述文本编码器的输入，得到条件编码，以空文本作为所述文本编码器的输入，得到非条件编码。

10、作为优选的技术方案，针对掩膜区域物体擦除任务，所述的任务提示词包括整体内容重绘构建任务提示词和特定物体重绘构建任务提示词，以所述整体内容重绘构建任务提示词和特定物体重绘构建任务提示词分别作为所述文本编码器的输入，分别得到条件编码和非条件编码。

11、作为优选的技术方案，所述的扩散模型的训练过程包括如下步骤：

12、通过改变原掩膜区域大小与膨胀后掩膜区域大小的比例，生成多个膨胀后的掩膜，对所述扩散模型进行训练。

13、作为优选的技术方案，针对按比例重绘物体任务，所述的任务提示词包括整体内容重绘构建任务提示词和按比例重绘提示词，将获取到的输入文本分别与整体内容重绘构建任务提示词和按比例重绘提示词叠加，并分别作为所述文本编码器的输入，将输出按比例叠加得到条件编码，以空文本作为所述文本编码器的输入，得到非条件编码。

14、作为优选的技术方案，所述的任务提示词为可训练的向量。

15、作为优选的技术方案，所述的条件编码用于鼓励扩散模型生成相关的概念，所述的非条件编码用于抑制扩散模型生成相关的概念。

16、本专利技术的另一个方面，提供了一种电子设备，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行前述基于提示词学习的多用途图像重绘方法的指令。

17、本专利技术的另一个方面，提供了一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行前述基于提示词学习的多用途图像重绘方法的指令。

18、与现有技术相比，本专利技术具有以下有益效果：

19、实现多用途的图像重绘：通过在重绘过程中获取任务提示词，利用文本编码器生成包括不同的任务提示词的文本编码，将其作为扩散模型的条件编码和非条件编码，以达到其他效果并基于任务提示进行文本编码以指导扩散模型对输入图片进行多种任务的重绘。

本文档来自技高网...

【技术保护点】

1.一种基于提示词学习的多用途图像重绘方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于提示词学习的多用途图像重绘方法，其特征在于，针对整体内容重绘构建任务，所述的任务提示词包括整体内容重绘构建任务提示词，以所述内容重绘构建任务提示词、空文本作为所述文本编码器的输入，分别得到条件编码和非条件编码。

3.根据权利要求1所述的一种基于提示词学习的多用途图像重绘方法，其特征在于，针对特定物体重绘构建任务，所述的任务提示词包括特定物体重绘构建任务提示词，以所述特定物体重绘构建任务提示词与获取到的输入文本叠加作为所述文本编码器的输入，得到条件编码，以空文本作为所述文本编码器的输入，得到非条件编码。

4.根据权利要求1所述的一种基于提示词学习的多用途图像重绘方法，其特征在于，针对掩膜区域物体擦除任务，所述的任务提示词包括整体内容重绘构建任务提示词和特定物体重绘构建任务提示词，以所述整体内容重绘构建任务提示词和特定物体重绘构建任务提示词分别作为所述文本编码器的输入，分别得到条件编码和非条件编码。

5.根据权利要求1所述的一种基于提

6.根据权利要求1所述的一种基于提示词学习的多用途图像重绘方法，其特征在于，针对按比例重绘物体任务，所述的任务提示词包括整体内容重绘构建任务提示词和按比例重绘提示词，将获取到的输入文本分别与整体内容重绘构建任务提示词和按比例重绘提示词叠加，并分别作为所述文本编码器的输入，将输出按比例叠加得到条件编码，以空文本作为所述文本编码器的输入，得到非条件编码。

7.根据权利要求1所述的一种基于提示词学习的多用途图像重绘方法，其特征在于，所述的任务提示词为可训练的向量。

8.根据权利要求2-4、6任一所述的一种基于提示词学习的多用途图像重绘方法，其特征在于，所述的条件编码用于鼓励扩散模型生成相关的概念，所述的非条件编码用于抑制扩散模型生成相关的概念。

9.一种电子设备，其特征在于，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-8任一所述基于提示词学习的多用途图像重绘方法的指令。

10.一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-8任一所述基于提示词学习的多用途图像重绘方法的指令。

...

【技术特征摘要】

1.一种基于提示词学习的多用途图像重绘方法，其特征在于，包括如下步骤：

5.根据权利要求1所述的一种基于提示词学习的多用途图像重绘方法，其特征在于，所述的扩散模型的训练过程包括如下步骤：

【专利技术属性】
技术研发人员：曾艳红，庄俊豪，刘文然，袁春，陈恺，
申请(专利权)人：上海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人