图像的针对性的生成视觉编辑制造技术

技术编号：41745600 阅读：15 留言：0更新日期：2024-06-21 21:32

本公开的实施例涉及图像的针对性的生成视觉编辑。本发明专利技术的一个实施例阐述了一种用于组合源图像和驱动图像的技术。该技术包括确定源图像的要与驱动图像混合的第一区域。该技术还包括将源图像的位于第一区域外部的第二区域和驱动图像输入到神经网络中。该技术还包括经由神经网络生成输出图像，该输出图像包括与源图像的第一区域对应的第三区域和与源图像的第二区域对应的第四区域，其中第三区域包括驱动图像的视觉属性以及与源图像相关联的上下文，并且第四区域包括源图像的第二区域的视觉属性以及与源图像相关联的上下文。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施例总体涉及机器学习和图像编辑，并且更具体地，涉及图像的针对性的生成视觉编辑。

技术介绍

1、最近的技术进步已经引起了能够以语义上有意义的方式修改或编辑图像的机器学习模型。例如，机器学习模型可以被训练来执行图像编辑任务，诸如去噪、锐化、模糊、着色、合成、超分辨率、修补(例如，填充图像的缺失区域)和/或修复(例如，将图像延伸到原始边界之外)。这些图像编辑任务通常使用基于文本的描述来指导生成的输出图像。例如，机器学习模型可以通过利用反映来自用户的基于文本的提示的内容填充图像的缺失区域来执行修补。

2、然而，与给定的基于文本的描述匹配的视觉内容在外观上可能存在很大差异。因此，使用基于文本的描述来执行图像编辑的机器学习模型可以生成符合基于文本的描述但不包括期望的视觉属性的输出图像。继续上面的示例，用户可能提供指定了红色汽车的图像的缺失区域应该利用某个形状或样式的蓝色车门来填充的基于文本的提示。虽然机器学习模型可以生成与提示匹配的输出图像，但输出图像中描绘的车门可能包括与用户所期望的颜色外观不同的色调、饱和度、明度、亮度和/或另一基于颜色的属性。车门的形状或样式也可以匹配提示，但未能匹配由用户想要的外观。

3、如前所述，本领域需要的是用于使用机器学习模型执行图像编辑的更有效的技术。

技术实现思路

1、本专利技术的一个实施例阐述了一种用于组合源图像和驱动图像的技术。该技术包括确定要与驱动图像混合的源图像的第一区域。该技术还包括将源图像的位于第一区域外部的第二区

2、所公开的技术相对于现有技术的一个技术优点是使用驱动图像中描绘的视觉属性来指导图像编辑任务。因此，与依赖于视觉内容的基于文本的描述来编辑图像的传统方法相比，所公开的技术允许图像编辑任务以更高的精度和控制被执行。这些技术优点提供了相对于现有技术方法的一项或多项技术改进。

本文档来自技高网...

【技术保护点】

1.一种用于组合源图像和驱动图像的计算机实现的方法，所述方法包括：

2.根据权利要求1所述的计算机实现的方法，还包括：

3.根据权利要求2所述的计算机实现的方法，还包括：基于所述训练输出图像的第一重建和所述训练驱动图像的第二重建来训练所述神经网络的一个或多个附加组件。

4.根据权利要求2所述的计算机实现的方法，其中所述变换包括所述第五区域的随机化的裁剪。

5.根据权利要求2所述的计算机实现的方法，其中所述损失包括负对数似然。

6.根据权利要求1所述的计算机实现的方法，其中生成所述输出图像包括：

7.根据权利要求6所述的计算机实现的方法，其中生成所述输出图像还包括：

8.根据权利要求1所述的计算机实现的方法，其中将所述源图像的所述第二区域输入到所述神经网络中包括：

9.根据权利要求1所述的计算机实现的方法，其中所述神经网络包括自回归模型，所述自回归模型实现与所述输出图像、所述源图像、所述驱动图像和所述源图像的所述第一区域相关联的条件概率分布。

10.根据权利要求1所述的计算机

11.一种或多种非暂态计算机可读介质，存储指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行以下步骤：

12.根据权利要求11所述的一种或多种非暂态计算机可读介质，其中所述指令还使所述一个或多个处理器执行以下步骤：

13.根据权利要求12所述的一种或多种非暂态计算机可读介质，还包括：基于所述训练输出图像的第一重建、所述训练驱动图像的第二重建以及一个或多个感知损失，来训练所述神经网络的一个或多个附加组件。

14.根据权利要求13所述的一种或多种非暂态计算机可读介质，其中所述一个或多个附加组件包括编码器集合和解码器集合。

15.根据权利要求12所述的一种或多种非暂态计算机可读介质，其中所述一个或多个组件包括变换器。

16.根据权利要求12所述的一种或多种非暂态计算机可读介质，其中所述第五区域包括边界框或语义分割中的至少一项。

17.根据权利要求11所述的一种或多种非暂态计算机可读介质，其中生成所述输出图像包括：

18.根据权利要求17所述的一种或多种非暂态计算机可读介质，其中所述第一编码表示或所述第二编码表示中的至少一项包括量化的词元的集合。

19.根据权利要求11所述的一种或多种非暂态计算机可读介质，其中确定所述源图像的所述第一区域包括从用户接收所述第一区域。

20.一种系统，包括：

...

【技术特征摘要】

1.一种用于组合源图像和驱动图像的计算机实现的方法，所述方法包括：

2.根据权利要求1所述的计算机实现的方法，还包括：

4.根据权利要求2所述的计算机实现的方法，其中所述变换包括所述第五区域的随机化的裁剪。

5.根据权利要求2所述的计算机实现的方法，其中所述损失包括负对数似然。

6.根据权利要求1所述的计算机实现的方法，其中生成所述输出图像包括：

7.根据权利要求6所述的计算机实现的方法，其中生成所述输出图像还包括：

8.根据权利要求1所述的计算机实现的方法，其中将所述源图像的所述第二区域输入到所述神经网络中包括：

10.根据权利要求1所述的计算机实现的方法，其中所述第一区域包括边界框或语义分割中的至少一项。

11.一种或多种非暂态计算机可读介质，存储指令，所述指令在由一个或多个处理器...

【专利技术属性】
技术研发人员：N·加拉格尔，A·托苏尔，Y·谢，CY·付，A·韦达尔迪，O·M·帕基，T·博格，A·布朗，S·何，T·向，
申请(专利权)人：元平台技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人