使用机器学习进行提示驱动的图像编辑制造技术

技术编号:44293630 阅读:43 留言:0更新日期:2025-02-14 22:26
媒体应用接收初始图像和用以更改初始图像的文本请求,该初始图像包括具有面部的主体。媒体应用从初始图像生成与主体的面部相对应的保留掩模。媒体应用将文本请求、初始图像和保留掩模作为输入提供给扩散模型。扩散模型基于初始图像来输出经去噪的初始图像;执行对文本请求的文本条件化以及前向扩散,以生成满足文本请求的有噪的转化图像;以及基于有噪的转化图像、提取的特征和自注意力图来输出经去噪的转化图像。媒体应用将经去噪的初始图像、保留掩模和经去噪的转化图像混合以形成输出图像,其中保留掩模防止对来自初始图像的面部的修改。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、生成式人工智能(ai)可用于根据文本提示生成图像。例如,用户可请求一张鳄梨椅的图像,然后由生成式ai创建该图像。结果常常是有问题的,尤其是当图像包括人物时,因为更详细的方面可能无法得到正确呈现。例如,在捕获如手指、眼睛和嘴巴的复杂特征方面,生成式ai仍处于开发阶段。

2、本文提供的
技术介绍
描述是为了总体呈现本公开的上下文的目的。当前提名的专利技术人的工作(就其在本
技术介绍
部分描述的程度而言)以及说明书的在提交时原本可能不被认定为现有技术的方面既不明确地也不暗示地被承认为是本公开的现有技术。


技术实现思路

1、一种计算机实现的方法包括:接收初始图像和用以更改初始图像的文本请求,该初始图像包括具有面部的主体。该方法进一步包括:生成与主体的面部相对应的保留掩模。该方法进一步包括:将文本请求、初始图像和保留掩模作为输入提供给扩散模型。该方法进一步利用扩散模型基于初始图像来输出经去噪的初始图像。该方法进一步包括:利用扩散模型执行对文本请求的文本条件化以及前向扩散,以生成满足文本请求的有噪的转本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法,包括:

2.如权利要求1所述的方法,其中:

3.如权利要求2所述的方法,其中所述逆扩散是去噪扩散隐式模型DDIM反演。

4.如权利要求1所述的方法,进一步包括:

5.如权利要求1所述的方法,进一步包括:

6.如权利要求1所述的方法,进一步包括:

7.如权利要求1所述的方法,进一步包括:

8.如权利要求1所述的方法,其中:

9.如权利要求1所述的方法,其中所述文本请求进一步包括从一组全局预设、选项的菜单、预制提示的库和它们的组合中的至少一个选择。p>

10.一种...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法,包括:

2.如权利要求1所述的方法,其中:

3.如权利要求2所述的方法,其中所述逆扩散是去噪扩散隐式模型ddim反演。

4.如权利要求1所述的方法,进一步包括:

5.如权利要求1所述的方法,进一步包括:

6.如权利要求1所述的方法,进一步包括:

7.如权利要求1所述的方法,进一步包括:

8.如权利要求1所述的方法,其中:

9.如权利要求1所述的方法,其中所述文本请求进一步包括从一组全局预设、选项的菜单、预制提示的库和它们的组合中的至少一个选择。

10.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质上存储有指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行操作,所述操作包括:

11.如权利要求1...

【专利技术属性】
技术研发人员:耶尔·普里奇·克纳恩诺姆·彼得兰克纳文·萨尔马马坦·科恩安德烈·沃伊诺夫阿米尔·勒卢什阿米尔·赫兹亚历克斯·拉夫·阿查
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1