图像生成方法、装置及电子设备制造方法及图纸

技术编号:37251523 阅读:14 留言:0更新日期:2023-04-20 23:29
本公开提供一种图像生成方法、装置及电子设备,所述方法的一具体实施方式包括:获取目标文本、线稿图像以及噪声图像;基于所述目标文本和所述线稿图像,得到融合向量;基于所述融合向量对所述噪声图像进行去噪处理,得到与所述目标文本和所述线稿图像匹配的目标图像。该实施方式提高了图像的生成效果,达到了能够按照用户意愿生成图像的目的。按照用户意愿生成图像的目的。按照用户意愿生成图像的目的。

【技术实现步骤摘要】
图像生成方法、装置及电子设备


[0001]本公开涉及图像处理
,特别涉及一种图像生成方法、装置及电子设备。

技术介绍

[0002]随着人工智能技术在图像领域的应用和发展,图像生成技术应运而生。目前,有根据用户需要有目的的生成图像的需求。在相关技术中,随着多模态技术的不断发展,基于文本生成图像的技术日新月异,并达到了很好的效果。但是,基于语言文本对图像进行的描述具有一定的局限性,难以满足用户的需求。

技术实现思路

[0003]本公开提供一种图像生成方法、装置及电子设备。
[0004]根据第一方面,提供一种图像生成方法,所述方法包括:
[0005]获取目标文本、线稿图像以及噪声图像;
[0006]基于所述目标文本和所述线稿图像,得到融合向量;
[0007]基于所述融合向量对所述噪声图像进行去噪处理,得到与所述目标文本和所述线稿图像匹配的目标图像。
[0008]根据第二方面,提供一种图像生成装置,所述装置包括:
[0009]获取模块,用于获取目标文本、线稿图像以及噪声图像;
[0010]融合模块,用于基于所述目标文本和所述线稿图像,得到融合向量;
[0011]去噪模块,用于基于所述融合向量对所述噪声图像进行去噪处理,得到与所述目标文本和所述线稿图像匹配的目标图像。
[0012]根据第三方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法。
[0013]根据第四方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面中任一项所述的方法。
[0014]本公开的实施例提供的技术方案可以包括以下有益效果:
[0015]本公开的实施例提供的一种图像生成方法及装置,本公开提供的一种图像生成方法,基于目标文本和线稿图像,得到到融合向量,并基于该融合向量对获取的噪声图像进行去噪处理,得到与目标文本和线稿图像匹配的目标图像。由于本实施例将带有空间信息的线稿图像和包括细节特征描述的目标文本进行融合,增加了空间信息和文本信息的耦合性,使去噪得到的目标图像与用户的需求相匹配,更好的满足了用户的需求。从而提高了图像的生成效果,达到了能够按照用户意愿生成图像的目的。
[0016]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0017]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本公开根据一示例性实施例示出的一种图像生成的场景示意图;
[0019]图2是本公开根据一示例性实施例示出的一种图像生成方法的流程图;
[0020]图3是本公开根据一示例性实施例示出的一种图像生成的实例示意图;
[0021]图4是本公开根据一示例性实施例示出的一种生成方法装置框图;
[0022]图5是本公开一些实施例提供的一种电子设备的示意框图;
[0023]图6是本公开一些实施例提供的另一种电子设备的示意框图;
[0024]图7是本公开一些实施例提供的一种存储介质的示意图。
具体实施方式
[0025]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0026]下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0027]在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0028]应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0029]随着人工智能技术在图像领域的应用和发展,图像生成技术应运而生。目前,有大量根据用户需要有目的的生成图像的需求。在相关技术中,随着多模态技术的不断发展,基于文本生成图像的技术日新月异,并达到了很好的效果。但是,基于语言文本对图像进行的描述具有一定的局限性,难以满足用户的需求。例如,想要生成的图像中包括形状、位置或者姿态等较为复杂的目标对象(如人或物品等),难以用文本进行描述。具体地,譬如想要生成一个跳舞的女孩的图像,但是,舞蹈的姿态有很多,尤其对于非舞蹈专业人士,难以用语言描述清楚想要生成的舞蹈的姿态,因此,难以生成理想的图像。
[0030]本公开提供了一种图像生成方法,可以将用户输入的文本信息和简单的轮廓线稿作为图像生成的条件,引导图像的生成,得到满足用户需求的图像。提高了图像的生成效果,使得生成的图像与用户的需求相匹配,从而达到了能够按照用户意愿生成图像的目的。
[0031]参见图1,为根据一示例性实施例示出的一种图像生成的场景示意图。下面参考图1,结合一个完整具体的应用实例,对本公开的方案进行示意性说明。该应用实例描述了一个具体的图像生成的过程。
[0032]如图1所示,首先,用户可以提供文本T和线稿图像P,作为引导图像生成的条件。其中,文本T可以是用户对待生成目标图像的简要描述文本,线稿图像P可以是用户根据需要简单勾勒出的待生成目标图像中目标对象的轮廓与位置。例如,用户想生成一个正在跳舞的女孩的图像,则该文本T可以包括“一个正在跳舞的女孩”,线稿图像P可以是用户简单勾勒的女孩的轮廓和舞蹈姿态。
[0033]然后,将文本T输入至模型M1中进行文本特征提取,得到文本T对应的文本向量Rt。其中,文本向量Rt例如可以是文本嵌入向量,模型M1可以是能够从文本中提取文本嵌入向量的模型,本实施例对模型M1的具体类型方面不限定。同时,将线稿图像P输入至编码器E中进行图像特征提取,得到线稿图像P对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成方法,所述方法包括:获取目标文本、线稿图像以及噪声图像;基于所述目标文本和所述线稿图像,得到融合向量;基于所述融合向量对所述噪声图像进行去噪处理,得到与所述目标文本和所述线稿图像匹配的目标图像。2.根据权利要求1所述的方法,其中,所述基于所述目标文本和所述线稿图像,得到融合向量,包括:获取所述目标文本对应的第一特征向量以及所述线稿图像对应的第二特征向量;将所述第一特征向量和所述第二特征向量进行信息融合,得到所述融合向量。3.根据权利要求2所述的方法,其中,将所述第一特征向量和所述第二特征向量进行信息融合包括,利用注意力机制将所述第一特征向量和所述第二特征向量进行信息融合。4.根据权利要求1所述的方法,其中,所述基于所述融合向量对所述噪声图像进行去噪处理,得到与所述目标文本和所述线稿图像匹配的目标图像,包括:利用目标模型执行多步去噪操作,以对所述噪声图像进行去噪处理;其中,所述多步去噪操作中包括至少一步基于所述融合向量进行去噪处理的第一操作。5.根据权利要求4所述的方法,其中,所述第一操作包括:确定待去噪图像;若所述第一操作为所述多步去噪操作的首步操作,所述待去噪图像为所述噪声图像;若该第一操作为非首步操作,所述待去噪图像为上步去噪操作的处理结果;确定该第一操作对应的第一时序向量;利用所述目标模型,基于所述融合向量和所述第一时序向量对所述待去噪图像进行去噪。6.根据权利要求5所述的方法,其中,所述利用所述目标模型,基于所述融合向量和所述第一时序向量对所述待去噪图...

【专利技术属性】
技术研发人员:刘玮孙世奇
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1