图像生成方法、装置、电子设备、存储介质和程序产品制造方法及图纸

技术编号:40198800 阅读:34 留言:0更新日期:2024-01-27 00:03
本申请公开了一种图像生成方法、装置、电子设备、存储介质和程序产品,可以应用于计算机视觉、机器学习等人工智能领域,也可以应用于预训练模型等大模型领域;本申请获取待处理描述文本以及参考图像;从所述待处理描述文本以及所述参考图像中,分别提取文本特征以及视觉特征;根据所述文本特征以及所述视觉特征,得到语义引导特征;向所述参考图像中加入参考噪声,得到加噪图像;通过所述语义引导特征,对所述加噪图像进行噪声预测,得到预测噪声;基于所述预测噪声,对所述加噪图像进行修复,以生成目标图像。由此,本申请将视觉特征引入语义引导特征中,以结合文本特征尽可能还原出具象的图像,提高生成图像的质量。

【技术实现步骤摘要】

本申请涉及计算机,具体涉及一种图像生成方法、装置、电子设备、存储介质和程序产品


技术介绍

1、近年来,随着人工智能技术的发展,根据文本提示生成图像的技术已经越发成熟。图像生成模型,尤其是扩散模型(diffusion model),可以基于用户输入的文本进行图像绘制,生成与文本相关的预测图像。

2、然而,由于文本具象性差,很难清晰的描述一个事物,比如人物形象,文本难以具象描述人物五官,导致图像生成模型无法准确地捕捉到细节,导致训练后图像生成模型生成的图像质量较差。


技术实现思路

1、本申请实施例提供一种图像生成方法、装置、电子设备、存储介质和程序产品,可以提高生成图像的质量。

2、本申请实施例提供一种图像生成方法,包括:获取待处理描述文本以及参考图像;从所述待处理描述文本以及所述参考图像中,分别提取文本特征以及视觉特征;根据所述文本特征以及所述视觉特征,得到语义引导特征;向所述参考图像中加入参考噪声,得到加噪图像;通过所述语义引导特征,对所述加噪图像进行噪声预测,得到预测噪声;基于所述本文档来自技高网...

【技术保护点】

1.一种图像生成方法,其特征在于,包括:

2.如权利要求1所述的图像生成方法,其特征在于,所述视觉特征通过如下步骤得到:

3.如权利要求1所述的图像生成方法,其特征在于,所述根据所述文本特征以及所述视觉特征,得到语义引导特征之前,还包括:

4.如权利要求1所述的图像生成方法,其特征在于,所述通过所述语义引导特征,对所述加噪图像进行噪声预测,得到预测噪声,包括:

5.如权利要求4所述的图像生成方法,其特征在于,所述针对任一尺度的所述采样特征,对所述语义引导特征以及所述采样特征进行交叉注意力处理,得到注意力特征,包括:>

6.如权利要...

【技术特征摘要】

1.一种图像生成方法,其特征在于,包括:

2.如权利要求1所述的图像生成方法,其特征在于,所述视觉特征通过如下步骤得到:

3.如权利要求1所述的图像生成方法,其特征在于,所述根据所述文本特征以及所述视觉特征,得到语义引导特征之前,还包括:

4.如权利要求1所述的图像生成方法,其特征在于,所述通过所述语义引导特征,对所述加噪图像进行噪声预测,得到预测噪声,包括:

5.如权利要求4所述的图像生成方法,其特征在于,所述针对任一尺度的所述采样特征,对所述语义引导特征以及所述采样特征进行交叉注意力处理,得到注意力特征,包括:

6.如权利要求4所述的图像生成方法,其特征在于,所述由所述注意力特征得到所述预测噪声,包括:

7.如权利要求1~6任一项所述的图像生成方法,其特征在于,所述方法,还包括:

8.如权利要求7所述的图像生成方法,其特征在于,所述样本描述文本通过如下步骤得到:

9.如权利要求7所述的图像生成方法,其特征在于,所述根据所述预测噪声与所述样本噪声之间的...

【专利技术属性】
技术研发人员:华锐
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1