当前位置: 首页 > 专利查询>武汉大学专利>正文

基于扩散模型的文本引导可控人像生成方法、系统及设备技术方案

技术编号:41526301 阅读:16 留言:0更新日期:2024-06-03 23:00
本发明专利技术公开了一种基于扩散模型的文本引导可控人像生成方法、系统及设备,首先将提示文本进行条件编码为向量表示;然后基于编码后的提示文本与待处理的源图像x0,生成语义条件指定编辑区域遮罩;最后将源图像、编码后的征提示文本、编辑区域遮罩共同输入基于扩散模型的图像生成网络,生成符合要求的图像。本发明专利技术能有效提高生成图像的可控性和图像质量,减少图像局部模糊,增强图像保真度。

【技术实现步骤摘要】

本专利技术属于图像生成,涉及一种文本引导人像生成方法、系统及设备,具体涉及一种基于扩散模型的文本引导可控人像生成方法、系统及设备


技术介绍

1、近些年,图像生成技术已经取得了显著的发展。文本引导人像生成是通过理解文本描述中的语义,生成与文本描述相对应的人像的任务。该任务结合了自然语言处理和计算机视觉技术,为虚拟人物设计、视觉效果制作、高质量虚拟数据集增强和个性化用户体验等领域提供了创新的可能性。

2、随着深度学习技术的进步,尤其是生成对抗网络(gans)等模型的出现(creswella, white t, dumoulin v, et al. generative adversarial networks: an overview[j]. ieee signal processing magazine, 2018, 35(1): 53-65.),图像生成领域取得了重大突破。近年来,扩散模型(diffusion models)等新兴技术崭露头角(ho j, jain a,abbeel p. denoising diffusion probabi本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的文本引导可控人像生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的文本引导可控人像生成方法,其特征在于:步骤2中,利用区域定位网络ERLM生成语义条件指定的编辑区域遮罩的实现方式如下,

3.根据权利要求2所述的基于扩散模型的文本引导可控人像生成方法,其特征在于:所述区域定位网络ERLM,是训练好的网络;

4.根据权利要求3所述的基于扩散模型的文本引导可控人像生成方法,其特征在于:步骤3中所述基于扩散模型的图像生成网络,包含编码器和解码器;

5.根据权利要求3所述的基于扩散模型的文本引导可控人像...

【技术特征摘要】

1.一种基于扩散模型的文本引导可控人像生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的文本引导可控人像生成方法,其特征在于:步骤2中,利用区域定位网络erlm生成语义条件指定的编辑区域遮罩的实现方式如下,

3.根据权利要求2所述的基于扩散模型的文本引导可控人像生成方法,其特征在于:所述区域定位网络erlm,是训练好的网络;

4.根据权利要求3所述的基于扩散模型的文本引导可控人像生成方法,其特征在于:步骤3中所述基于扩散模型的图...

【专利技术属性】
技术研发人员:叶茫王同鑫张桑绮
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1