一种基于扩散模型的个性化文本到图像生成方法及系统技术方案

技术编号:42378117 阅读:21 留言:0更新日期:2024-08-16 15:03
本发明专利技术涉及人工智能及图像处理技术领域,提出一种基于扩散模型的个性化文本到图像生成方法及系统,包括:获取目标概念图像和目标概念提示词;利用文本逆映射和交叉注意力正则化对潜在扩散模型进行训练,其中仅更新目标概念的文本嵌入,得到第一扩散模型,以及经过更新的目标概念文本嵌入;利用DreamBooth对第一扩散模型进行训练,其中仅微调模型的U‑Net,并利用交叉注意力正则化提升目标概念的注意力图的学习,得到第二扩散模型;基于第二扩散模型,通过微调U‑Net的自注意力层学习目标概念的细节特征,并利用交叉注意力正则化提升目标概念的注意力图的学习,得到第三扩散模型;获取个性化提示词,利用目标概念文本嵌入和第三扩散模型生成个性化概念图像。

【技术实现步骤摘要】

本专利技术涉及人工智能及图像处理,更具体地,涉及一种基于扩散模型的个性化文本到图像生成方法及系统


技术介绍

1、文本到图像(text-to-image,t2i)个性化指的是使用文本到图像生成模型来创造独特、个性化的图像。得益于文本到图像模型尤其是扩散模型的飞速进展,可以高质量地合成个性化概念图像,并且可以灵活地控制文本。当前的个性化图像生成技术主要分为两类:文本逆映射(textual inversion)和dreambooth。其中,文本逆映射通常指的是将一段文本中的字符、单词或句子以相反的顺序排列。在个性化图像生成领域,文本逆映射通过将目标概念编码到文本嵌入中,对预训练的扩散模型进行个性化。dreambooth技术则通过微调预训练的扩散模型来学习目标概念。具体而言,dreambooth首先使用一个已经在大规模数据集上预训练的扩散模型,然后通过引入特定的个人或对象的少量图片来定制化训练该模型,使模型学会识别和生成与这些特定图片相关的特定特征,在个性化训练之后,用户可以通过文本提示来指导模型生成特定的图像。

2、目前的文本逆映射技术能够有效地学本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的个性化文本到图像生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法,其特征在于,对潜在扩散模型进行训练的过程中,包括以下步骤:

3.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法,其特征在于,对所述第一扩散模型进行训练的过程中,包括以下步骤:

4.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法,其特征在于,对所述第二扩散模型进行训练的过程中,包括以下步骤:

5.根据权利要求1~4所述的基于扩散模型的个性化文本到图像生成方法,其特征在于,所述潜在扩...

【技术特征摘要】

1.一种基于扩散模型的个性化文本到图像生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法,其特征在于,对潜在扩散模型进行训练的过程中,包括以下步骤:

3.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法,其特征在于,对所述第一扩散模型进行训练的过程中,包括以下步骤:

4.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法,其特征在于,对所述第二扩散模型进行训练的过程中,包括以下步骤:

5.根据权利要求1~4所述的基于扩散模型的个性化文本到图像生成方法,其特征在于,所述潜在扩散模型的训练目标函数表示为:

6.根据权利要求5所述的基于扩散模型的个性化文本到图像生成方法,其特征在于,基于交叉注意力正则化对模型进行训练时,包括以下步骤:在所述潜在扩散模型中的每个交叉注意力层中,最小化v词元和粗略描述词元的注意力图之间的l2距离;其表...

【专利技术属性】
技术研发人员:王琦萍范子凝蔚海燕许鑫杜刚
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1