一种基于扩散模型的个性化文本到图像生成方法及系统技术方案

技术编号：42378117 阅读：21 留言：0更新日期：2024-08-16 15:03

本发明专利技术涉及人工智能及图像处理技术领域，提出一种基于扩散模型的个性化文本到图像生成方法及系统，包括：获取目标概念图像和目标概念提示词；利用文本逆映射和交叉注意力正则化对潜在扩散模型进行训练，其中仅更新目标概念的文本嵌入，得到第一扩散模型，以及经过更新的目标概念文本嵌入；利用DreamBooth对第一扩散模型进行训练，其中仅微调模型的U‑Net，并利用交叉注意力正则化提升目标概念的注意力图的学习，得到第二扩散模型；基于第二扩散模型，通过微调U‑Net的自注意力层学习目标概念的细节特征，并利用交叉注意力正则化提升目标概念的注意力图的学习，得到第三扩散模型；获取个性化提示词，利用目标概念文本嵌入和第三扩散模型生成个性化概念图像。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能及图像处理，更具体地，涉及一种基于扩散模型的个性化文本到图像生成方法及系统。

技术介绍

1、文本到图像(text-to-image，t2i)个性化指的是使用文本到图像生成模型来创造独特、个性化的图像。得益于文本到图像模型尤其是扩散模型的飞速进展，可以高质量地合成个性化概念图像，并且可以灵活地控制文本。当前的个性化图像生成技术主要分为两类：文本逆映射(textual inversion)和dreambooth。其中，文本逆映射通常指的是将一段文本中的字符、单词或句子以相反的顺序排列。在个性化图像生成领域，文本逆映射通过将目标概念编码到文本嵌入中，对预训练的扩散模型进行个性化。dreambooth技术则通过微调预训练的扩散模型来学习目标概念。具体而言，dreambooth首先使用一个已经在大规模数据集上预训练的扩散模型，然后通过引入特定的个人或对象的少量图片来定制化训练该模型，使模型学会识别和生成与这些特定图片相关的特定特征，在个性化训练之后，用户可以通过文本提示来指导模型生成特定的图像。

2、目前的文本逆...

【技术保护点】

1.一种基于扩散模型的个性化文本到图像生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法，其特征在于，对潜在扩散模型进行训练的过程中，包括以下步骤：

3.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法，其特征在于，对所述第一扩散模型进行训练的过程中，包括以下步骤：

4.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法，其特征在于，对所述第二扩散模型进行训练的过程中，包括以下步骤：

5.根据权利要求1～4所述的基于扩散模型的个性化文本到图像生成方法，其特征在于，所述潜在扩...

【技术特征摘要】

1.一种基于扩散模型的个性化文本到图像生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法，其特征在于，对潜在扩散模型进行训练的过程中，包括以下步骤：

3.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法，其特征在于，对所述第一扩散模型进行训练的过程中，包括以下步骤：

4.根据权利要求1所述的基于扩散模型的个性化文本到图像生成方法，其特征在于，对所述第二扩散模型进行训练的过程中，包括以下步骤：

5.根据权利要求1～4所述的基于扩散模型的个性化文本到图像生成方法，其特征在于，所述潜在扩散模型的训练目标函数表示为：

6.根据权利要求5所述的基于扩散模型的个性化文本到图像生成方法，其特征在于，基于交叉注意力正则化对模型进行训练时，包括以下步骤：在所述潜在扩散模型中的每个交叉注意力层中，最小化v词元和粗略描述词元的注意力图之间的l2距离；其表...

【专利技术属性】
技术研发人员：王琦萍，范子凝，蔚海燕，许鑫，杜刚，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人