一种直接基于对话的图像生成方法和系统技术方案

技术编号：41921978 阅读：21 留言：0更新日期：2024-07-05 14:21

本发明专利技术涉及一种直接基于对话的图像生成方法和系统。该方法的步骤包括：在每轮对话之前通过添加分隔符进行文本连接；对连接后的文本进行文本编码，得到文本嵌入层向量；对输入图像进行图像编码，得到图像嵌入层向量；利用文本嵌入层向量和图像嵌入层向量，采用训练算法对联合噪声预测网络进行微调训练；将给定的对话内容输入微调训练后得到的联合噪声预测网络，联合噪声预测网络利用采样算法得到最终的图像。本发明专利技术针对现有技术中存在的问题，在原有文本生成图像模型基础上进行针对性微调，实现直接基于对话的图像生成，并在分辨率、真实性等维度上，较原有的文本生成图像模型，提升了生成图片的质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，具体而言，是关于自然语言处理(nlp)和计算机视觉(cv)领域的多模态交叉应用，尤其涉及一种用于在对话背景下生成高分辨率图像的系统和方法。该系统集成了语言理解和图像生成的技术，提升了现有文本到图像生成的模型处理对话的能力。

技术介绍

1、近年来，随着多模态对话数据集的不断发展，多模态对话模型取得了重要进展。特别是在以图像为基础的对话中，研究者们提出了各种对话建模方法，旨在提高对话系统在多模态对话中的性能。这些方法涉及关联视觉场景和文本表示的技术。例如，divter是一种多模态对话回复生成模型，它能够理解多模态对话背景并生成详细的文本和高分辨率图像作为回复。然而，它并未突破传统的文本到图像生成方法，该方法通常使用简短的图像标题生成图像，无法充分利用对话中丰富的信息。

2、在文本到图像生成领域，研究者们提出了多种创新技术，包括draw生成模型、生成对抗网络以及一系列增强技术，如堆叠生成器和注意力网络。近期，基于transformer的扩散模型也被引入文本到图像生成领域，这些方法具有更强的能力和灵活性。然而，在处理对话到图像的直接生成任务时，这些方法仍然存在限制。

3、在现有技术中，一些研究者尝试使用文本到图像生成的模型，例如dall·e和latent diffusion model等，来生成图像。然而，这些模型在直接应用于对话背景时遇到了困难。用户期望基于对话生成的图片具有以下特点：

4、1.展示丰富语境信息：生成的图片应该能够展示对话中包含的丰富语境信息。传统的文本到

5、2.高分辨率和细节展示：生成的图片应该具有高分辨率，能够充分展示细节。尤其是在处理现实生活中的图像时，现有的文本到图像生成模型在生成真实人脸等细节方面仍然存在困难。

6、3.与真实世界一致的风格：生成的图片应该具有与真实世界一致的风格。现有文本到图像生成的数据集通常包含大量卡通风格的图像，这在直接应用于现实对话时可能导致图像风格奇怪，和真实的照片不相似。

7、在当前技术背景下，本专利技术旨在克服上述挑战，提供一种创新的方法来实现基于对话的高质量图像生成。

技术实现思路

1、针对现有技术中存在的问题，本专利技术的目的在于提供一种基于对话的图像生成方法和系统。该方法和系统源于在原有文本生成图像模型基础上的针对性微调，实现直接基于对话的图像生成，并在分辨率、真实性等维度上，较原有的文本生成图像模型，提升了生成图片的质量。

2、本专利技术提供一种直接基于对话的图像生成方法，包括以下步骤：

3、在每轮对话之前通过添加分隔符进行文本连接；

4、对连接后的文本进行文本编码，得到文本嵌入层向量；

5、对输入图像进行图像编码，得到图像嵌入层向量；

6、利用文本嵌入层向量和图像嵌入层向量，采用训练算法对联合噪声预测网络进行微调训练；

7、将给定的对话内容输入微调训练后得到的联合噪声预测网络，联合噪声预测网络利用采样算法得到最终的图像。

8、进一步地，所述通过添加分隔符进行文本连接，包括：通过添加特殊符号‘#’，将所有句子连接起来作为文本输入。

9、进一步地，通过文本clip模型和线性层进行所述文本编码；通过图像自编码器和图像clip模型进行所述图像编码，最终的图像嵌入层向量由两部分的输出连接构成。

10、进一步地，选择基于transformer架构的扩散模型作为所述联合噪声预测网络。

11、进一步地，所述微调训练使用的损失函数如下：

12、

13、其中，(x0,y0)是一个随机数据点，x0表示图像数据，y0表示文本数据；[,]表示连接；tx,ty表示从集合{1,2,...,t}中按照均匀分布独立采样得到的时间步；∈x,∈y分别表示在时间步tx,ty向原始数据x0,y0注入的从标准高斯分布中采样得到随机噪声；表示对原始数据x0,y0注入噪声后得到的加噪数据；∈θ表示联合噪声预测网络；表示联合噪声预测网络预测的噪声；表示预测噪声和真实噪声[∈x,∈y]的均方误差的期望。

14、本专利技术还提供一种基于对话的图像生成系统，包含如下模块：

15、文本连接模块，用于在每轮对话之前通过添加分隔符进行文本连接；

16、文本编码模块，用于对连接后的文本进行文本编码，得到文本嵌入层向量；

17、图像编码模块，用于对输入图像进行图像编码，得到图像嵌入层向量；

18、微调训练模块，用于利用文本嵌入层向量和图像嵌入层向量，采用训练算法对联合噪声预测网络进行微调训练；

19、图像生成模块，用于将给定的对话内容输入微调训练后得到的联合噪声预测网络，联合噪声预测网络利用采样算法得到最终的图像。

20、进一步地，文本连接模块，包括：根据对话的独特结构，为区分不同的说话者以帮助模型全面理解对话语境，在每轮对话之前添加特殊符号‘#’，然后将所有句子连接起来作为最终的文本输入。

21、进一步地，使用基于transformer架构的扩散模型作为本专利技术的联合噪声预测网络。

22、进一步地，图像编码模块，包括：在stable diffusion中使用的图像自编码器与图像clip。最终的图像嵌入层x0由这两部分的输出连接构成。

23、进一步地，文本编码模块，包括：与stable diffusion相同的文本clip。文本clip输出77个向量，每个向量768维。通过额外的线性层，将每个向量的维度减少到64维，获得最终的文本嵌入层y0。

24、进一步地，微调训练模块基于上述模块获取的关于图片和文本两部分嵌入层，通过训练算法微调联合噪声预测网络，得到最终的预测噪声。在预测阶段，图像生成模块按照改进过的扩散模型的采样算法，基于给定的文本内容生成对应的图像。

25、本专利技术的优点如下：

26、1.这是已知的第一项完全致力于对话到图像生成的专利技术。相较于传统的文本到图像生成，这一创新性的专利技术在处理对话场景中的图像生成方面走在了前沿。

27、2.首次探索将文本到图像模型用于对话到图像生成任务，并发现仅仅将对话到图像的生成视为文本到图像的生成是存在着诸多问题与挑战的。本专利技术提出了一种有效的方法，能够根据对话背景生成高分辨率的图像回复。

28、3.在photochat语料库进行的一系列实验表明了本专利技术的有效性，本专利技术将之前的文本到图像生成模型用于对话到图像生成任务后，实现了一致的改进。

本文档来自技高网...

【技术保护点】

1.一种直接基于对话的图像生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述通过添加分隔符进行文本连接，包括：通过添加特殊符号‘#’，将所有句子连接起来作为文本输入。

3.根据权利要求1所述的方法，其特征在于，通过文本CLIP模型和线性层进行所述文本编码；通过图像自编码器和图像CLIP模型进行所述图像编码，最终的图像嵌入层向量由两部分的输出连接构成。

4.根据权利要求1所述的方法，其特征在于，选择基于Transformer架构的扩散模型作为所述联合噪声预测网络。

5.根据权利要求1所述的方法，其特征在于，所述微调训练使用的损失函数如下：

6.根据权利要求1所述的方法，其特征在于，所述训练算法包括以下步骤：

7.根据权利要求1所述的方法，其特征在于，所述采样算法包括以下步骤：：

8.一种直接基于对话的图像生成系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。

...

【技术特征摘要】

1.一种直接基于对话的图像生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述通过添加分隔符进行文本连接，包括：通过添加特殊符号‘#’，将所有句子连接起来作为文本输入。

3.根据权利要求1所述的方法，其特征在于，通过文本clip模型和线性层进行所述文本编码；通过图像自编码器和图像clip模型进行所述图像编码，最终的图像嵌入层向量由两部分的输出连接构成。

4.根据权利要求1所述的方法，其特征在于，选择基于transformer架构的扩散模型作为所述联合噪声预测网络。

5.根据权利要求1所述的方法，其特征在于，所述微调训练使用...

【专利技术属性】
技术研发人员：赵东岩，孙晓雯，冯家展，满子庆，张诗玉，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人