当前位置: 首页 > 专利查询>北京大学专利>正文

一种直接基于对话的图像生成方法和系统技术方案

技术编号:41921978 阅读:28 留言:0更新日期:2024-07-05 14:21
本发明专利技术涉及一种直接基于对话的图像生成方法和系统。该方法的步骤包括:在每轮对话之前通过添加分隔符进行文本连接;对连接后的文本进行文本编码,得到文本嵌入层向量;对输入图像进行图像编码,得到图像嵌入层向量;利用文本嵌入层向量和图像嵌入层向量,采用训练算法对联合噪声预测网络进行微调训练;将给定的对话内容输入微调训练后得到的联合噪声预测网络,联合噪声预测网络利用采样算法得到最终的图像。本发明专利技术针对现有技术中存在的问题,在原有文本生成图像模型基础上进行针对性微调,实现直接基于对话的图像生成,并在分辨率、真实性等维度上,较原有的文本生成图像模型,提升了生成图片的质量。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,具体而言,是关于自然语言处理(nlp)和计算机视觉(cv)领域的多模态交叉应用,尤其涉及一种用于在对话背景下生成高分辨率图像的系统和方法。该系统集成了语言理解和图像生成的技术,提升了现有文本到图像生成的模型处理对话的能力。


技术介绍

1、近年来,随着多模态对话数据集的不断发展,多模态对话模型取得了重要进展。特别是在以图像为基础的对话中,研究者们提出了各种对话建模方法,旨在提高对话系统在多模态对话中的性能。这些方法涉及关联视觉场景和文本表示的技术。例如,divter是一种多模态对话回复生成模型,它能够理解多模态对话背景并生成详细的文本和高分辨率图像作为回复。然而,它并未突破传统的文本到图像生成方法,该方法通常使用简短的图像标题生成图像,无法充分利用对话中丰富的信息。

2、在文本到图像生成领域,研究者们提出了多种创新技术,包括draw生成模型、生成对抗网络以及一系列增强技术,如堆叠生成器和注意力网络。近期,基于transformer的扩散模型也被引入文本到图像生成领域,这些方法具有更强的能力和灵活性。然而,在处理对话到图本文档来自技高网...

【技术保护点】

1.一种直接基于对话的图像生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述通过添加分隔符进行文本连接,包括:通过添加特殊符号‘#’,将所有句子连接起来作为文本输入。

3.根据权利要求1所述的方法,其特征在于,通过文本CLIP模型和线性层进行所述文本编码;通过图像自编码器和图像CLIP模型进行所述图像编码,最终的图像嵌入层向量由两部分的输出连接构成。

4.根据权利要求1所述的方法,其特征在于,选择基于Transformer架构的扩散模型作为所述联合噪声预测网络。

5.根据权利要求1所述的方法,其特征在于,所...

【技术特征摘要】

1.一种直接基于对话的图像生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述通过添加分隔符进行文本连接,包括:通过添加特殊符号‘#’,将所有句子连接起来作为文本输入。

3.根据权利要求1所述的方法,其特征在于,通过文本clip模型和线性层进行所述文本编码;通过图像自编码器和图像clip模型进行所述图像编码,最终的图像嵌入层向量由两部分的输出连接构成。

4.根据权利要求1所述的方法,其特征在于,选择基于transformer架构的扩散模型作为所述联合噪声预测网络。

5.根据权利要求1所述的方法,其特征在于,所述微调训练使用...

【专利技术属性】
技术研发人员:赵东岩孙晓雯冯家展满子庆张诗玉
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1