【技术实现步骤摘要】
本专利技术涉及人工智能领域,具体而言,是关于自然语言处理(nlp)和计算机视觉(cv)领域的多模态交叉应用,尤其涉及一种用于在对话背景下生成高分辨率图像的系统和方法。该系统集成了语言理解和图像生成的技术,提升了现有文本到图像生成的模型处理对话的能力。
技术介绍
1、近年来,随着多模态对话数据集的不断发展,多模态对话模型取得了重要进展。特别是在以图像为基础的对话中,研究者们提出了各种对话建模方法,旨在提高对话系统在多模态对话中的性能。这些方法涉及关联视觉场景和文本表示的技术。例如,divter是一种多模态对话回复生成模型,它能够理解多模态对话背景并生成详细的文本和高分辨率图像作为回复。然而,它并未突破传统的文本到图像生成方法,该方法通常使用简短的图像标题生成图像,无法充分利用对话中丰富的信息。
2、在文本到图像生成领域,研究者们提出了多种创新技术,包括draw生成模型、生成对抗网络以及一系列增强技术,如堆叠生成器和注意力网络。近期,基于transformer的扩散模型也被引入文本到图像生成领域,这些方法具有更强的能力和灵活性。
...【技术保护点】
1.一种直接基于对话的图像生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述通过添加分隔符进行文本连接,包括:通过添加特殊符号‘#’,将所有句子连接起来作为文本输入。
3.根据权利要求1所述的方法,其特征在于,通过文本CLIP模型和线性层进行所述文本编码;通过图像自编码器和图像CLIP模型进行所述图像编码,最终的图像嵌入层向量由两部分的输出连接构成。
4.根据权利要求1所述的方法,其特征在于,选择基于Transformer架构的扩散模型作为所述联合噪声预测网络。
5.根据权利要求1所述的
...【技术特征摘要】
1.一种直接基于对话的图像生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述通过添加分隔符进行文本连接,包括:通过添加特殊符号‘#’,将所有句子连接起来作为文本输入。
3.根据权利要求1所述的方法,其特征在于,通过文本clip模型和线性层进行所述文本编码;通过图像自编码器和图像clip模型进行所述图像编码,最终的图像嵌入层向量由两部分的输出连接构成。
4.根据权利要求1所述的方法,其特征在于,选择基于transformer架构的扩散模型作为所述联合噪声预测网络。
5.根据权利要求1所述的方法,其特征在于,所述微调训练使用...
【专利技术属性】
技术研发人员:赵东岩,孙晓雯,冯家展,满子庆,张诗玉,
申请(专利权)人:北京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。