使用K最近邻扩散的文本到图像生成制造技术

技术编号:42835141 阅读:31 留言:0更新日期:2024-09-24 21:08
公开了使用K最近邻扩散的文本到图像生成。一种用于使用KNN扩散模型进行文本‑图像生成的方法和系统。该方法包括:接收文本输入,以及从嵌入空间中的数据集中确定该文本输入的文本嵌入的K个最接近的图像嵌入,例如,该嵌入空间可以是CLIP嵌入空间。该方法还包括连接文本嵌入和K个最接近的图像嵌入。该方法还包括将所连接的嵌入映射到特征空间中,并基于特征空间生成与输入文本相关联的图像。例如,该特征空间可以是联合多模态文本‑图像空间。

【技术实现步骤摘要】

本公开总体涉及在图像数据集上训练的自适应人工智能(artificialintelligence,ai)图像生成模型。更具体地,本公开包括使用k最近邻(k-nearest-neighbor,knn)扩散,响应于文本输入来生成图像、贴纸或动画等。


技术介绍

1、最近,大规模生成式网络已经应用于从文本生成超逼真图像。这些文本到图像模型展示了零次(zero-shot)功能。然而,这些模型需要大型网络规模的成对文本-图像数据集和大量参数(例如,数十亿)。当前的文本到图像生成框架通常使用成对的文本-图像数据集来训练该文本到图像生成框架的模型。一些文本到图像生成框架可以通过在训练和推理中交替地使用预先训练模型的联合文本-图像嵌入,而不需要成对的文本-图像数据集。然而,联合嵌入空间中的文本分布与图像分布之间的差距导致低得多的质量结果。可以在训练期间将噪声添加到图像嵌入中(从而通过噪声使图像分布和文本分布彼此相似),以帮助消除该差距。然而,例如与图像搜索相比,这些模型缺乏控制和一致性。如此,需要一个更易得到和适应性更强的生成模型。


技术实现思路<本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法,所述计算机实现的方法由至少一个处理器执行,以使用KNN扩散模型进行文本到图像生成,所述方法包括:

2.根据权利要求1所述的计算机实现的方法,还包括:从所述文本输入中提取文本嵌入。

3.根据权利要求1所述的计算机实现的方法,其中,所述数据集是贴纸数据集,并且所述图像是与所述文本输入相关联的贴纸。

4.根据权利要求1所述的计算机实现的方法,进一步包括:基于索引从所述数据集中的多个图像样本中确定所述K个最接近的图像嵌入,其中,所述多个图像样本是通过快速KNN搜索来索引的。

5.根据权利要求1所述的计算机实现的方法,还包括...

【技术特征摘要】

1.一种计算机实现的方法,所述计算机实现的方法由至少一个处理器执行,以使用knn扩散模型进行文本到图像生成,所述方法包括:

2.根据权利要求1所述的计算机实现的方法,还包括:从所述文本输入中提取文本嵌入。

3.根据权利要求1所述的计算机实现的方法,其中,所述数据集是贴纸数据集,并且所述图像是与所述文本输入相关联的贴纸。

4.根据权利要求1所述的计算机实现的方法,进一步包括:基于索引从所述数据集中的多个图像样本中确定所述k个最接近的图像嵌入,其中,所述多个图像样本是通过快速knn搜索来索引的。

5.根据权利要求1所述的计算机实现的方法,还包括:使用预先训练的文本编码器对所述文本输入进行编码,以生成所述文本嵌入。

6.根据权利要求1所述的计算机实现的方法,其中,所述k个最接近的图像嵌入是从对比语言-图像预训练clip嵌入空间中的k个最接近的图像中检索的。

7.根据权利要求1所述的计算机实现的方法,其中,所述特征空间是联合多模态文本-图像空间。

8.根据权利要求1所述的计算机实现的方法,还包括:用掩码令牌初始化所述图像嵌入。

9.根据权利要求1所述的计算机实现的方法,还包括:训练所述knn扩散模型,其中,所述训练包括:

10.根据权利要求9所述的计算机实现的方法,还包括:

11.一种用于使用knn扩散模型进行文本到图像生成的系统,所述系统包括...

【专利技术属性】
技术研发人员:亚尼夫·内希米亚·泰格曼雪莉·谢宁奥伦·阿舒尔亚当·波利亚克尤里尔·辛格奥兰·加夫尼埃利娅·纳赫马尼
申请(专利权)人:元平台技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1