使用K最近邻扩散的文本到图像生成制造技术

技术编号：42835141 阅读：31 留言：0更新日期：2024-09-24 21:08

公开了使用K最近邻扩散的文本到图像生成。一种用于使用KNN扩散模型进行文本‑图像生成的方法和系统。该方法包括：接收文本输入，以及从嵌入空间中的数据集中确定该文本输入的文本嵌入的K个最接近的图像嵌入，例如，该嵌入空间可以是CLIP嵌入空间。该方法还包括连接文本嵌入和K个最接近的图像嵌入。该方法还包括将所连接的嵌入映射到特征空间中，并基于特征空间生成与输入文本相关联的图像。例如，该特征空间可以是联合多模态文本‑图像空间。

全部详细技术资料下载

【技术实现步骤摘要】

本公开总体涉及在图像数据集上训练的自适应人工智能(artificialintelligence，ai)图像生成模型。更具体地，本公开包括使用k最近邻(k-nearest-neighbor，knn)扩散，响应于文本输入来生成图像、贴纸或动画等。

技术介绍

1、最近，大规模生成式网络已经应用于从文本生成超逼真图像。这些文本到图像模型展示了零次(zero-shot)功能。然而，这些模型需要大型网络规模的成对文本-图像数据集和大量参数(例如，数十亿)。当前的文本到图像生成框架通常使用成对的文本-图像数据集来训练该文本到图像生成框架的模型。一些文本到图像生成框架可以通过在训练和推理中交替地使用预先训练模型的联合文本-图像嵌入，而不需要成对的文本-图像数据集。然而，联合嵌入空间中的文本分布与图像分布之间的差距导致低得多的质量结果。可以在训练期间将噪声添加到图像嵌入中(从而通过噪声使图像分布和文本分布彼此相似)，以帮助消除该差距。然而，例如与图像搜索相比，这些模型缺乏控制和一致性。如此，需要一个更易得到和适应性更强的生成模型。

...

【技术保护点】

1.一种计算机实现的方法，所述计算机实现的方法由至少一个处理器执行，以使用KNN扩散模型进行文本到图像生成，所述方法包括：
2.根据权利要求1所述的计算机实现的方法，还包括：从所述文本输入中提取文本嵌入。
3.根据权利要求1所述的计算机实现的方法，其中，所述数据集是贴纸数据集，并且所述图像是与所述文本输入相关联的贴纸。
4.根据权利要求1所述的计算机实现的方法，进一步包括：基于索引从所述数据集中的多个图像样本中确定所述K个最接近的图像嵌入，其中，所述多个图像样本是通过快速KNN搜索来索引的。
5.根据权利要求1所述的计算机实现的方法，还包括...

【技术特征摘要】

1.一种计算机实现的方法，所述计算机实现的方法由至少一个处理器执行，以使用knn扩散模型进行文本到图像生成，所述方法包括：
2.根据权利要求1所述的计算机实现的方法，还包括：从所述文本输入中提取文本嵌入。
3.根据权利要求1所述的计算机实现的方法，其中，所述数据集是贴纸数据集，并且所述图像是与所述文本输入相关联的贴纸。
4.根据权利要求1所述的计算机实现的方法，进一步包括：基于索引从所述数据集中的多个图像样本中确定所述k个最接近的图像嵌入，其中，所述多个图像样本是通过快速knn搜索来索引的。
5.根据权利要求1所述的计算机实现的方法，还包括：使用预先训练的文本编码器对所述文本输入进行编码，以生成所述文本嵌入。
6.根据权利要求1所述的计算机实现的方法，其中，所述k个最接近的图像嵌入是从对比语言-图像预训练clip嵌入空间中的k个最接近的图像中检索的。
7.根据权利要求1所述的计算机实现的方法，其中，所述特征空间是联合多模态文本-图像空间。
8.根据权利要求1所述的计算机实现的方法，还包括：用掩码令牌初始化所述图像嵌入。
9.根据权利要求1所述的计算机实现的方法，还包括：训练所述knn扩散模型，其中，所述训练包括：
10.根据权利要求9所述的计算机实现的方法，还包括：
11.一种用于使用knn扩散模型进行文本到图像生成的系统，所述系统包括...

【专利技术属性】
技术研发人员：亚尼夫·内希米亚·泰格曼，雪莉·谢宁，奥伦·阿舒尔，亚当·波利亚克，尤里尔·辛格，奥兰·加夫尼，埃利娅·纳赫马尼，
申请(专利权)人：元平台技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

上一篇：样本图像分析装置、服务器、远程阅片求助方法和系统制造方法及图纸
下一篇：用于环境建模的方法和设备、计算机程序产品和存储介质技术

相关技术

头戴式显示器跟踪系统技术方案

使用基于每度硬件像素估计的自动面板增...

具有压力管理设备的电池制造技术

用于虚拟现实头戴式设备的面部接口结构...

用于确定由生物电势信号传感器在传感器...

基于辐辏的眼动追踪制造技术

眼动追踪辅助的透视渲染制造技术

使用头戴式视图器和入耳式设备的HRT...

利用声学回声消除进行定向语音识别的方...

用于人工现实的紧凑型LCoS显示引擎...

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术

响应于确定用户注意力的转移来修改用户...

管理异步时钟域的时钟触发信号制造技术

用于利用活体检测进行车厢内监测的系统...

多设备模型增强制造技术

用于确定信号的包络的设备和方法技术

一种基于神经网络的网络数据识别方法及...

显示装置制造方法及图纸

行为预测方法、模型训练方法及设备技术