一种基于多模态信息的图像处理方法和装置制造方法及图纸

技术编号:41209794 阅读:16 留言:0更新日期:2024-05-09 23:32
本公开涉及计算机视觉技术领域,提供了一种基于多模态信息的图像处理方法和装置。该方法包括:对图像添加t个时间步长对应的随机噪声数据,得到图像对应的噪声图像的特征向量;基于提示文本的特征向量和图像的特征向量进行特征融合处理,得到多模态特征增强向量;基于多模态特征增强向量、提示文本的特征向量,以及噪声图像的特征向量进行t次噪声预测处理,得到噪声图像对应的t个噪声的特征向量;基于t个噪声的特征向量和噪声图像的特征向量,生成包含目标对象的去噪图像,解决现有技术中生成图像准确性偏低的问题,提高图像生成的准确性和效率。

【技术实现步骤摘要】

本公开涉及计算机视觉,尤其涉及一种基于多模态信息的图像处理方法和装置


技术介绍

1、随着人工智能技术不断实现突破迭代,人工智能内容生成的应用越来越广泛。图像作为人工智能内容生成的一种模态,一直在人工智能内容生成领域中扮演着重要角色。近些年来,图像生成技术也取得了很多关键性突破,现有的图像生成方法主要为将特定的文本映射到文本空间得到文本的特征向量并将文本的特征向量转换为对应的图像的特征向量,通过解码器得到文本对应的图像。但上述图像生成方法存在生成图像不够准确等问题。


技术实现思路

1、有鉴于此,本公开实施例提供了一种基于多模态信息的图像处理方法、装置、电子设备及可读存储介质,以解决现有技术中生成图像准确性偏低的问题。

2、本公开实施例的第一方面,提供了一种基于多模态信息的图像处理方法,包括:获取提示文本和图像,提示文本和图像中包含目标对象;对图像添加t个时间步长对应的随机噪声数据,得到图像对应的噪声图像的特征向量,t为正整数;对提示文本进行特征提取,得到提示文本的特征向量,以及对图像进行特征提取,本文档来自技高网...

【技术保护点】

1.一种基于多模态信息的图像处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述提示文本进行特征提取,得到所述提示文本的特征向量,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述图像进行特征提取,得到所述图像的特征向量,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述提示文本的特征向量和所述图像的特征向量进行特征融合处理,得到多模态特征增强向量,包括:

5.根据权利要求1所述的方法,其特征在于,扩散模型包括多个下采样处理模块和多个上采样处理模块,所述基于所述多模态特征增强向量、所述提示...

【技术特征摘要】

1.一种基于多模态信息的图像处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述提示文本进行特征提取,得到所述提示文本的特征向量,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述图像进行特征提取,得到所述图像的特征向量,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述提示文本的特征向量和所述图像的特征向量进行特征融合处理,得到多模态特征增强向量,包括:

5.根据权利要求1所述的方法,其特征在于,扩散模型包括多个下采样处理模块和多个上采样处理模块,所述基于所述多模态特征增强向量、所述提示文本的特征向量,以及所述噪声图像的特征向量进行t次噪声预测处理,得到所述噪声图像对应的t个噪声的特征向量...

【专利技术属性】
技术研发人员:石雅洁
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1