模型训练方法及装置、图像生成方法、电子设备制造方法及图纸

技术编号：39932703 阅读：26 留言：0更新日期：2024-01-08 21:56

本发明专利技术公开了一种模型训练方法及装置、图像生成方法、电子设备、存储介质；所述方法包括：获取目标数据集，所述目标数据集包括多个目标图文对数据，每个所述目标图文对数据包括原始图像、第一语言图像描述信息和第二语言图像描述信息；通过所述目标数据集对初始的文生图模型进行训练，得到训练好的文生图模型，所述训练好的文生图模型的输入数据包括采用所述第一语言或者所述第二语言描述的文本信息。所述方法能够训练出双语的文生图模型，不需要引入额外的翻译工具即可通过其他语言的文本描述信息生成高质量的图片，同时也支持原生语言的文本描述信息。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及模型训练，涉及但不限于一种模型训练方法及装置、图像生成方法、电子设备、存储介质。

技术介绍

1、近些年文本生成图像t2i领域发展迅猛，基于文本的图像生成技术在很多场景上具有广泛应用，包括手机主题商个性化壁纸创作，ppt创意图像素材获取，虚拟空间中的内容创造，多模态的对话交互系统等。

2、目前文本生成图像模型即文生图模型的主要挑战在于只支持英文输入，非英文使用者只能借助一些翻译工具，而这样就会导致一些翻译带来的误差，特别对于一些文化差异较大的描述。比如中文描述“鸡蛋灌饼”会被翻译成“egg cake”，这种错误翻译出来的描述生成的图片没有办法满足我们的需求。

技术实现思路

1、有鉴于此，本申请实施例提供的模型训练方法及装置、图像生成方法、电子设备、存储介质，能够训练出双语的文生图模型，不需要引入额外的翻译工具即可通过其他语言的文本描述信息生成高质量的图片，同时也支持原生语言的文本描述信息。

2、第一方面，本申请实施例提供的模型训练方法，包括：

<...

【技术保护点】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标数据集，包括：

3.根据权利要求2所述的方法，其特征在于，所述每个初始图文对数据包括的所述原始图像的分辨率满足预设分辨率要求，所述预设分辨率要求为水平像素点数量以及垂直像素点数量均大于或者等于预设像素点数量。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述过滤后的数据集中各个初始图文对数据对应的所述原始图像和原始图像描述信息，得到所述目标数据集，包括：

5.根据权利要求1所述的方法，其特征在于，所述初始的文生图模型包括目标UNET模型...

【技术特征摘要】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标数据集，包括：

5.根据权利要求1所述的方法，其特征在于，所述初始的文生图模型包括目标unet模型，所述目标unet模型包括基于注意力机制层的k，v矩阵，以及时间嵌入层，所述通过所述目标数据集对初始的文生图模型进行训练，得到训练好的文生图模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述通过所述目标数据集对所述目标unet模型的所述基于注意力机制层的k，v矩阵，以及所述时间嵌入层进行训练，得到所述训练好的文生图模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述目标数据集的所述原始图像和所述第一语言图像描...

【专利技术属性】
技术研发人员：马建，陈宸，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人