一种图像的生成方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：40870956 阅读：4 留言：0更新日期：2024-04-08 16:38

本申请涉及计算机技术领域，提供了一种图像的生成方法、装置、电子设备及可读存储介质。该方法包括：获取提示语；将提示语输入至图像生成模型中，以使图像生成模型基于提示语生成多张待处理图像；将每个待处理图像与提示语的特征分别进行融合获得与各待处理图像对应的多模态融合特征；将每个多模态融合特征分别输入至图像识别模型中，以使图像识别模型对所有多模态融合特征对应的待处理图像进行评分；基于所有待处理图像的评分从所有待处理图像中筛选得到待推送图像并将待推送图像发送至用户终端。本申请解决了现有技术中生成的图像无法满足用户需求的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种图像的生成方法、装置、电子设备及可读存储介质。

技术介绍

1、在图像生成的大规模预训练扩散模型中，实现了将用户输入的一段文字作为提示语生成图像。其生成图像的过程采用了深层学习技术，基于学习到的文字作为指导条件，得到初步含有噪声的图像，之后通过逐步的去噪生成提示语对应的图像。

2、但由于语言的模糊性和多样性，存在有对用户输入的提示语理解不准确的问题，大规模预训练扩散模型基于提示语生成的图像准确度较低，无法满足用户的对于生成图像的需求。现有技术中，对于生成图像的处理方面普遍基于提高模型对文字的理解能力，对于生成的图像保留了主体特征，无法满足用户多样化的需求。

3、由此可见，现有技术中存在有对于生成的图像无法满足用户需求的技术问题。

技术实现思路

1、有鉴于此，本申请实施例提供了一种图像的生成方法、装置、电子设备及可读存储介质，以解决现有技术中生成图像不准确的问题。

2、本申请实施例的第一方面，提供了一种图像生成的方法，包括：

3、获取提示语，其中提示语用于指示图像生成模型生成图像；

4、将提示语输入至图像生成模型中，以使图像生成模型基于提示语生成多张待处理图像；

5、将每个待处理图像与提示语的特征分别进行融合获得与各待处理图像对应的多模态融合特征；

6、将每个多模态融合特征分别输入至图像识别模型中，以使图像识别模型对所有多模态融合特征对应的待处理图像进行评分；

8、本申请实施例的第二方面，提供了一种图像生成的装置，包括：

9、获取模块，用于获取提示语，其中提示语用于指示图像生成模型生成图像；

10、图像生成模块，用于将提示语输入至图像生成模型中，以使图像生成模型基于提示语生成多张待处理图像；

11、融合模块，用于将每个待处理图像与提示语的特征分别进行融合获得与各待处理图像对应的多模态融合特征；

12、评分模块，用于将每个多模态融合特征分别输入至图像识别模型中，以使图像识别模型对所有多模态融合特征对应的待处理图像进行评分；

13、执行模块，用于基于所有待处理图像的评分从所有待处理图像中筛选得到待推送图像并将待推送图像发送至用户终端。

14、本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

15、本申请实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

16、本申请实施例与现有技术相比存在的有益效果是：通过获取提示语，将提示语输入至图像生成模型中，基于提示语中语义信息与图像的对应关系，生成了多张待处理图像，由于语义的多样性，模型生成的图像与提示语之间关系不能确定，因此将提示语分别和所有的待处理图像进行融合，得到与各待处理图像对应的多模态融合特征，其中的多模态融合特征包含了对应待处理图像的图像特征以及提示语的文字特征，之后将每个多模态融合特征向量输入至图像识别模型中，使得图像识别模型对待处理图像进行了评分，之后，基于所得到的评分使得可以根据用户的需求对待处理图像进行筛选得到待推送图像，最后将待推送图像输出到用户的用户终端，由于待推送图像更加符合用户输入的提示语，从而使得推送至用户的图像更加符合用户需求，提高了将生成图像推送至用户的准确度。

本文档来自技高网...

【技术保护点】

1.一种图像的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将所述提示语输入至图像生成模型中，以使所述图像生成模型基于所述提示语生成多张待处理图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述将每个所述待处理图像与所述提示语的特征分别进行融合获得与各所述待处理图像对应的多模态融合特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述将每个所述待处理图像与所述提示语的特征分别进行融合获得与各所述待处理图像对应的多模态融合特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所有所述待处理图像的评分从所有所述待处理图像中筛选得到待推送图像并将所述待推送图像发送至用户终端，包括：

6.根据权利要求5所述的方法，其特征在于，所述将筛选后的所述待推送图像按照预设推送规则推送至用户终端，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，在基于所有所述待处理图像的评分从所有所述待处理图像中筛选得到待推送图像并将所述待推送图像发送至用户终端之后，还包括：

<...

【技术特征摘要】

1.一种图像的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将所述提示语输入至图像生成模型中，以使所述图像生成模型基于所述提示语生成多张待处理图像，包括：

6...

【专利技术属性】
技术研发人员：王洪洪，赵淳，王浩宇，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人