视觉内容生成方法、装置及电子设备制造方法及图纸

技术编号:46586827 阅读:0 留言:0更新日期:2025-10-10 21:22
本公开涉及一种视觉内容生成方法、装置及电子设备;视觉内容生成方法,包括:获取原始视觉内容和用于生成所述原始视觉内容的原始提示文本;通过预训练的多模态模型,根据所述原始视觉内容,确定第一反向文本,所述第一反向文本用于描述所述原始视觉内容;根据所述第一反向文本,对所述原始提示文本进行重构,得到重构提示文本;通过预训练的扩散模型,根据所述重构提示文本,生成目标视觉内容。该视觉内容生成方法、装置及电子设备可以提高视觉内容生成的质量。

【技术实现步骤摘要】

本公开涉及计算机,具体地,涉及一种视觉内容生成方法、装置及电子设备


技术介绍

1、随着人工智能技术的发展,人工智能技术被逐渐应用于视觉内容的生成场景。扩散模型,可以通过逐步去噪的方式生成视觉内容,其生成的视觉内容在细节丰富度和想象力方面具有显著优势,被广泛应用于各种视觉内容的生成场景中。

2、然而,相关技术中,由于一些原因的影响,扩散模型生成的视觉内容的质量难以得到保证。


技术实现思路

1、本公开的目的是提供一种视觉内容生成方法、装置及电子设备,该视觉内容生成方法、装置及电子设备,可以提高视觉内容生成的质量。

2、为了实现上述目的,第一方面,本公开提供一种视觉内容生成方法,包括:获取原始视觉内容和用于生成所述原始视觉内容的原始提示文本;通过预训练的多模态模型,根据所述原始视觉内容,确定第一反向文本,所述第一反向文本用于描述所述原始视觉内容;根据所述第一反向文本,对所述原始提示文本进行重构,得到重构提示文本;通过预训练的扩散模型,根据所述重构提示文本,生成目标视觉内容。

3本文档来自技高网...

【技术保护点】

1.一种视觉内容生成方法,其特征在于,包括:

2.根据权利要求1所述的视觉内容生成方法,其特征在于,所述根据所述第一反向文本,对所述原始提示文本进行重构,得到重构提示文本,包括:

3.根据权利要求2所述的视觉内容生成方法,其特征在于,所述通过预训练的大语言模型,根据所述原始提示文本和所述第一反向文本,确定所述原始视觉内容的质量,包括:

4.根据权利要求2所述的视觉内容生成方法,其特征在于,所述根据所述原始视觉内容的质量,对所述原始提示文本进行重构,得到重构提示文本,包括:

5.根据权利要求1所述的视觉内容生成方法,其特征在于,所述通过预训练...

【技术特征摘要】

1.一种视觉内容生成方法,其特征在于,包括:

2.根据权利要求1所述的视觉内容生成方法,其特征在于,所述根据所述第一反向文本,对所述原始提示文本进行重构,得到重构提示文本,包括:

3.根据权利要求2所述的视觉内容生成方法,其特征在于,所述通过预训练的大语言模型,根据所述原始提示文本和所述第一反向文本,确定所述原始视觉内容的质量,包括:

4.根据权利要求2所述的视觉内容生成方法,其特征在于,所述根据所述原始视觉内容的质量,对所述原始提示文本进行重构,得到重构提示文本,包括:

5.根据权利要求1所述的视觉内容生成方法,其特征在于,所述通过预训练的扩散模型,根据所述重构提示文本,生成目标视觉内容,包括:

6.根据权利要求5所述的视觉内容生成方法,其特征在于,所述对所述预训练的扩散模型进行迭代降噪控制,包括:

7.根据权利要求6所述的视觉内容生成方法,其特征在于,所述对所述预训练的扩散模型的迭代降噪进行评估,得到评估信息,包括:

<...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:北京电子数智科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1