一种基于原始像素空间的图片生成方法技术

技术编号：46616053 阅读：1 留言：0更新日期：2025-10-14 21:12

本发明专利技术涉及数字图像处理技术领域，具体为一种基于原始像素空间的图片生成方法。该方法训练一个多阶段神经网络，对于其中每个阶段，通过对一基准图像下采样和上采样来生成源数据，并执行下采样生成目标数据；随后，通过一流匹配目标训练该阶段网络，学习从源数据到目标数据的同分辨率映射；在生成图像时，从一个随机噪声张量开始，在文本条件的引导下，通过常微分方程求解器在阶段1中对其进行变换；然后，将变换结果上采样后送入阶段2，并重复此“变换‑上采样”过程，直至通过所有N个阶段，最终生成目标尺寸的图像。本发明专利技术采用Transformer作为网络骨干，简化了训练流程，避免了潜在空间编解码引入的失真，能够直接、高效地生成高质量图像。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字图像处理，具体为一种基于原始像素空间的图片生成方法。

技术介绍

1、随着人工智能技术的飞速发展，图像生成领域取得了显著的进步。特别是，以扩散模型和流模型为代表的深度生成模型，催生了如stable diffusion、flux、midjourney等一系列高性能的图像生成算法，能够根据文本描述或其他条件输入，生成高分辨率、富有创意且逼真度极高的图像。

2、当前，在高质量图像生成领域占据主导地位的技术范式是基于潜在空间的生成模型，特别是潜在扩散模型。这类方法的核心思想是利用一个预先训练好的变分自编码器将高维度的图像数据压缩到一个维度较低、但保留了主要感知信息的潜在空间中。图像的生成过程，如去噪或流变换，主要在这个计算成本更低的潜在空间内进行。当生成过程完成后，再利用vae的解码器将潜在空间中的表征恢复到原始的像素空间，从而得到最终的图像。这种策略的主要优势在于，通过在低维空间中进行核心的生成计算，极大地降低了模型训练和推理所需的计算资源和时间，使得在消费级硬件上生成高分辨率图像成为可能。

3、然而，...

【技术保护点】

1.一种基于原始像素空间的图片生成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于原始像素空间的图片生成方法，其特征在于，所述步骤S102中，针对每个阶段，所述目标数据样本是通过对所述基准图像执行次下采样操作生成的，并且所述源数据样本是通过对所述同一基准图像执行次下采样操作、并随后对所得结果执行一次上采样操作生成的。

3.根据权利要求1所述的一种基于原始像素空间的图片生成方法，其特征在于，所述统一神经网络基于Transformer架构，并且被配置为通过以下方式操作：首先将输入到每个阶段的特征数据分割成一系列不重叠的图像块，然后将所述图像块线性投影为一系列...

【技术特征摘要】

1.一种基于原始像素空间的图片生成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于原始像素空间的图片生成方法，其特征在于，所述步骤s102中，针对每个阶段，所述目标数据样本是通过对所述基准图像执行次下采样操作生成的，并且所述源数据样本是通过对所述同一基准图像执行次下采样操作、并随后对所得结果执行一次上采样操作生成的。

3.根据权利要求1所述的一种基于原始像素空间的图片生成方法，其特征在于，所述统一神经网络基于transformer架构，并且被配置为通过以下方式操作：首先将输入到每个阶段的特征数据分割成一系列不重叠的图像块，然后将所述图像块线性投影为一系列令牌，所述transformer架构在所述令牌序列上进行操作以捕捉全局依赖关系。

4.根据权利要求1所述的一种基于原始像素空间的图片生成方法，其特征在于，所述步骤s302中的上采样模块被配置为将空间分辨率在高度和宽度维度上提升为两倍以得到，并且所述上采样模块选自以下组中的一种实现方式：

5.根据权利要求4所述的一种基于原始像素空间的图片生成方法，其特征在于，当所述上采样模块为转置卷积层时，其卷积核尺寸被...

【专利技术属性】
技术研发人员：白立华，施其明，刘永坚，
申请(专利权)人：武汉理工数字传播工程有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人