【技术实现步骤摘要】
本申请涉及图像生成,尤其涉及一种基于三重控制文生图模型的图像生成方法及系统。
技术介绍
1、用户可以通过输入提示词来引导文生图模型生成图像,然而,相关技术仅用文本描述心中所想的图像往往效率低下,简短的描述难以准确捕捉心中的画面。这常常导致需要输入更多的提示词并多次尝试才能生成满意的图像,而对于相关技术有一些研究致力于开发可控制的文生图模型,例如,composer模型探索了将多种控制信号与文本描述集成的方法,但其对gpu资源的需求非常高,这使得普通研究人员难以复制其研究成果,同时也没有有效利用现有的预训练模型。另外,如controlnet和t2i adapter等研究虽然允许使用不同的控制条件来控制生成过程,但也存在缺陷。首先,当存在多个控制条件时,它们需要训练多个控制适配器模型,这导致模型推理所需的资源随控制条件的增加而线性增长。其次,这些研究的图像编码器未能充分理解用于控制的图像的视觉特征。另外,这些模型的可控性不足,无法实现完全的控制。例如,controlnet只将控制信息融入到stable diffusion去噪模型的解码器部分,
...【技术保护点】
1.一种基于三重控制文生图模型的图像生成方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述三重控制文生图模型包括稳定扩散模型、第一适配器网络、第二适配器网络、第三适配器网络、文本编码器与交叉注意力模块,其中,所述第一适配器网络的输出端与所述稳定扩散模型的第一输入端连接,所述第二适配器网络的输出端与所述稳定扩散模型的第二输入端连接,所述文本编码器的输出端与所述交叉注意力模块的第一输入端连接,所述第三适配器网络的输出端与所述交叉注意力模块的第二输入端连接,所述交叉注意力模块的输出端与所述稳定扩散模型的第三输入端连接。
>3.根据权利...
【技术特征摘要】
1.一种基于三重控制文生图模型的图像生成方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述三重控制文生图模型包括稳定扩散模型、第一适配器网络、第二适配器网络、第三适配器网络、文本编码器与交叉注意力模块,其中,所述第一适配器网络的输出端与所述稳定扩散模型的第一输入端连接,所述第二适配器网络的输出端与所述稳定扩散模型的第二输入端连接,所述文本编码器的输出端与所述交叉注意力模块的第一输入端连接,所述第三适配器网络的输出端与所述交叉注意力模块的第二输入端连接,所述交叉注意力模块的输出端与所述稳定扩散模型的第三输入端连接。
3.根据权利要求2所述的方法,其特征在于,所述第一适配器网络包括卷积层、下采样层、第一残差连接块、第二残差连接块、第三残差连接块、第四残差连接块和特征金字塔网络模块,其中,所述卷积层的输出端与所述下采样层的输入端连接,所述下采样层的输出端与所述第一残差连接块的输入端连接,所述第一残差连接块、所述第二残差连接块、所述第三残差连接块与所述第四残差连接块依次连接,所述第一残差连接块的输出端、所述第二残差连接块的输出端、所述第三残差连接块输出端与所述第四残差连接块的输出端均与所述特征金字塔网络模块的输入端连接。
4.根据权利要求2所述的方法,其特征在于,所述第二适配器网络包括控制条件预处理模块、第一sd编码器模块、第二sd编码器模块、第三sd编码器模块、第四sd编码器模块和sd中间模块,其中,所述控制条件预处理模块的输出端、所述第一sd编码器模块的输出端、所述第二sd编码器模块的输出端、所述第三sd编码器模块的输出端、所述第四sd编码器模块的输出端和所述sd中间模块的输出端均连接有零卷积层,所述控制条件预处理模块、所述第一sd...
【专利技术属性】
技术研发人员:黄志青,陈天戈,沈俊羽,
申请(专利权)人:广州众易用智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。