低秩自适应模型的训练方法、文本生成图像方法、系统技术方案

技术编号：40781449 阅读：4 留言：0更新日期：2024-03-25 20:25

本发明专利技术公开了一种低秩自适应模型的训练方法、文本生成图像方法、系统、电子设备和存储介质，所述低秩自适应模型用于和图像生成模型结合后生成对应图像，所述训练方法包括：获取训练样本图像；对所述训练样本图像通过图像标签模型进行标签化处理；对所述训练样本图像使用图像标签指导视觉‑语言模型进行二次标签化处理，得到两次标签化后的图像数据；其中，所述图像数据为图像中物体的语义信息；基于所述训练样本图像和所述两次标签化后的图像数据使用低秩自适应方法对图像生成模型训练，以得到低秩自适应模型。将图像标注更准确，更有利于低秩自适应模型运用至图像生成模型大模型中，生成我们所需的图像。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模型训练领域，特别涉及一种低秩自适应模型的训练方法、文本生成图像方法、系统、电子设备和存储介质。

技术介绍

1、在现有技术中，通过stable diffusion(sd)扩散模型，以文本驱动图像生成为例，首先使用文本编码对输入文本进行特征编码，然后随机初始化一个满足正态分布的初始噪声作为初始的噪声图，然后对这个噪声图进行循环的去噪得到最后的生成图像，文本特征会在去噪的过程中通过注意力机制引导整个去噪过程。然而，sd的计算复杂度比其他扩散算法更高，因此需要更多的计算资源。其次，对参数的选择比较敏感，需要进行一定的调整才能得到最佳的平滑效果。

2、lora(low-rank adaptation，低秩自适应)是一种可以对大型模型加速微调的技术，通过大幅减少可训练参数的数量来提高微调效率。在冻结原始预训练权重的基础上，获取到的lora模型不仅占用存储空间小，还可以实现模型定制，完成各种特定任务。但在实际应用中，对lora的训练中需要给图像进行标签化处理，现在的处理方式一般为人工标注，往往标注的不准确，导致lora训练后置于sd大模型不能很好的得到我们需要的图像。

技术实现思路

1、本专利技术要解决的技术问题是为了克服现有技术中在对于lora训练过程中人工标注不准确不够丰富这一缺点，提供一种低秩自适应模型的训练方法、文本生成图像方法、系统、电子设备和存储介质，将图像标注更准确，更有利于lora模型运用至图像生成大模型中，生成我们所需的图像。

2、本专利

3、第一方面，提供一种低秩自适应模型的训练方法，所述低秩自适应模型用于和图像生成模型结合后生成对应图像，所述训练方法包括：

4、获取训练样本图像；

5、对所述训练样本图像通过图像标签模型进行标签化处理；

6、对所述训练样本图像使用图像标签指导视觉-语言模型进行二次标签化处理，得到两次标签化后的图像数据；其中，所述图像数据为图像中物体的语义信息；

7、基于所述训练样本图像和所述两次标签化后的图像数据使用低秩自适应方法对图像生成模型训练，以得到低秩自适应模型。

8、可选地，所述训练方法还包括；

9、对所述训练样本图像进行裁切处理；

10、可选地，对所述训练样本图像中文本部分进行算法填充；

11、可选地，对所述训练样本图像通过图像分割模型进行去背景化处理。

12、可选地，所述训练方法还包括：

13、将低秩自适应模型与所述图像生成模型进行生图测试；

14、根据所述生图测试结果，调整所述低秩自适应模型控制参数和权重系数，所述控制参数和所述权重系数用于提高所述低秩自适应模型与所述图像生成模型的相关度。

15、第二方面，提供一种文本生成图像的方法，所述文本生成图像的方法包括：

16、将低秩自适应模型的训练方法得到的低秩自适应模型加入图像生成模型中；

17、根据文本描述基于包含低秩自适应模型的图像生成模型生成对应的图像。

18、第三方面，提供一种低秩自适应模型的训练系统，所述低秩自适应模型用于和图像生成模型结合后生成对应图像，所述训练系统包括；

19、获取模块，用于获取训练样本图像；

20、标签化模块，用于对所述训练样本图像通过图像标签模型进行标签化处理；

21、二次标签化模块，用于对所述训练样本图像使用图像标签指导视觉-语言模型进行二次标签化处理，得到两次标签化后的图像数据；其中，所述图像数据为图像中物体的语义信息；

22、训练模块，基于所述训练样本图像和所述两次标签化后的图像数据使用低秩自适应方法对图像生成模型训练，以得到低秩自适应模型。

23、可选地，所述训练系统还包括；

24、裁切模块，用于将所述训练样本图像进行裁切；

25、可选地，所述训练系统还包括；

26、填充模块，用于将所述训练样本图像中文本部分进行算法填充；

27、可选地，所述训练系统还包括；

28、背景处理模块，用于将所述训练样本图像进行去背景化处理。

29、可选地，所述训练系统还包括：

30、模型调整模块，用于将低秩自适应与图像生成模型进行生图测试，根据所述生图测试结果，调整所述低秩自适应控制参数和权重系数，所述控制参数和所述权重系数用于提高所述低秩自适应模型与所述图像生成模型的相关度。

31、第四方面，提供一种文本生成图像系统，所述文本生成图像系统包括：

32、图像生成模块，用于将中低秩自适应模型的训练方法得到的低秩自适应模型加入图像生成模型中；根据文本描述基于包含低秩自适应模型的图像生成模型生成对应的图像。

33、第五方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的低秩自适应模型的训练方法或上述的文本生成图像的方法。

34、第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的低秩自适应模型的训练方法或上述的文本生成图像的方法。

35、本专利技术的积极进步效果在于：本专利技术对训练样本图像通过图像标签模型和图像使用图像标签指导视觉-语言模型进行两次标签化处理后，将图像标注更准确，在根据标注后生成的低秩自适应模型能和图像生成模型结合后生成更加符合需求的图像。

本文档来自技高网...

【技术保护点】

1.一种低秩自适应模型的训练方法，所述低秩自适应模型用于和图像生成模型结合后生成对应图像，其特征在于，所述训练方法包括：

2.如权利要求1中所述低秩自适应模型的训练方法，其特征在于，所述训练方法还包括；

3.如权利要求1或2中所述低秩自适应模型的训练方法，其特征在于，所述训练方法还包括：

4.一种文本生成图像的方法，其特征在于，所述文本生成图像的方法包括：

5.一种低秩自适应模型的训练系统，所述低秩自适应模型用于和图像生成模型结合后生成对应图像，其特征在于，所述训练系统包括；

6.如权利要求5中所述低秩自适应模型的训练系统，其特征在于，所述训练系统还包括；

7.如权利要求5或6中所述低秩自适应模型的训练系统，其特征在于，所述训练系统还包括：

8.一种文本生成图像系统，其特征在于，所述文本生成图像系统包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述的低秩自适应模型的训练方法

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的低秩自适应模型的训练方法或者权利要求4中所述的文本生成图像的方法。

...

【技术特征摘要】

1.一种低秩自适应模型的训练方法，所述低秩自适应模型用于和图像生成模型结合后生成对应图像，其特征在于，所述训练方法包括：

2.如权利要求1中所述低秩自适应模型的训练方法，其特征在于，所述训练方法还包括；

3.如权利要求1或2中所述低秩自适应模型的训练方法，其特征在于，所述训练方法还包括：

4.一种文本生成图像的方法，其特征在于，所述文本生成图像的方法包括：

5.一种低秩自适应模型的训练系统，所述低秩自适应模型用于和图像生成模型结合后生成对应图像，其特征在于，所述训练系统包括；

6.如权利要求5中所述低秩自适应模型的训练系统，其特征在于，所述训练系统还包括...

【专利技术属性】
技术研发人员：陈勇虎，成丹妮，罗超，
申请(专利权)人：携程旅游网络技术上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人