一种图片生成模型构建方法、装置、设备及可读介质制造方法及图纸

技术编号：40838046 阅读：3 留言：0更新日期：2024-04-01 15:03

本申请提供了一种图片生成模型构建方法、装置、电子设备及计算机可读介质，涉及模型微调技术领域，包括：获取多张图片，获取多张图片，获取多张图片各自对应的标注文本，每张图片对应的标注文本用于表示与图片的内容相关的以下至少一者：图片的类型、图片的布局、图片的风格、图片中实体的属性、图片中实体之间的关系，依据多张图片以及标注文本，构建图文对数据集，利用图文对数据集对经过预训练的图片生成模型进行微调，得到目标图片生成模型。本申请对预训练后的图片生成模型进行微调，减少对数据量和计算力需求的同时，也增加了图片生成模型的可控性，提升了模型对于文本描述中细节的展示能力，甚至图片整体的构图的理解和实现能力均有提升。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及模型微调，特别是涉及一种图片生成模型构建方法、装置、电子设备及计算机可读介质。

技术介绍

1、随着文本生成图片的模型进入了快速发展的阶段，由于图片和文本这两种模态之间的联系相对较弱，且现有的图文数据集的文本大多简略，很少会有比较细致、长篇幅的文本描述。数据和算法上的共同作用造成了生成图片和文字之间的匹配度较低。比如当文字描述较长、提及多个实体时不能都生成出来，物体之间的位置关系不能体现，颜色、数量等无法准确表达等。

2、相关技术中采用经过的预训练的语言模型集成作为文生图模型的文本编码器，或通过不断修改图片的不同部分，最终得到使用者想要的效果，或输入文本和草图(或图像分割图)，用自然语言对图片各个区域做描述，但这些方式在生成效果以及训练效率方面都难以达到预期。因此，如何生成文生图模型，以有效提升图片生成效果，仍是一个亟待解决的问题。

技术实现思路

1、有鉴于此，本申请提供了一种图片生成模型构建方法、装置、电子设备及计算机可读介质，通过对预训练后的图片生成模型进行微调，减少对数据量和计算力需求的同时，也增加了图片生成模型的可控性，提升了模型对于文本描述中细节的展示能力，甚至图片整体的构图的理解和实现能力均有提升。

2、本申请实施例第一方面，提供一种图片生成模型构建方法，所述方法包括：

3、获取多张图片；

4、获取所述多张图片各自对应的标注文本，每张图片对应的标注文本用于表示与所述图片的内容相关的以下至少一者：图片的类型、图片的布

5、依据所述多张图片以及所述多张图片各自对应的标注文本，构建图文对数据集；

6、利用所述图文对数据集对经过预训练的图片生成模型进行微调，得到目标图片生成模型。

7、在一种实施方式中，所述获取所述多张图片各自对应的标注文本，包括：

8、获取多个提示文本；

9、将每张图片的标注数据与所述多个提示文本分别进行结合，得到所述多张图片各自对应的标注文本。

10、在一种实施方式中，所述目标图片生成模型用于生成目标领域的图片，所述获取多张图片，包括：

11、选取所述目标领域中的第一图文对数据集；

12、从所述第一图文对数据集中提取出预设数量的图片和标注文本。

13、在一种实施方式中，所述方法还包括：

14、判断从所述第一图文对数据集中提取出的图片是否具有对应的第一文本信息；

15、当所述图片具有对应的第一文本信息时，将所述第一文本信息添加至所述图片对应的标注文本中。

16、在一种实施方式中，当所述图片具有对应的第一文本信息时，将所述第一文本信息添加至所述图片对应的标注文本中，包括：

17、确定所述第一文本信息与所述图片之间的关联程度；

18、当所述第一文本信息与所述图片之间的关联程度不低于预设关联程度时，保留所述图片，并将所述第一文本信息添加至所述图片对应的标注文本中；

19、所述方法还包括：

20、当所述第一文本信息与所述图片之间的关联程度低于所述预设关联程度时，保留所述图片，删除所述第一文本信息。

21、在一种实施方式中，所述方法还包括：

22、判断所述标注文本中是否存在异常文本信息，其中，所述异常文本信息包括敏感词和/或特殊符号；

23、当所述标注文本中存在异常文本信息时，对所述敏感词和/或特殊符号进行删除或修改。

24、在一种实施方式中，在所述从所述第一图文对数据集中提取出预设数量的图片和标注文本之前，还包括：

25、剔除所述第一图文对数据集中重复、无意义的以及不符合生成要求的图片。

26、在一种实施方式中，所述方法还包括：

27、利用所述图文对数据集对经过预训练的图片理解模型进行微调，得到目标图片理解模型。

28、在一种实施方式中，所述方法还包括：

29、将第一目标文本内容输入所述目标图片生成模型，得到与所述第一目标文本内容相关联的第一目标图片。

30、在一种实施方式中，所述方法还包括：

31、将第二目标图片输入所述目标图片理解模型，得到与所述第二目标图片相关联的第二目标文本内容。

32、本申请实施例第二方面，提供一种图片生成模型构建装置，所述装置包括：

33、第一获取模块，用于获取多张图片；

34、第二获取模块，用于获取所述多张图片各自对应的标注文本，每张图片对应的标注文本用于表示与所述图片的内容相关的以下至少一者：图片的类型、图片的布局、图片的风格、图片中实体的属性、图片中实体之间的关系；

35、构建模块，用于依据所述多张图片以及所述多张图片各自对应的标注文本，构建图文对数据集；

36、模型微调模块，用于利用所述图文对数据集对经过预训练的图片生成模型进行微调，得到目标图片生成模型。

37、本申请实施例第三方面，提供一种电子设备，包括存储器、处理器以及存储在存储器上的计算机程序，其中，所述处理器执行所述计算机程序以实现第一方面所述的方法。

38、本申请实施例第四方面，提供一种计算机可读介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现第一方面所述的方法。

39、本申请的有益效果：

40、本申请实施例提供一种图片生成模型构建方法、装置、电子设备及计算机可读介质，涉及模型微调
，包括：获取多张图片，获取多张图片，获取所述多张图片各自对应的标注文本，每张图片对应的标注文本用于表示与所述图片的内容相关的以下至少一者：图片的类型、图片的布局、图片的风格、图片中实体的属性、图片中实体之间的关系，依据所述多张图片以及所述多张图片各自对应的标注文本，构建图文对数据集，利用所述图文对数据集对经过预训练的图片生成模型进行微调，得到目标图片生成模型。本申请在预训练后的图片生成模型的基础上进行微调，从而减少了对数据量和计算力需求的同时，也增加了图片生成模型的可控性，提升了模型对于文本描述中细节的展示能力。包括图片上的各个实体的颜色、数量、位置、不同物体之间的关系、甚至图片整体的构图等等的理解和实现能力均有一定程度的提升，除此之外，本申请经过标注、清洗后的图文对数据集还可以复用，进一步提高了图文对数据集的利用率。

本文档来自技高网...

【技术保护点】

1.一种图片生成模型构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图片生成模型构建方法，其特征在于，所述获取所述多张图片各自对应的标注文本，包括：

3.根据权利要求1所述的图片生成模型构建方法，其特征在于，所述目标图片生成模型用于生成目标领域的图片，所述获取多张图片，包括：

4.根据权利要求3所述的图片生成模型构建方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的图片生成模型构建方法，其特征在于，当所述图片具有对应的第一文本信息时，将所述第一文本信息添加至所述图片对应的标注文本中，包括：

6.根据权利要求1-5任一所述的图片生成模型构建方法，其特征在于，所述方法还包括：

7.根据权利要求3所述的图片生成模型构建方法，其特征在于，在所述从所述第一图文对数据集中提取出预设数量的图片和标注文本之前，还包括：

8.根据权利要求1所述的图片生成模型构建方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的图片生成模型构建方法，其特征在于，所述方法还包括：

<...

【技术特征摘要】

1.一种图片生成模型构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图片生成模型构建方法，其特征在于，所述获取所述多张图片各自对应的标注文本，包括：

3.根据权利要求1所述的图片生成模型构建方法，其特征在于，所述目标图片生成模型用于生成目标领域的图片，所述获取多张图片，包括：

4.根据权利要求3所述的图片生成模型构建方法，其特征在于，所述方法还包括：

6.根据权利要求1-5任一所述的图片生成模型构建方法，其特征在于，所述方法还包括：

7.根据权利要求3所述的图片生成模型构建方法，其特征在于，在所述从所述第...

【专利技术属性】
技术研发人员：于彤，
申请(专利权)人：苏州元脑智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人