数据处理方法、文图生成方法及相关装置制造方法及图纸

技术编号：40594384 阅读：3 留言：0更新日期：2024-03-12 21:56

一种数据处理方法，包括：将用户输入文本作为大语言模型的输入，输出多个提示文本；将多个提示文本作为文图生成模型的输入，输出对应的多个图像。对用户输入文本和多个图像进行处理，得到每个图像的奖励分数，奖励分数与整体信息分数和局部信息分数有关。确定包括奖励分数为目标分数的至少一个提示文本为目标提示文本。将用户输入文本和目标提示文本作为第一训练样本，多个第一练样本对形成第一训练集。使用第一训练集训练大语言模型。也就是说，本申请通过训练大语言模型，使得大语言模型可以对用户输入文本进行扩充得到提示文本。进而，由于提示文本包括了丰富的细节和场景信息，因此文图生成模型可以生成包含丰富信息的图像。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及数据处理方法、文图生成方法及相关装置。

技术介绍

1、随着人工智能技术(artificial intelligence，ai)的发展，文图生成模型在生成式ai领域取得了显著的进展和关注。但在应用于简单文本转换为图像的任务上，文图生成模型仍有一定的挑战。具体而言，当涉及从文本生成图像，要求输入文本内容要丰富和详细，比如包括背景、物体、风格等多方面的信息。然而，实际用户的输入往往相对简短，这就导致了文图生成模型难以准确捕获细节和场景要素进行图像生成。

技术实现思路

1、为了解决上述的问题，本申请的实施例中提供了数据处理方法、文图生成方法及相关装置，将用户输入的简短文本进行扩充后得到丰富的描述细节的提示文本，根据扩充后的提示文本，文图生成模型可以准确捕获细节和场景要素进行图像生成。

2、为此，本申请的实施例中采用如下技术方案：

3、第一方面，本申请实施例提供了一种数据处理方法，包括：将用户输入文本作为大语言模型的输入，输出多个提示文本；将多个提示文本作为文图生成模型的输入，输出对应的多个图像。对用户输入文本和多个图像进行处理，得到每个图像的奖励分数，奖励分数与整体信息分数和局部信息分数有关，整体信息分数指示图像的描述信息与用户输入文本的相似度，局部信息分数指示图像的局部信息与用户输入文本的相似度。确定包括奖励分数为目标分数的至少一个提示文本为目标提示文本。将用户输入文本和目标提示文本作为第一训练样本对，多个第一练样本对形成第一训练集。使

4、也就是说，本申请实施例提供了一种数据处理方法，用来训练大语言模型，使得大语言模型可以对用户输入文本进行扩充得到提示文本。进而，由于提示文本包括了丰富的细节和场景信息，因此文图生成模型可以生成包含丰富信息的图像。一般地，用户输入的文本难以具有丰富的细节信息，往往较为简短。本申请实施例中，大语言模型的微调训练与奖励分数有关。由于奖励分数表征了用户输入文本与图像的相似度，进而奖励分数表征了用户输入文本与提示文本的相似度。进而在推理阶段，大语言模型生成的提示文本与用户输入文本有很高的相似度，使得文图生成模型可以生成与用户输入文本更匹配的图像。也就是说，文图生成模型可以生成更加符合用户期望的图像。

5、进一步地，微调训练之前，大语言模型对用户输入文本的扩充过程没有目的，因此扩充的提示文本质量参差不齐。在本申请实施例中，大语言模型对用户输入文本进行扩充。将大语言模型扩充后的多个提示文本分别输入文图生成模型，生成对应的多个图像，基于生成的图像与用户输入文本的一致性，通过奖励分数的方法对每个图像进行打分。奖励分数越高，说明图像的质量越高，也就是图像与用户输入文本的一致性越高，进而对应的提示文本与用户意图的匹配度越高。因此，可以基于奖励分数筛选出高质量的图像，进而得到对应的高质量提示文本。将用户输入文本和高质量的提示文本作为训练样本，形成训练集，对大语言模型微调，使得微调后的大语言模型可以将用户输入的简短文本扩充为高质量提示文本，高质量提示文本符合文图生成模型输入要求的，进而文图生成模型可以生成高质量的图像。其中，图像的高质量是指图像与用户输入文本的一致性高，与用户意图的匹配度越高，更符合用户的期望。

6、进一步地，本申请实施例中，大语言模型的微调训练过程中，以文图生成模型输出的图像的奖励分数为训练样本的选择依据，目的是寻找大语言模型对用户输入文本的扩充效果较好的提示文本，以对大语言模型进行微调。大语言模型和文图生成模型是一个整体性的系统，不能分割来看。也就是说，不同的文图生成模型具有不同的算法，因此基于提示文本生成图像的细节捕捉等能力也不同，大语言模型微调后可以与对应的文图生成模型匹配，扩充得到适合该文图模型的提示文本。

7、进一步地，本申请实施例提供了一种奖励分数生成方法。奖励分数指示了图像和用户输入文本的一致性程度。本申请实施例奖励分数细化为整体信息分数和局部信息分数。整体信息分数与图像的描述信息和用户输入文本的相似度有关，因此整体信息分数表征了图像和用户输入文本在整体角度上的一致性程度。局部信息分数与图像的局部信息与用户输入文本的相似度有关，因此局部信息分数表征了图像和用户输入文本在局部细节角度上的一致性程度。因此，本申请实施例的奖励分数包括整体和细节两种细粒度的衡量，可以更好地对齐图像和用户输入文本间的细粒度语义，避免了输出的图像出现用户输入文本的语义丢失及错乱的情况。

8、在一种可能的实现方式中，基于用户输入文本和多个图像，确定每个图像的奖励分数，包括：基于多个图像的描述信息与用户输入文本的相似度，确定每个图像的整体信息分数；基于多个图像的局部信息与用户输入文本的相似度，确定每个图像的局部信息分数；对每个图像的整体信息分数和局部信息分数加权，得到每个图像的奖励分数。

9、在该实现方式中，本申请实施例提供了一种奖励分数的计算方法。可以基于具体的应用场景，通过对整体和细节两种细粒度的不同衡量，对整体信息分数、局部信息分数分别赋予不同的权重，提高了奖励分数的适用范围。

10、在另一种可能的实现方式中，基于多个图像的描述信息与用户输入文本的相似度，确定每个图像的整体信息分数，包括：确定图像的描述文本；对描述文本进行特征提取，得到描述文本的特征向量；对用户输入文本进行特征提取，得到用户输入文本的特征向量；基于描述文本的特征向量和用户输入文本的特征向量的相似度，得到整体信息分数。

11、在该实现方式中，本申请实施例提供了一种整体信息分数的实施方法。基于图像，得到图像的描述文本，再将描述文本转换为描述文本特征，以便于进行相似度的计算。将用户输入的简短文本转换为输入文本特征，以便于进行相似度的计算。通过计算输入文本特征和描述文本特征的相似度，得到整体信息分数。在该实现方式中，将图像的描述信息具体为图像的描述文本，由于图像的描述文本是从整体上对图像进行描述，因此描述文本可以从整体的角度表征图像的描述信息。

12、在另一种可能的实现方式中，确定图像的描述文本，包括：将图像作为图像描述生成模型的输入，输出图像的描述文本。

13、在该实现方式中，本申请实施例提供了图像的描述文本的实现方式。图像描述生成模型可以是任何一种基于图像生成图像标注的神经网络模型，技术手段成熟，开发成本低。

14、在另一种可能的实现方式中，基于多个图像的局部信息与用户输入文本的相似度，确定每个图像的局部信息分数，包括：确定图像中各个图像区域的类别；基于图像和各个图像区域的类别，确定比例信息，比例信息指示各个类别的图像区域在图像中的所占比例；基于用户输入文本和各个图像区域的类别、比例信息，确定局部信息分数。

15、在该实现方式中，本申请实施例提供了一种局部信息分数的实施方式。基于图像，计算图像的类别标签。基于类别标签去关注每个类别在图像中的比例信息。可以进一步理解的是，某个类别的比例越高，说明图像对该类别的关注度越高本文档来自技高网...

【技术保护点】

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述用户输入文本和所述多个图像，确定每个所述图像的奖励分数，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述多个图像的描述信息与所述用户输入文本的相似度，确定每个所述图像的整体信息分数，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定所述图像的描述文本，包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述基于所述多个图像的局部信息与所述用户输入文本的相似度，确定每个所述图像的局部信息分数，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述用户输入文本和所述各个图像区域的类别、所述比例信息，确定局部信息分数，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述确定所述图像中各个图像区域的类别；基于所述图像和所述各个图像区域的类别，确定比例信息；基于所述用户输入文本和所述各个图像区域的类别、所述比例信息，确定局部信息分数包括：

8.根据权利要求1-7所

9.根据权利要求1-8任意一项所述的方法，其特征在于，所述将所述用户输入文本作为大语言模型的输入，输出多个提示文本，包括：

10.根据权利要求1-9任意一项所述的方法，其特征在于，所述奖励分数还用于指示所述提示文本和所述图像的相似度，以使所述文图生成模型基于所述奖励分数确定微调训练的训练集；

11.一种文图生成方法，其特征在于，包括：

12.一种数据处理装置，其特征在于，应用于大语言模型，包括：

13.根据权利要求12所述的装置，其特征在于，所述奖励分数生成模块，具体用于：

14.根据权利要求12或者13所述的装置，其特征在于，所述奖励分数生成模块，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述奖励分数生成模块，具体用于：

16.根据权利要求12-15任意一项所述的装置，其特征在于，所述奖励分数生成模块，具体用于：

17.根据权利要求16所述的装置，其特征在于，所述奖励分数生成模块，具体用于：

18.根据权利要求16或17所述的装置，其特征在于，所述奖励分数生成模块，具体用于：

19.根据权利要求12-18所述的装置，其特征在于，所述奖励分数还与美学分数有关，所述美学分数指示所述图像与美学相关标准的一致性。

20.根据权利要求12-19任意一项所述的装置，其特征在于，所述文本扩充模块，具体用于：

21.根据权利要求12-20任意一项所述的装置，其特征在于，所述奖励分数还用于指示所述提示文本和所述图像的相似度，以使所述文图生成模型基于所述奖励分数确定微调训练的训练集；

22.一种文图生成装置，其特征在于，包括：

23.一种云管理平台，其特征在于，包括：至少一个计算节点，所述计算节点上部署有所述大语言模型和/或文图生成模型，所述云管理平台用于实现如权利要求1-11任一项所述的方法。

24.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有指令，当所述指令被处理器执行时，使得如权利要求1-11任一项所述的方法被实现。

25.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在被处理器执行时，使得如权利要求1-11任一项所述的方法被实现。

26.一种计算机程序产品，其特征在于，所述计算机程序产品包括有程序指令，所述程序指令当被计算机执行时使得计算机执行如权利要求1-11任一项所述的方法。

...

【技术特征摘要】