基于大模型生成图像的文本调整方法、装置、存储介质制造方法及图纸

技术编号：40740526 阅读：2 留言：0更新日期：2024-03-25 20:00

本申请公开了一种基于大模型生成图像的文本调整方法、装置、存储介质，涉及智慧家庭技术领域，该基于大模型生成图像的文本调整包括：获取第一数据组集合；将第一数据组集合对应的多个原始图像输入至生成文本模型中，得到与每一个原始图像对应的目标文本，其中，生成文本模型为通过预设训练机制确定出的用于根据图像自动生成预设文本结构的模型；确定目标文本与每一个原始图像对应的目标原始文本之间的差异信息；根据差异信息对目标原始文本进行文本调整，得到修正文本，其中，修正文本用于指示对目标原始文本进行调整后的文本。解决无法确定如何修改输入的文本描述来得到期望的生成图像效果的技术问题，进而能够提高得到期望的生成图像的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及智慧家庭，具体而言，涉及一种基于大模型生成图像的文本调整方法、装置、存储介质。

技术介绍

1、随着科学技术的进步和人工智能的发展，越来越多的文本生成图像的算法被相继提出，并被广泛应用在各个不同领域中。作为提升工作效率的工具，在复杂的家居场景下，通过输入文本准确获取对应的多属性目标家居场景是非常重要的。例如，文本描述中包含多个目标、每个目标包含特定的视觉属性，如：嵌入式的家电。

2、相关领域内，现在的文本生成图像技术主要基于三类基础算法，分别是gan（generative adversarial network，生成对抗网络，简称gan）、vae（variableautoencoder，变分自编码器，简称vae）和扩散模型。虽然当前的模型算法均可以根据提供的文本描述来生成图像，但是生成图像普遍存在与文本描述不一致的情况，尤其是在文本描述中包含多个目标的复杂场景下。并且在生成图像的过程中无法确定如何修改输入的文本描述，就可得到期望的生成图像效果。

3、因此，针对相关技术中，无法确定如何修改输入的文本描述来得到期望的生成图像效果的技术问题，尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种基于大模型生成图像的文本调整方法、装置、存储介质，以至少解决相关技术中，无法确定如何修改输入的文本描述来得到期望的生成图像效果的技术问题。

2、根据本申请实施例的一个实施例，提供了一种基于大模型生成图像的文本调整方法，包括：获取第一数据组集合

3、在一个示例性实施例中，确定所述目标文本与所述每一个原始图像对应的目标原始文本之间的差异信息，包括：根据预设的描述格式分别对所述目标文本与所述目标原始文本进行描述，得到所述目标文本对应的第一描述信息，以及所述目标原始文本对应的第二描述信息；其中，所述第一描述信息包括所述目标文本对应的第一描述矩阵和所述第一描述矩阵对应的第一属性种类矩阵；所述第二描述信息包括所述目标原始文本对应的第二描述矩阵和所述第二描述矩阵对应的第二属性种类矩阵；比较所述第一描述信息中的第一属性种类矩阵与所述第二描述信息中的第二属性种类矩阵中相同矩阵位置处的矩阵数值得到目标比较结果；根据所述目标比较结果确定所述目标文本与所述每一个原始图像对应的目标原始文本之间的差异信息。

4、在一个示例性实施例中，根据所述目标比较结果确定所述目标文本与所述每一个原始图像对应的目标原始文本之间的差异信息，包括：在所述目标比较结果指示所述第一属性种类矩阵与所述第二属性种类矩阵中相同矩阵位置处的矩阵数值相同的情况下，确定所述矩阵数值指示的目标物体的属性在所述目标文本与所述目标原始文本中的文本表达一致；根据所述目标比较结果指示所述第一属性种类矩阵与所述第二属性种类矩阵中相同矩阵位置处的矩阵数值不相同的情况下，确定所述矩阵数值指示的目标物体的属性在所述目标文本与所述目标原始文本中的文本表达不一致；根据所有文本表达不一致的矩阵位置确定所述目标文本与所述每一个原始图像对应的目标原始文本之间的差异信息。

5、在一个示例性实施例中，根据所述差异信息对所述目标原始文本进行文本调整，得到调整后的修正文本，包括：对所述差异信息进行解析，确定存在差异的p个目标物体以及所述p个目标物体分别对应的目标属性信息；根据预设优先级数据确定所述p个目标物体分别对应的第一优先级和所述目标属性信息对应的第二优先级；根据所述第一优先级和所述第二优先级确定对所述目标原始文本的文本调整方式；使用所述文本调整方式对所述目标原始文本进行调整，得到修正文本。

6、在一个示例性实施例中，根据所述第一优先级和所述第二优先级确定对所述目标原始文本的文本调整方式，包括：根据所述第一优先级确定所述p个目标物体在目标原始文本的文本描述中的描述调整次序；根据所述第二优先级确定所述p个目标物体在目标原始文本的文本描述中的描述权重值；基于预设调整规则、所述描述调整次序、所述描述权重值确定对所述目标原始文本的文本调整方式。

7、在一个示例性实施例中，基于预设调整规则、所述描述调整次序、所述描述权重值确定对所述目标原始文本的文本调整方式之前，上述方法还包括：获取所述预设调整规则对应的预设调整公式：其中，所述预设调整公式为：；其中，表示所述目标原始文本调整后的文本描述，表示所述目标原始文本对应的目标原始图像包括的每个目标物体和所述每个目标物体对应的属性类别，表示所述目标原始文本对应的第二属性种类矩阵，表示目标文本对应的第一属性种类矩阵，表示第am个属性对应的权重值系数，属性种类矩阵用于指示每一个目标物体包含的属性种类。

8、在一个示例性实施例中，确定所述目标文本与所述每一个原始图像对应的目标原始文本之间的差异信息之后，上述方法还包括：计算所述差异信息对应的差异值，其中，所述差异值用于指示每一个原始图像的目标文本与目标原始文本之间的差异大小；比较所述差异值与预设文本差异阈值，并根据比较结果确定是否使用所述目标文本替换所述目标原始文本。

9、在一个示例性实施例中，比较所述差异值与预设文本差异阈值，并根据比较结果确定是否使用所述目标文本替换所述目标原始文本，包括：在所述比较结果指示所述差异值小于所述预设文本差异阈值的情况下，确定使用所述目标文本替换所述目标原始文本；在所述比较结果指示所述差异值大于或等于所述预设文本差异阈值的情况下，确定不使用所述目标文本替换所述目标原始文本。

10、在一个示例性实施例中，在所述比较结果指示所述差异值小于所述预设文本差异阈值的情况下，确定使用所述目标文本替换所述目标原始文本之后，上述方法还包括：对所述目标文本与所述目标原始文本对应的目标原始图像进行关联绑定；根据绑定结果对所述第一数据组集合进行更新，得到第二数据组集合；使用所述第二数据组集合训练通过文本生成图像的大模型。

11、在一个示例性实施例中，在所述比较结果指示所述差异值大于或等于所述预设文本差异阈值的情况下，确定不使用所述目标文本替换所述目标原始文本之后，上述方法还包括：对所述目标原始文本与所述目标原始文本对应的目标原始图像添加第一标识，其中，所述第一标识用于指示所述目标原始文本为高准确度文本；根据所述第一标识对所述第一数据组集合进行文本分类，得到第一类型文本集合和第二类型文本集合，其中，所述第一类型文本集合为具有第一标识的原始文本的集合，所述第二类型文本集合为不具有第一本文档来自技高网...

【技术保护点】

1.一种基于大模型生成图像的文本调整方法，其特征在于，包括：

2.根据权利要求1所述的基于大模型生成图像的文本调整方法，确定所述目标文本与所述每一个原始图像对应的目标原始文本之间的差异信息，包括：

3.根据权利要求2所述的基于大模型生成图像的文本调整方法，根据所述目标比较结果确定所述目标文本与所述每一个原始图像对应的目标原始文本之间的差异信息，包括：

4.根据权利要求1所述的基于大模型生成图像的文本调整方法，根据所述差异信息对所述目标原始文本进行文本调整，得到调整后的修正文本，包括：

5.根据权利要求4所述的基于大模型生成图像的文本调整方法，根据所述第一优先级和所述第二优先级确定对所述目标原始文本的文本调整方式，包括：

6.根据权利要求5所述的基于大模型生成图像的文本调整方法，基于预设调整规则、所述描述调整次序、所述描述权重值确定对所述目标原始文本的文本调整方式之前，所述方法还包括：

7.根据权利要求1所述的基于大模型生成图像的文本调整方法，确定所述目标文本与所述每一个原始图像对应的目标原始文本之间的差异信息之后，所述方法还包括：

8.根据权利要求7所述的基于大模型生成图像的文本调整方法，其特征在于，比较所述差异值与预设文本差异阈值，并根据比较结果确定是否使用所述目标文本替换所述目标原始文本，包括：

9.根据权利要求8所述的基于大模型生成图像的文本调整方法，其特征在于，在所述比较结果指示所述差异值小于所述预设文本差异阈值的情况下，确定使用所述目标文本替换所述目标原始文本之后，所述方法还包括：

10.根据权利要求8所述的基于大模型生成图像的文本调整方法，其特征在于，在所述比较结果指示所述差异值大于或等于所述预设文本差异阈值的情况下，确定不使用所述目标文本替换所述目标原始文本之后，所述方法还包括：

11.根据权利要求9所述的基于大模型生成图像的文本调整方法，其特征在于，使用所述第二数据组集合训练通过文本生成图像的大模型，包括：

12.一种基于大模型生成图像的文本调整装置，其特征在于，包括：

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至11任一项中所述的方法。

...

【技术特征摘要】

1.一种基于大模型生成图像的文本调整方法，其特征在于，包括：

2.根据权利要求1所述的基于大模型生成图像的文本调整方法，确定所述目标文本与所述每一个原始图像对应的目标原始文本之间的差异信息，包括：

4.根据权利要求1所述的基于大模型生成图像的文本调整方法，根据所述差异信息对所述目标原始文本进行文本调整，得到调整后的修正文本，包括：

5.根据权利要求4所述的基于大模型生成图像的文本调整方法，根据所述第一优先级和所述第二优先级确定对所述目标原始文本的文本调整方式，包括：

7.根据权利要求1所述的基于大模型生成图像的文本调整方法，确定所述目标文本与所述每一个原始图像对应的目标原始文本之间的差异信息之后，所述...

【专利技术属性】
技术研发人员：田云龙，苏明月，王迪，王淼，徐静，牛丽，黄媛媛，
申请(专利权)人：青岛海尔科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人