一种基于语言大模型的可解释性图像美学情感预测方法技术

技术编号：41384991 阅读：5 留言：0更新日期：2024-05-20 19:06

本发明专利技术公开了一种基于语言大模型的可解释性图像美学情感预测方法：步骤1，获取美学数据集，对美学数据集进行数据清洗和预处理，获得每张图片的图像ID、文本描述信息和美学质量评分信息；步骤2，构建图像美学可解释性模型，该模型包括视觉特征提取模块、提示文本特征提取模块、文本‑视觉融合模块、美学情感特征提取模块、美学自适应模块和美学描述生成解码模块；步骤3采用训集对图像美学可解释模型进行训练，得到训练好的图像美学可解释模型。步骤4，将待测的图像输入步骤3得到的训练好的图像美学可解释模型，得到输出结果。本发明专利技术解决有效地提高了美学可解释性的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像美学可解释研究，特别涉及一种基于语言大模型的可解释性图像美学情感预测方法。

技术介绍

1、美学是个体情感作用于审美物体获得的一种主观感受，美学研究的内容是个体对于物体或现象的情感领域反应，审美价值基于感官层面的辨别领域，同时审美判断是超越感官的。审美判断往往和喜厌情感相关，而情感受一定文化制约、审美背景制约，使得审美因素过于复杂，总体来讲审美和情感反应相关。如何利用可计算技术来预测人类对视觉刺激产生的情绪反应，使计算机模仿人类的审美过程，从而定量描述美学。这一研究过程称为计算美学，早在20世纪30年代数学家george david birkhoff创造了一种美学测量方式使用顺序和复杂度的比率作为美学量度。之后的工作引入新的相关的属性，例如和信息处理、信息论产生联系，通过验证识别重复、对称等提高美学的科学性。随着深度学习等技术的兴起，越来越多的工作聚焦在自动美学评价，在深度学习中利用大量人工标注的数据来进行训练，使得模型获得人类对于美学评价的能力。

2、在大量的审美领域中，对于图像的审美可以说是应用最广泛并且研究较多的一个领域。得益于大量艺术使用图片存留，传播，使得图片审美领域发展极快。专业摄影师使用一定规则来使他们的照片更加吸引人，因此这些规则常常用作为衡量美学价值的重要因素。例如，三分构图法、视觉重量平衡、对焦和iso速度评级等。一些研究指出，符合人体视觉刺激的作品会提供较高的审美质量。图像的美学特征也是一个重要的影响因素，图像的美学特征可以分为低层次或者高层次，基于显著性、类别、对象等。低级别特

3、在审美评价的过程中也是存在诸多不同的方法，包括并不限于，对于图像整体美学质量做高低美学质量评价，或是使用打分的方式来表现图片美感。自然语言处理领域的发展，提供了使用文本描述来阐述一张图片相关美学内容的方式。该领域目前相关的最新研究内容，如“deyao zhu*，jun chen*”等人提出的minigpt4大模型，使用该模型能够在一定程度上解释有关图片的客观内容，并在一定程度上对其抽象主观特征进行描述，但是其针对美学生成对应的评价，并对这个评价进行解释的能力是较差的。

4、综上，思考怎样增强模型对于一张图片的评价的美学准确性，以及如何能够增强生成描述的可解释性，是本领域研究图像美学可解释性的关键。

技术实现思路

1、本专利技术的目的在于，提供一种基于语言大模型的可解释性图像美学情感预测方法，以解决现有模型的美学可解释性的能力较差的问题。

2、为了实现上述目的，本专利技术采用如下技术方案予以实现：

3、一种基于语言大模型的可解释性图像美学情感预测方法，该方法包括以下步骤：

4、步骤1，获取美学数据集，对美学数据集进行数据清洗和预处理，获得每张图片的图像id、文本描述信息和美学质量评分信息。

5、步骤2，构建图像美学可解释性模型，该模型包括视觉特征提取模块、提示文本特征提取模块、文本-视觉融合模块、美学情感特征提取模块、美学自适应模块和美学描述生成解码模块。

6、所述的视觉特征提取模块用于提取步骤1中处理的美学数据集中的图像的视觉特征。

7、所述的提示文本特征提取模块用于提取prompt的相关文本特征。

8、所述的文本-视觉融合模块用于将提示文本特征提取模块提取的相关文本特征和视觉特征提取模块提取出的图像的视觉特征进行对应融合，得到关于prompt提示文本的图像特征。

9、所述的美学情感特征提取模块用于作为美学情感特征提取空间，将视觉特征提取模块提取出的图像的视觉特征进行处理获得有关美学和情感的特征。

10、所述的美学自适应模块用于对文本-视觉融合模块得到的prompt提示文本的图像特征进行前向传播、反向传播。能够增强图像特征提取的准确性，增强解码器生成相关美学质量评价的准确性，同时提升生成文本的美学质量。

11、所述的美学描述生成解码模块用于对美学自适应模块的输出进行特征解码，生成和图像相关的美学质量评价，以及关于该评价的文本解释。

12、步骤3，将步骤1处理过的美学数据集中的每张图片、每张图片的文本描述、对应的美学得分标签作为训练集，对步骤2构建得到的图像美学可解释模型进行训练，得到训练好的图像美学可解释模型。

13、步骤4，将待测的图像输入步骤3得到的训练好的图像美学可解释模型，得到输出结果。

14、本专利技术还具有如下的技术特征：

15、具体的，步骤1包括以下子步骤：

16、步骤1.1，对原始数据集中的得分做处理，根据得分，将原始数据集中的图片分成高质量图片和低质量图片。

17、步骤1.2，利用思维链的方式将后续步骤3中第二阶段微调需要的步骤1的原始数据集中每张图片的文本描述信息处理成如下模式：caption＝(is，od，sd，od)；

18、式中：

19、is：表示关于图像的美学质量评价；

20、od：表示文本中关于图片的客观描述；

21、sd：表示文本中关于图片的主观描述；

22、od：表示关于图片的其他描述。

23、具体的，步骤2中包括以下子步骤：

24、步骤2.1，所述的视觉特征提取模块，使用步骤1中原始数据集中的图像作为输入，使用vit-g/14作为图像的特征提取器：

25、

26、i'image＝ln(iimage)+eposition 式2；

27、f'image＝transformer(i'image) 式3；

28、fimage＝mlp(f'image) 式4；

29、式中：

30、iimage表示数字化的图片，分成多个patch；

31、表示将一张数字化的图片输入到vit-g/14中变成14*14，即为196个patch中的一个patch；

32、ln表示线性层；

33、eposition表示位置编码；

34、f'image表示经过transformer encoder块之后的图片特征；

35、mlp表示多层感知机；

36、fimage表示图片经过图像特征提取器之后的特征；

37、步骤2.2，为了提升模型对于美学特征的学习能力，本专利技术添加了一个美学情感特征提取模块，该模块先经过在情感分类数据集上进行预训练，之后将图片特征fimage通过这一模块，以较大的提升模型对于美学情感的预测准确性。其计算公式如下：

38、faesthetic＝down(ln(δ(up(fimage)))) 式5；

...

【技术保护点】

1.一种基于语言大模型的可解释性图像美学情感预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于语言大模型的可解释性图像美学情感预测方法，其特征在于，步骤1包括以下子步骤：

3.如权利要求1所述的基于语言大模型的可解释性图像美学情感预测方法，其特征在于，步骤2中包括以下子步骤：

4.如权利要求1～3任一项所述的基于语言大模型的可解释性图像美学情感预测方法，其特征在于，步骤3具体如下：采用训练集对步骤2构建得到的图像美学可解释模型进行训练，之后将上述训练好的模型进行学习率减小的微调训练；将微调训练之后的图像美学可解释模型的输出文本结果作为最终输出结果。

5.如权利要求1～3任一项所述的基于语言大模型的可解释性图像美学情感预测方法，其特征在于，步骤3的训练过程中，使用交叉熵损失作为损失函数，将用作真实标签的caption的每一个单词作为预测的每一个结果，具体计算公式如下：

【技术特征摘要】

1.一种基于语言大模型的可解释性图像美学情感预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于语言大模型的可解释性图像美学情感预测方法，其特征在于，步骤1包括以下子步骤：

3.如权利要求1所述的基于语言大模型的可解释性图像美学情感预测方法，其特征在于，步骤2中包括以下子步骤：

4.如权利要求1～3任一项所述的基于语言大模型的可解释性图像美学情感预测方法，其特征在于，步...

【专利技术属性】
技术研发人员：张晓丹，李瑞，彭进业，胡琦瑶，汪霖，赵万青，王德奎，周伟，
申请(专利权)人：西北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人