基于图像的情绪识别方法、装置、设备和存储介质制造方法及图纸

技术编号：38828485 阅读：24 留言：0更新日期：2023-09-15 20:07

本申请提供一种基于图像的情绪识别方法、装置、设备和存储介质，涉及深度学习技术领域，包括获取目标图像及目标用户针对目标图像的描述文本，目标图像为可引起用户产生情绪的图像；将目标图像输入图像字幕生成模型进行图像字幕生成，得到目标图像对应的多种情绪风格的图像字幕；针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕，确定情绪风格的图像字幕对应的第一PAD值；并确定描述文本对应的第二PAD值；根据多个第一PAD值和第二PAD值，确定目标PAD值，进而根据目标PAD值，确定目标用户的情绪状态，有利于提高识别结果的准确率。另外，根据得到的多种情绪风格的图像字幕，可以进一步提高用户情绪状态识别结果的准确率。进一步提高用户情绪状态识别结果的准确率。进一步提高用户情绪状态识别结果的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于图像的情绪识别方法、装置、设备和存储介质

[0001]本申请涉及深度学习
，尤其涉及一种基于图像的情绪识别方法、装置、设备和存储介质。

技术介绍

[0002]随着深度学习的发展，其不仅极大地促进了人工智能和机器学习的发展，也促进了其他领域的发展，产生了深度学习领域与其他领域的交叉研究领域，如深度学习领域与心理学领域交叉的技术研究领域等。其中，心理学领域中有关情绪数据的研究，是一个主要的心理学研究方向，其主要研究人的情绪状态，如积极情绪和消极情绪等。
[0003]相关技术中，有关情绪状态的研究，通常是先由用户基于标准量表进行自行打分，然后由专业人员根据用户的打分情况，评估该用户的情绪状态。该方式受用户、专业人员的主观思维影响较大，不仅耗时费力，还存在准确率低的问题。

技术实现思路

[0004]本申请提供一种基于图像的情绪识别方法、装置、设备和存储介质，用以解决现有情绪识别方法准确率低的问题。
[0005]第一方面，本申请提供一种基于图像的情绪识别方法，包括：
[0006]获取目标图像及目标用户针对目标图像的描述文本，目标图像为可引起用户产生情绪的图像；
[0007]将目标图像输入图像字幕生成模型进行图像字幕生成，得到目标图像对应的多种情绪风格的图像字幕；
[0008]针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕，确定情绪风格的图像字幕对应的第一PAD值；并确定描述文本对应的第二PAD值；
[0009]根据多个第一PAD值和第二PAD值，确...

【技术保护点】

【技术特征摘要】
1.一种基于图像的情绪识别方法，其特征在于，包括：获取目标图像及目标用户针对所述目标图像的描述文本，所述目标图像为可引起用户产生情绪的图像；将所述目标图像输入图像字幕生成模型进行图像字幕生成，得到所述目标图像对应的多种情绪风格的图像字幕；针对所述多种情绪风格的图像字幕中的每种情绪风格的图像字幕，确定所述情绪风格的图像字幕对应的第一PAD值；并确定所述描述文本对应的第二PAD值；根据多个所述第一PAD值和所述第二PAD值，确定目标PAD值；根据所述目标PAD值，确定所述目标用户的情绪状态。2.根据权利要求1所述的情绪识别方法，其特征在于，所述根据多个所述第一PAD值和所述第二PAD值，确定目标PAD值，包括：基于预设公式，对多个所述第一PAD值和所述第二PAD值进行加权处理，得到目标PAD值；其中，所述预设公式为：其中，y
i
表示第i类情绪风格的图像字幕对应的第一PAD值，a
i
表示第i类情绪风格对应的量表分数，R0表示第二PAD值，N表示情绪风格的种类总数，A表示归一化系数。3.根据权利要求1所述的情绪识别方法，其特征在于，所述确定所述情绪风格的图像字幕对应的第一PAD值，包括：确定所述情绪风格的图像字幕对应的第一语义向量，所述第一语义向量包含多个第一语义元素；针对所述多个第一语义元素中的每个第一语义元素，确定所述第一语义元素和第二语义向量中的每个第二语义元素的第一语义相似度，所述第二语义向量为基于情绪词典确定的，所述情绪词典包括多个情绪词组；在所述第二语义元素中，确定与所述第一语义元素的第一语义相似度满足第一设定条件的第一目标语义元素；将所述第一目标语义元素对应的第一语义相似度和所述第一目标语义元素对应的PAD值进行加权处理，得到第一PAD值。4.根据权利要求1所述的情绪识别方法，其特征在于，所述确定所述描述文本对应的第二PAD值，包括：确定所述描述文本对应的第三语义向量，所述第三语义向量包含多个第三语义元素；针对所述多个第三语义元素中的每个第三语义元素，确定所述第三语义元素和第二语义向量中的每个第二语义元素的第二语义相似度；在所述第二语义元素中，确定与所述第三语义元素的第二语义相似度满足第二设定条件的第二目标语义元素；将所述第二目标语义元素对应的第二语义相似度和所述第二目标语义元素对应的PAD值进行加权处理，得到第二PAD值。5.根据权利要求1至4中任一项所述的情绪识别方法，其特征在于，所述图像字幕生成模型包括卷积神经网络和基于注意力机制的风格化文本生成模块，所述风格化文本生成模
块包含GRU单元、编码子模块和解码子模块，所述将所述目标图像输入图像字幕生成模型进行图像字幕生成，得到所述目标...

【专利技术属性】
技术研发人员：文子潇，杨毅，孙甲松，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人