当前位置: 首页 > 专利查询>清华大学专利>正文

基于图像的情绪识别方法、装置、设备和存储介质制造方法及图纸

技术编号:38828485 阅读:24 留言:0更新日期:2023-09-15 20:07
本申请提供一种基于图像的情绪识别方法、装置、设备和存储介质,涉及深度学习技术领域,包括获取目标图像及目标用户针对目标图像的描述文本,目标图像为可引起用户产生情绪的图像;将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕;针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一PAD值;并确定描述文本对应的第二PAD值;根据多个第一PAD值和第二PAD值,确定目标PAD值,进而根据目标PAD值,确定目标用户的情绪状态,有利于提高识别结果的准确率。另外,根据得到的多种情绪风格的图像字幕,可以进一步提高用户情绪状态识别结果的准确率。进一步提高用户情绪状态识别结果的准确率。进一步提高用户情绪状态识别结果的准确率。

【技术实现步骤摘要】
基于图像的情绪识别方法、装置、设备和存储介质


[0001]本申请涉及深度学习
,尤其涉及一种基于图像的情绪识别方法、装置、设备和存储介质。

技术介绍

[0002]随着深度学习的发展,其不仅极大地促进了人工智能和机器学习的发展,也促进了其他领域的发展,产生了深度学习领域与其他领域的交叉研究领域,如深度学习领域与心理学领域交叉的技术研究领域等。其中,心理学领域中有关情绪数据的研究,是一个主要的心理学研究方向,其主要研究人的情绪状态,如积极情绪和消极情绪等。
[0003]相关技术中,有关情绪状态的研究,通常是先由用户基于标准量表进行自行打分,然后由专业人员根据用户的打分情况,评估该用户的情绪状态。该方式受用户、专业人员的主观思维影响较大,不仅耗时费力,还存在准确率低的问题。

技术实现思路

[0004]本申请提供一种基于图像的情绪识别方法、装置、设备和存储介质,用以解决现有情绪识别方法准确率低的问题。
[0005]第一方面,本申请提供一种基于图像的情绪识别方法,包括:
[0006]获取目标图像及目标用户针对目标图像的描述文本,目标图像为可引起用户产生情绪的图像;
[0007]将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕;
[0008]针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一PAD值;并确定描述文本对应的第二PAD值;
[0009]根据多个第一PAD值和第二PAD值,确定目标PAD值;
[0010]根据目标PAD值,确定目标用户的情绪状态。
[0011]一种可能的实施方式中,根据多个第一PAD值和第二PAD值,确定目标PAD值,包括:基于预设公式,对多个第一PAD值和第二PAD值进行加权处理,得到目标PAD值;其中,预设公式为:
[0012][0013]其中,y
i
表示第i类情绪风格的图像字幕对应的第一PAD值,a
i
表示第i类情绪风格对应的量表分数,R0表示第二PAD值,N表示情绪风格的种类总数,A表示归一化系数。
[0014]一种可能的实施方式中,确定情绪风格的图像字幕对应的第一PAD值,包括:确定情绪风格的图像字幕对应的第一语义向量,第一语义向量包含多个第一语义元素;针对多个第一语义元素中的每个第一语义元素,确定第一语义元素和第二语义向量中的每个第二
语义元素的第一语义相似度,第二语义向量为基于情绪词典确定的,情绪词典包括多个情绪词组;在第二语义元素中,确定与第一语义元素的第一语义相似度满足第一设定条件的第一目标语义元素;将第一目标语义元素对应的第一语义相似度和第一目标语义元素对应的PAD值进行加权处理,得到第一PAD值。
[0015]一种可能的实施方式中,确定描述文本对应的第二PAD值,包括:确定描述文本对应的第三语义向量,第三语义向量包含多个第三语义元素;针对多个第三语义元素中的每个第三语义元素,确定第三语义元素和第二语义向量中的每个第二语义元素的第二语义相似度;在第二语义元素中,确定与第三语义元素的第二语义相似度满足第二设定条件的第二目标语义元素;将第二目标语义元素对应的第二语义相似度和第二目标语义元素对应的PAD值进行加权处理,得到第二PAD值。
[0016]一种可能的实施方式中,基于图像的情绪识别方法中的图像字幕生成模型可以包括卷积神经网络和基于注意力机制的风格化文本生成模块,风格化文本生成模块包含GRU单元、编码子模块和解码子模块。将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕,包括:将目标图像输入至卷积神经网络进行特征提取,得到目标图像对应的图像特征;将图像特征输入GRU单元进行语义提取,得到第四语义向量;将第四语义向量输入编码子模块进行编码处理,得到编码向量;将编码向量输入解码子模块进行解码处理,得到解码向量;将通过注意力机制处理的编码向量和解码向量进行级联处理,得到目标图像对应的多种情绪风格的图像字幕。
[0017]一种可能的实施方式中,基于图像的情绪识别方法中的图像字幕生成模型是可以通过以下方式训练得到的:获取样本数据,样本数据包括样本图像和样本图像对应的参考图像字幕以及风格化文本数据,风格化文本数据包括风格化文本和风格化文本对应的参考风格标签;将样本图像输入至图像字幕生成模型,得到样本图像对应的输出图像字幕;基于风格指示器,根据风格化文本数据,调整输出图像字幕;确定调整后的输出图像字幕与参考图像字幕的第一损失值;根据第一损失值,调整图像字幕生成模型。
[0018]一种可能的实施方式中,基于图像的情绪识别方法还包括:采用分类模型对生成的多种情绪风格的图像字幕进行风格化文本分类,用于确定图像字幕符合目标图像的风格。其中,分类模型是可以通过以下方式训练得到的:获取风格化文本数据;将风格化文本数据中的风格化文本输入至分类模型,得到风格化文本对应的输出风格标签;确定输出风格标签与风格化文本数据中的参考风格标签的第二损失值;根据第二损失值,调整分类模型。
[0019]第二方面,本申请提供一种基于图像的情绪识别装置,包括:
[0020]获取模块,用于获取目标图像及目标用户针对目标图像的描述文本,目标图像为可引起用户产生情绪的图像;
[0021]生成模块,用于将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕;
[0022]第一确定模块,用于针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一PAD值;并确定描述文本对应的第二PAD值;
[0023]第二确定模块,用于根据多个第一PAD值和第二PAD值,确定目标PAD值;
[0024]第三确定模块,用于根据目标PAD值,确定目标用户的情绪状态。
[0025]一种可能的实施方式中,第二确定模块可以具体用于:基于预设公式,对多个第一PAD值和第二PAD值进行加权处理,得到目标PAD值。其中,预设公式为:
[0026][0027]其中,y
i
表示第i类情绪风格的图像字幕对应的第一PAD值,a
i
表示第i类情绪风格对应的量表分数,R0表示第二PAD值,N表示情绪风格的种类总数,A表示归一化系数。
[0028]一种可能的实施方式中,第一确定模块可以具体用于:确定情绪风格的图像字幕对应的第一语义向量,第一语义向量包含多个第一语义元素;针对多个第一语义元素中的每个第一语义元素,确定第一语义元素和第二语义向量中的每个第二语义元素的第一语义相似度,第二语义向量为基于情绪词典确定的,情绪词典包括多个情绪词组;在第二语义元素中,确定与第一语义元素的第一语义相似度满足第一设定条件的第一目标语义元素;将第一目标语义元素对应的第一语义相似度和第一目标语义元素对应的PAD值进行加权处理,得到第一PAD值。
[0029]一种可能的实施方式中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像的情绪识别方法,其特征在于,包括:获取目标图像及目标用户针对所述目标图像的描述文本,所述目标图像为可引起用户产生情绪的图像;将所述目标图像输入图像字幕生成模型进行图像字幕生成,得到所述目标图像对应的多种情绪风格的图像字幕;针对所述多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定所述情绪风格的图像字幕对应的第一PAD值;并确定所述描述文本对应的第二PAD值;根据多个所述第一PAD值和所述第二PAD值,确定目标PAD值;根据所述目标PAD值,确定所述目标用户的情绪状态。2.根据权利要求1所述的情绪识别方法,其特征在于,所述根据多个所述第一PAD值和所述第二PAD值,确定目标PAD值,包括:基于预设公式,对多个所述第一PAD值和所述第二PAD值进行加权处理,得到目标PAD值;其中,所述预设公式为:其中,y
i
表示第i类情绪风格的图像字幕对应的第一PAD值,a
i
表示第i类情绪风格对应的量表分数,R0表示第二PAD值,N表示情绪风格的种类总数,A表示归一化系数。3.根据权利要求1所述的情绪识别方法,其特征在于,所述确定所述情绪风格的图像字幕对应的第一PAD值,包括:确定所述情绪风格的图像字幕对应的第一语义向量,所述第一语义向量包含多个第一语义元素;针对所述多个第一语义元素中的每个第一语义元素,确定所述第一语义元素和第二语义向量中的每个第二语义元素的第一语义相似度,所述第二语义向量为基于情绪词典确定的,所述情绪词典包括多个情绪词组;在所述第二语义元素中,确定与所述第一语义元素的第一语义相似度满足第一设定条件的第一目标语义元素;将所述第一目标语义元素对应的第一语义相似度和所述第一目标语义元素对应的PAD值进行加权处理,得到第一PAD值。4.根据权利要求1所述的情绪识别方法,其特征在于,所述确定所述描述文本对应的第二PAD值,包括:确定所述描述文本对应的第三语义向量,所述第三语义向量包含多个第三语义元素;针对所述多个第三语义元素中的每个第三语义元素,确定所述第三语义元素和第二语义向量中的每个第二语义元素的第二语义相似度;在所述第二语义元素中,确定与所述第三语义元素的第二语义相似度满足第二设定条件的第二目标语义元素;将所述第二目标语义元素对应的第二语义相似度和所述第二目标语义元素对应的PAD值进行加权处理,得到第二PAD值。5.根据权利要求1至4中任一项所述的情绪识别方法,其特征在于,所述图像字幕生成模型包括卷积神经网络和基于注意力机制的风格化文本生成模块,所述风格化文本生成模
块包含GRU单元、编码子模块和解码子模块,所述将所述目标图像输入图像字幕生成模型进行图像字幕生成,得到所述目标...

【专利技术属性】
技术研发人员:文子潇杨毅孙甲松
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1