一种情绪识别方法、装置、存储介质及设备制造方法及图纸

技术编号:38706621 阅读:12 留言:0更新日期:2023-09-08 14:47
本申请公开了一种情绪识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标视频,并从中分离出音频信号流和图像信号流,然后将音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;其中,情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;接着根据第一初步情绪识别结果和第二初步情绪识别结果,确定目标用户的最终情绪识别结果。由于本申请是先利用模态相关的训练方法和梯度融合的参数更新方式构建了情绪识别模型,从而在利用该模型进行情绪识别时,能够提高识别结果的准确率。别结果的准确率。别结果的准确率。

【技术实现步骤摘要】
一种情绪识别方法、装置、存储介质及设备


[0001]本申请涉及计算机
,尤其涉及一种情绪识别方法、装置、存储介质及设备。

技术介绍

[0002]随着人工智能技术的快速发展,人机交互在人们日常工作、生活中出现的频率越来越高,能够为人们带来极大的便利。情绪识别作为人机交互中一个重要的分支,在医疗、教育等领域具有重要意义,已成为当前各领域的研究热点。
[0003]目前,现有的情绪识别方法通常是采用基于深度学习的多模态情绪识别方法,但该方法是通过多任务学习的方式进行模型训练的。不同模态间抽象出的情绪表征向量,是通过共享融合的方式合并在一起的。这种训练方式是以不同模态间抽象表征信息完全共享为前提条件的。如果模型网络结构无法聚合得到匹配的高维信息表达,那么再采用多任务学习的训练方法,将会造成模型偏差,导致模型得到的识别结果的准确率较低。因此,如何提高情绪识别结果的准确率是目前亟待解决的技术问题。

技术实现思路

[0004]本申请实施例的主要目的在于提供一种情绪识别方法、装置、存储介质及设备,能够有效提高情绪识别结果的准确率。
[0005]本申请实施例提供了一种情绪识别方法,包括:
[0006]获取待识别的目标视频,并从所述目标视频中分离出音频信号流和图像信号流;
[0007]将所述音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到所述目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;所述情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;
[0008]根据所述第一初步情绪识别结果和第二初步情绪识别结果,确定所述目标用户对应的最终情绪识别结果。
[0009]一种可能的实现方式中,所述情绪识别模型的构建方式如下:
[0010]获取第一样本视频,并从所述第一样本视频中分离出第一样本音频信号流和第一样本图像信号流;
[0011]将所述第一样本音频信号流输入初始情绪识别模型,通过调整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型;
[0012]将所述第一样本图像信号流输入所述第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型;
[0013]对所述第一梯度和第二梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。
[0014]一种可能的实现方式中,所述将所述第一样本音频信号流输入初始情绪识别模
型,通过调整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型,包括:
[0015]将所述第一样本音频信号流按照预设固定时间窗长,切分为音频信号段,并将所有所述音频信号段打包为音频训练数据块;
[0016]从所述音频训练数据块中选取N个音频信号段,并提取出所述N个音频信号段各自对应的声学特征;所述N为大于0的正整数;
[0017]将所述N个音频信号段各自对应的声学特征输入初始情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第一情绪预测结果;
[0018]通过将所述第一样本用户的第一情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第一损失函数;
[0019]根据所述第一损失函数,通过误差反向传播算法,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型。
[0020]一种可能的实现方式中,所述将所述第一样本图像信号流输入所述第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型,包括:
[0021]将所述第一样本图像信号流按照所述预设固定时间窗长,切分为图像信号段,并将所有所述图像信号段打包为图像训练数据块;
[0022]从所述图像训练数据块中选取与所述N个音频信号段在时间上相对应的N个图像信号段,并提取出所述N个图像信号段各自对应的图像特征;
[0023]将所述N个图像信号段各自对应的图像特征输入所述第一初步情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第二情绪预测结果;
[0024]通过将所述第一样本用户的第二情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第二损失函数;
[0025]根据所述第二损失函数,通过误差反向传播算法,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型。
[0026]一种可能的实现方式中,所述第一损失函数和第二损失函数均为交叉熵损失函数。
[0027]一种可能的实现方式中,所述情绪识别模型的构建方式如下:
[0028]获取第二样本视频,并从所述第二样本视频中分离出第二样本音频信号流和第二样本图像信号流;
[0029]将所述第二样本图像信号流输入初始情绪识别模型,通过调整第三损失函数,计算模型参数更新的第三梯度,并训练得到第三初步情绪识别模型;
[0030]将所述第二样本音频信号流输入所述第三初步情绪识别模型,通过调整第四损失函数,计算模型参数更新的第四梯度,并训练得到第四初步情绪识别模型;
[0031]对所述第三梯度和第四梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。
[0032]一种可能的实现方式中,所述初始情绪识别模型为卷积神经网络CNN。
[0033]一种可能的实现方式中,所述方法还包括:
[0034]获取验证视频,并从所述验证视频中分离出验证音频信号流和验证图像信号流;
[0035]将所述验证音频信号流和验证图像信号流分别输入所述情绪识别模型,得到所述验证视频中验证用户对应的第一情绪验证结果和第二情绪验证结果;
[0036]根据所述第一情绪验证结果和第二情绪验证结果,确定所述验证用户对应的最终情绪验证结果;
[0037]当所述验证用户对应的最终情绪验证结果与真实情绪不一致时,将所述验证视频重新作为所述第一样本视频或第二样本视频,对所述情绪识别模型进行更新。
[0038]本申请实施例还提供了一种情绪识别装置,包括:
[0039]第一获取单元,用于获取待识别的目标视频,并从所述目标视频中分离出音频信号流和图像信号流;
[0040]预测单元,用于将所述音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到所述目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;所述情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;
[0041]第一确定单元,用于根据所述第一初步情绪识别结果和第二初步情绪识别结果,确定所述目标用户对应的最终情绪识别结果。
[0042]一种可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情绪识别方法,其特征在于,包括:获取待识别的目标视频,并从所述目标视频中分离出音频信号流和图像信号流;将所述音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到所述目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;所述情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;根据所述第一初步情绪识别结果和第二初步情绪识别结果,确定所述目标用户对应的最终情绪识别结果。2.根据权利要求1所述的方法,其特征在于,所述情绪识别模型的构建方式如下:获取第一样本视频,并从所述第一样本视频中分离出第一样本音频信号流和第一样本图像信号流;将所述第一样本音频信号流输入初始情绪识别模型,通过调整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型;将所述第一样本图像信号流输入所述第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型;对所述第一梯度和第二梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。3.根据权利要求2所述的方法,其特征在于,所述将所述第一样本音频信号流输入初始情绪识别模型,通过调整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型,包括:将所述第一样本音频信号流按照预设固定时间窗长,切分为音频信号段,并将所有所述音频信号段打包为音频训练数据块;从所述音频训练数据块中选取N个音频信号段,并提取出所述N个音频信号段各自对应的声学特征;所述N为大于0的正整数;将所述N个音频信号段各自对应的声学特征输入初始情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第一情绪预测结果;通过将所述第一样本用户的第一情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第一损失函数;根据所述第一损失函数,通过误差反向传播算法,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型。4.根据权利要求3所述的方法,其特征在于,所述将所述第一样本图像信号流输入所述第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型,包括:将所述第一样本图像信号流按照所述预设固定时间窗长,切分为图像信号段,并将所有所述图像信号段打包为图像训练数据块;从所述图像训练数据块中选取与所述N个音频信号段在时间上相对应的N个图像信号段,并提取出所述N个图像信号段各自对应的图像特征;将所述N个图像信号段各自对应的图像特征输入所述第一初步情绪识别模型的多层卷
积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第二情绪预测结果;通过将所述第...

【专利技术属性】
技术研发人员:殷兵李晋高天方昕刘俊华
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1