【技术实现步骤摘要】
一种基于视频和语音信息的双模态融合情绪识别方法
本申请涉及情绪识别领域,特别是一种基于视频和语音信息的双模态融合情绪识别方法。
技术介绍
通常,人类自然交流和表达情感的方式是多模态的。这意味着我们可以口头或视觉表达情感。当更多的情绪用音调表达时,音频数据可能包含情绪识别的主要线索;当更多的人脸图像被用来表达情感时,可以认为挖掘情感所需的大部分线索都存在于人脸图像中使用诸如人类面部表情、语音语调和语言内容等多模态信息是一个有趣且具有挑战性的问题。传统模式研究方向下的情感计算,重点探究的是单个模态。如语音情感方面、视频动作和人脸图像等方面的识别。这些传统的单模态情感识别计算在实际应用的研究过程中,尽管在各自领域中已取得显著的成果。但由于人的情感表现形式具有复杂性和多样性特征,若单一地思考某一种表现形式,进行人的情感的判定,最终的结果是片面的且不客观的,会导致诸多具有价值性情感信息丢失。随着人工智能技术在信息时代中深入发展,广大人们更加重视情感计算方面的研究但是人体的情绪是复杂多变的,单独测量其中某一项信息判断情绪 ...
【技术保护点】
1.一种基于视频和语音信息的双模态融合情绪识别方法,其特征在于,包括以下步骤:/n步骤1:通过外部设备摄像头和麦克风获取情绪待识别用户的人脸信息和语音信息,将所述人脸信息和所述语音信息输入至预先训练好的特征提取网络,分别提取人脸图像特征和语音特征;/n步骤2:将所提取的人脸图像特征和语音特征进行归一化处理,再传入Bi-GRU网络中进行训练,通过两个单模态子网络中的输入特征计算相关性和每个时刻每个模态的注意力分布。/n步骤3:将所提取的人脸图像特征和语音特征进行特征融合,得到联合特征向量。所述联合特征向量是指将具有相同情绪标签的人脸图像特征和语音特征进行融合,再经过降维和归一 ...
【技术特征摘要】
1.一种基于视频和语音信息的双模态融合情绪识别方法,其特征在于,包括以下步骤:
步骤1:通过外部设备摄像头和麦克风获取情绪待识别用户的人脸信息和语音信息,将所述人脸信息和所述语音信息输入至预先训练好的特征提取网络,分别提取人脸图像特征和语音特征;
步骤2:将所提取的人脸图像特征和语音特征进行归一化处理,再传入Bi-GRU网络中进行训练,通过两个单模态子网络中的输入特征计算相关性和每个时刻每个模态的注意力分布。
步骤3:将所提取的人脸图像特征和语音特征进行特征融合,得到联合特征向量。所述联合特征向量是指将具有相同情绪标签的人脸图像特征和语音特征进行融合,再经过降维和归一化处理得到;
步骤4:将融合特征输入至预先训练好的深度神经网络,所述深度神经网络含有情绪分类器,用于获取不同类型的情绪评价信息,最终评判用户情绪。
2.根据权利要求1所述的一种基于视频和语音信息的双模态融合情绪识别方法,其特征在于,所述视频信息是指人脸图像信息。
3.根据权利要求1所述的一种基于视频和语音信息的双模态融合情绪识别方法,其特征在于,所述获取人脸图像信息,提取人脸图像特征包括以下步骤:
步骤1:获取待处理的视频文件;解析所述视频文件,得到视频帧;基于视频帧的像素信息对所述视频帧进行过滤,将过滤后得到的视频帧作为所述待识别人脸情绪的图像;
步骤2:基于所述视频帧的像素信息,生成所述视频帧对应的直方图同时确定所述视频帧的清晰度;根据所述直方图和边缘检测算子,对所述视频帧进行聚类,得到至少一个类;过滤各个所述类中重复的视频帧和清晰度小于清晰度阈值的视频帧;
步骤3:基于所述过滤后的视频帧,采用基于卷积神经网络的的方法对视频帧进行人脸检测、对齐、旋转和调整大小的操作,得到人脸图像;
步骤4:基于所述人脸图像,将所述人脸图像输入预先训练得到的图像特征提取模型中进行处理,将所述图像特征提取模型中的全连接层输出的特征向量确定为所述图像特征向量,所述图像特征提取模型为对预设深度卷积神经网络模型进行训练得到的,所述预设深度卷积神经网络模型包括池化层、一个全连接层以及全连接层前的dropout层和全连接层后的softmax层。
4.根据权利要求1所述的一种基于视频和语音信息的双模态融合情绪识别方法,其特征在于,所述获取语音信息,提取语音特征用预处理的AlexNet网络进行处理。
5.根据权利要求4所述的提取语音特征包括以下步骤:
步骤1:利用麦克风获取人体原始的语音信号,对所述语音信号进行预处理,得到声谱图。
步骤2:将所述...
【专利技术属性】
技术研发人员:臧景峰,史玉欢,王鑫磊,刘瑞,
申请(专利权)人:长春理工大学,
类型:发明
国别省市:吉林;22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。