一种情感识别方法及装置制造方法及图纸

技术编号:16216873 阅读:37 留言:0更新日期:2017-09-15 23:06
本发明专利技术实施例提供了一种情感识别方法及装置,应用于多媒体技术领域,所述方法包括:通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征,得到第一情感结果;通过预先建立的三维卷积神经网络模型识别所述待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征,得到第二情感结果;对所述第一情感结果、所述第二情感结果进行融合计算,得到所述待识别视频的融合结果;根据所述融合结果中的最大值,通过预先建立的融合结果和情感类型的对应关系,得到所述待识别视频的情感类型。本发明专利技术实施例中递归神经网络模型和三维卷积神经网络模型的互补性,提高了识别视频情感类型的准确度。

Emotion recognition method and device

The embodiment of the invention provides a device and a method of emotion recognition, used in the field of multimedia technology, the method includes: time characteristics of appearance features of face frame sequence by identifying the recurrent neural network model is established beforehand to be identified in the video and the sequence of frames, the first time the appearance characteristics of affective outcomes; facial features frame sequence through pre established 3D convolution neural network model to identify the recognition in the video and the sequence of frames, second emotional results; on the first results, the second emotional feelings result by the fusion calculation, get the recognition of video fusion results according to the maximum value; the fusion result, through the pre established corresponding relation between the fusion result and emotional style, get the recognition of the emotional type of video. In the embodiment of the invention, the complementary nature of the recurrent neural network model and the three-dimensional convolution neural network model is improved, and the accuracy of the identification of the emotion type of the video is improved.

【技术实现步骤摘要】
一种情感识别方法及装置
本专利技术涉及多媒体
,特别是涉及一种情感识别方法及装置。
技术介绍
随着人工智能技术的迅速发展,情感识别能够通过画面和声音判断人物情绪,让机器真正“懂”用户,这将极大促进视频理解、人机交互等智能领域的发展。情感识别是视频画面情感、音频情感识别等多个领域技术的综合体。视频画面情感识别利用人工智能的算法,通过视频画面中人物表情、动作和姿态等信息识别出人物情绪。而音频情感识别主要根据人在不同情感下语音信号的非平稳性特征,通过提取语音的音质、韵律、频谱等声学特征,来判断情绪变化。传统的卷积神经网络(CNN,convolutionalneuralnetworks)能提取出图像的外观特征,在图像识别领域取得了很好的效果。然而,CNN只能处理单张图像。因此,先通过CNN提取视频每帧图像的外观特征,再通过递归神经网络(RNN,RecurrentNeuralNetwork)提取图像序列的时间特征,通过视频的外观特征和时间特征识别视频的情感。其中,情感类型可以分为愤怒、恶心、害怕、高兴、悲伤、惊讶和中立七种基本情感。目前,由于带有情感标注的数据量少,RNN情感识别尤其是某本文档来自技高网...
一种情感识别方法及装置

【技术保护点】
一种情感识别方法,其特征在于,包括:通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征,得到第一情感结果;通过预先建立的三维卷积神经网络模型识别所述待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征,得到第二情感结果;在得到所述第一情感结果及所述第二情感结果时,对所述第一情感结果、所述第二情感结果进行融合计算,得到所述待识别视频的融合结果;根据所述融合结果中的最大值,通过预先建立的融合结果和情感类型的对应关系,得到所述待识别视频的情感类型。

【技术特征摘要】
1.一种情感识别方法,其特征在于,包括:通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征,得到第一情感结果;通过预先建立的三维卷积神经网络模型识别所述待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征,得到第二情感结果;在得到所述第一情感结果及所述第二情感结果时,对所述第一情感结果、所述第二情感结果进行融合计算,得到所述待识别视频的融合结果;根据所述融合结果中的最大值,通过预先建立的融合结果和情感类型的对应关系,得到所述待识别视频的情感类型。2.根据权利要求1所述的情感识别方法,其特征在于,位于所述通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征,之前,所述方法还包括:对所述待识别视频进行预处理,得到所述待识别视频的帧序列。3.根据权利要求1所述的情感识别方法,其特征在于,位于所述通过预先建立的递归神经网络模型识别待识别视频的帧序列中人脸的外观特征和所述帧序列的时间特征,之前,所述方法还包括:通过卷积神经网络对FER2013数据库中的具有基本表情的人脸图像进行训练,建立卷积神经网络模型;通过递归神经网络对所述卷积神经网络模型的外观特征进行训练,建立递归神经网络模型;通过三维卷积神经网络对AFEW6.0数据库中的具有基本表情的视频片段进行训练,得到三维卷积神经网络模型。4.根据权利要求2所述的情感识别方法,其特征在于,所述对所述待识别视频进行预处理,得到所述待识别视频的帧序列的步骤,包括:对所述待识别视频中的每一帧图片做仿射变换,得到所述帧序列。5.根据权利要求1所述的情感识别方法,其特征在于,所述对所述第一情感结果、所述第二情感结果进行融合计算,得到所述待识别视频的融合结果的步骤,包括:根据公式:Wvideo=a1×WCNN-RNN+(1-a1)×WC3D,得到融合结果Wvideo,其中,WCNN-RNN为所述第一情感结果,WC3D为所述第二情感结果,a1为第一情感结果参数,1-a1为第二情感结果参数,a1为大于0且小于1的数值。6.根据权利要求1所述的情感识别方法,其特征在于,位于所述对所述第一情感结果、所述第二情感结果进行融合计算,之前,所述方法还包括:提取所述待识别视频的音频特征,通过支持向量机模型识别所述音频特征,得到音频情感结果;在得到所述第一情感结果、所述第二情感结果及所述音频情感结果时,对所述第一情感结果、所述第二情感结果及所述音频情感结果进行融合计算,得到所述待识别视频的融合结果。7.根据权利要求6所述的情感识别方法,其特征在于,所述对所述第一情感结果、所述第二情感结果及所述音频情感结果进行融合计算,得到所述待识别视频的融合结果的步骤,包括:根据公式:Wvideo=w1×WCNN-RNN+w2×WC3D+(1-w1-w2)×WAudio,得到融合结果Wvideo,其中,WCNN-RNN为所述第一情感结果,WC3D为所述第二情感结果,WAudio为所述音频情感结...

【专利技术属性】
技术研发人员:范音路香菊李典
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1