基于语音和面部表情的双模态情感融合的识别方法及系统技术方案

技术编号：13769850 阅读：272 留言：0更新日期：2016-09-29 07:34

本发明专利技术涉及一种基于语音和面部表情的双模态情感融合的识别方法，包括以下步骤：获取待识别对象的音频数据和视频数据；从视频数据中提取人脸表情图像，并进行眼睛、鼻子、嘴巴区域的分割；从三个区域的图像中提取每个区域图像中的面部表情特征；S4、对语音情感特征和面部表情特征进行PCA分析降维；将两种模态样本进行朴素贝叶斯的情感语音分类，并将条件概率进行决策级融合，得到最终情感识别结果。本发明专利技术采用决策级融合方法对语音情感特征和面部表情特征进行融合，能够为下一步进行相应条件概率的计算提供了更加准确的数据，使得本发明专利技术的方法能够更准确的得出受测对象的情感状态，从而提高情感识别的准确性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于情感识别领域，更具体地，涉及一种基于语音和面部表情的双模态情感融合和识别方法及系统。
技术介绍
随着生活水平的提高和信息技术的高速发展人类对智能化生活的需求越来越高，人机交互能力也越来越得到重视，作为人机交互的重要部分的情感计算也就成为了研究热点。目前国内外在情感识别方面的研究主要分为两大类，一类是基于单一模态的情感识别，另一类是基于多模态的情感识别。两类情感识别的主要区别是多模态情感识别是通过对多通道采集到的信息进行分析，并通过一系列的技术手段最终较为准确的获得被测者的情感状态，而单一模态情感识别是通过对某一通道采集到的信息进行分析，并通过一系列的技术手段最终较为准确的获得被测者的情感状态。现有的情感识别主要是基于单一模态的情感识别，在面部表情识别上多数研究仍停留在对基本面部表情的情感识别，对更加细微的表情的识别效果不好。对于语音情感识别方面的研究较为成熟，但是针对语音进行单一模态的情感识别时，如果语音通道受阻则对情感识别的结果影响很大。叶亮等提出了一种用于混合语音情感识别的语音特征筛选方法，能够很好地提取一系列声学特征中的最佳特征集合，但是未考虑声学通道受阻的情况。赵小明等提出了基于压缩感知的鲁棒性语音情感识别方法，将特征参数的提取从韵律特征和音质特征两方面扩充到梅尔频率倒谱系数MFCC，提高了特征信号的抗干扰性，但是仍未解决声学通道无法获取信号时的情感识别。韩志艳等提出了一种串并结合的多模式情感信息融合与识别方法，通过讲语音信号特征参数和面部表情特征参数顺序组合起来等处理方法融合语音和面部表情的特征信息，采用Adaboost算法训练...

【技术保护点】
基于语音和面部表情的双模态情感融合的识别方法，其特征在于，包括以下步骤：S1、获取待识别对象的音频数据和视频数据；S2、对所述音频数据进行预处理得到情感语音信号；从所述视频数据中提取人脸表情图像，并进行眼睛、鼻子、嘴巴区域的分割，预处理后得到统一标准的三个区域的图像；S3、从所述情感语音信号中提取语音情感特征；从所述三个区域的图像中提取每个区域图像中的面部表情特征；S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维，获得最终语音情感特征和最终面部表情特征，并将最终语音情感特征作为语音模态样本，将最终面部表情特征作为面部模态样本；S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类，得到语音模态样本在不同情感状态下的第一条件概率集合；将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类，得到面部表情模态样本在不同情感状态下的第二条件概率集合；S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合，得到待识别对象的最终情感识别结果。

【技术特征摘要】
1.基于语音和面部表情的双模态情感融合的识别方法，其特征在于，包括以下步骤：S1、获取待识别对象的音频数据和视频数据；S2、对所述音频数据进行预处理得到情感语音信号；从所述视频数据中提取人脸表情图像，并进行眼睛、鼻子、嘴巴区域的分割，预处理后得到统一标准的三个区域的图像；S3、从所述情感语音信号中提取语音情感特征；从所述三个区域的图像中提取每个区域图像中的面部表情特征；S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维，获得最终语音情感特征和最终面部表情特征，并将最终语音情感特征作为语音模态样本，将最终面部表情特征作为面部模态样本；S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类，得到语音模态样本在不同情感状态下的第一条件概率集合；将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类，得到面部表情模态样本在不同情感状态下的第二条件概率集合；S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合，得到待识别对象的最终情感识别结果。2.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法，其特征在于，所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为：S2A.1、对音频数据进行固定频率的采样，将音频数据的幅值分为若干个有限区间，将属于同一区间的音频数据用区间所对应的幅值统一表示，最终将信号转化为时间和幅值离散的数字信号；S2A.2、采用高通滤波器H(z)＝1-αz-1对数字信号的高频部分的功率进行补偿，放大语音信号高频部分，得到补偿语音信号，其中H(z)为语音信号功率函数，z为频率，α为预加重系数且0.9≤α＜1；S2A.3、对步骤S2A.2处理后的补偿语音信号进行分帧处理，将补偿语音信号划分为多帧语音段，并对分帧...

【专利技术属性】
技术研发人员：刘振焘，吴敏，曹卫华，陈鑫，潘芳芳，徐建平，张日，丁学文，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人