基于语音和面部表情的双模态情感融合的识别方法及系统技术方案

技术编号:13769850 阅读:272 留言:0更新日期:2016-09-29 07:34
本发明专利技术涉及一种基于语音和面部表情的双模态情感融合的识别方法,包括以下步骤:获取待识别对象的音频数据和视频数据;从视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割;从三个区域的图像中提取每个区域图像中的面部表情特征;S4、对语音情感特征和面部表情特征进行PCA分析降维;将两种模态样本进行朴素贝叶斯的情感语音分类,并将条件概率进行决策级融合,得到最终情感识别结果。本发明专利技术采用决策级融合方法对语音情感特征和面部表情特征进行融合,能够为下一步进行相应条件概率的计算提供了更加准确的数据,使得本发明专利技术的方法能够更准确的得出受测对象的情感状态,从而提高情感识别的准确性和可靠性。

【技术实现步骤摘要】

本专利技术属于情感识别领域,更具体地,涉及一种基于语音和面部表情的双模态情感融合和识别方法及系统。
技术介绍
随着生活水平的提高和信息技术的高速发展人类对智能化生活的需求越来越高,人机交互能力也越来越得到重视,作为人机交互的重要部分的情感计算也就成为了研究热点。目前国内外在情感识别方面的研究主要分为两大类,一类是基于单一模态的情感识别,另一类是基于多模态的情感识别。两类情感识别的主要区别是多模态情感识别是通过对多通道采集到的信息进行分析,并通过一系列的技术手段最终较为准确的获得被测者的情感状态,而单一模态情感识别是通过对某一通道采集到的信息进行分析,并通过一系列的技术手段最终较为准确的获得被测者的情感状态。现有的情感识别主要是基于单一模态的情感识别,在面部表情识别上多数研究仍停留在对基本面部表情的情感识别,对更加细微的表情的识别效果不好。对于语音情感识别方面的研究较为成熟,但是针对语音进行单一模态的情感识别时,如果语音通道受阻则对情感识别的结果影响很大。叶亮等提出了一种用于混合语音情感识别的语音特征筛选方法,能够很好地提取一系列声学特征中的最佳特征集合,但是未考虑声学通道受阻的情况。赵小明等提出了基于压缩感知的鲁棒性语音情感识别方法,将特征参数的提取从韵律特征和音质特征两方面扩充到梅尔频率倒谱系数MFCC,提高了特征信号的抗干扰性,但是仍未解决声学通道无法获取信号时的情感识别。韩志艳等提出了一种串并结合的多模式情感信息融合与识别方法,通过 讲语音信号特征参数和面部表情特征参数顺序组合起来等处理方法融合语音和面部表情的特征信息,采用Adaboost算法训练获得分类器,最终采用投票法获得最终结果。而本专利创新的采用贝叶斯分类器和决策级融合方法,融合情感语音特征和面部表情特征,获得更好的效果。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于语音和面部表情的双模态情感融合和识别方法及系统。本专利技术解决上述技术问题的技术方案如下:基于语音和面部表情的双模态情感融合的识别方法,包括以下步骤:S1、获取待识别对象的音频数据和视频数据;S2、对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;S3、从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维,获得最终语音情感特征和最终面部表情特征,并将最终语音情感特征作为语音模态样本,将最终面部表情特征作为面部模态样本;S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果。本专利技术的有益效果是:本专利技术基于语音和面部表情的双模态情感识别方 法使用了标准数据库对分类器进行训练使得情感识别结果更加的准确高效。并且采用决策级融合方法对语音情感特征和面部表情特征进行融合,能够更好地得到融合后的情感特征为下一步进行相应条件概率的计算提供了更加准确的数据,使得本专利的方法能够更准确的得出受测对象的情感状态,从而提高情感识别的准确性和可靠性。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步的,所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为:S2A.1、对音频数据进行固定频率的采样,将音频数据的幅值分为若干个有限区间,将属于同一区间的音频数据用区间所对应的幅值统一表示,最终将信号转化为时间和幅值离散的数字信号;S2A.2、采用高通滤波器H(z)=1-αz-1对数字信号的高频部分的功率进行补偿,放大语音信号高频部分,得到补偿语音信号,其中H(z)为语音信号功率函数,z为频率,α为预加重系数且0.9≤α<1;S2A.3、对步骤S2A.2处理后的补偿语音信号进行分帧处理,将补偿语音信号划分为多帧语音段,并对分帧后的语音段进行加窗处理,得到情感语音信号。采用上述进一步方案的有益效果为:对语音信号进行一定频率的采样保证了信号不失真的同时,包含最少的冗余信息。预加重增强了情感识别中所需要的信息。分帧和加窗确保了帧与帧之间的平稳过渡并且减少帧起始处与帧结束处信号的不连续问题。进一步的,所述步骤S2从步骤S1抽取的视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域图像的具体步骤为:S2B.1、获取所述人脸表情图像中眼睛、鼻子、嘴巴的三个区域的四角坐标,将每个区域的坐标值经过坐标变换和取整数,获取相应裁剪区域的矩 形信息,将眼睛、鼻子、嘴巴从所述人脸表情图像中分割出来,分别得到眼睛区域图像、鼻子区域图像和嘴巴区域图像;S2B.2、将待识别对象的所有眼睛区域图像调节为同一尺寸,所有的鼻子区域图像调节为同一尺寸,所有的嘴巴区域图像调节为同一尺寸;S2B.3、增加所有区域图像的亮度和对比度,得到高亮度图像;S2B.4、通过调整高亮度图像的灰度值将图像像素均匀地分布在整个图像范围内得到统一标准的三个区域图像。采用上述进一步方案的有益效果为:三个区域分割减少了图像中非关键部分对表情变化信息的干扰,也减少了数据量,提高了计算速度,由于分割后的灰度图像较为模糊,不易识别,灰度变换通过调整图像的灰度值,将其均匀地分布在整个范围的灰度区域,使一定灰度区间的像素个数大体相同,从而使图像的对比度得以增强,直方图均衡化使图像的对比度得以增强。进一步的,所述步骤S3从情感语音信号中提取语音情感特征的具体包括以下步骤:S3A.1、利用短时自相关函数法确定情感语音信号的周期,提取出基频特征的10个统计学特征参数,短时自相关函数Rω(k)的定义为: 其中,S(n)为情感语音信号的时间序列,Sω(n)为第ω帧情感语音信号,每帧帧长为N,k为时间的延迟量,10个统计学特征参数包括:基频的最大值Pmax、最小值Pmin、变化范围Pd=Pmax-Pmin、平均值Pm、标准差σp、平均绝对斜度Ms、上四分位数P0.75、下四分位数P0.25、内四分极值Pi=P0.75-P0.25、中位数P0.5;S3A.2、根据LPC的线性预测运算求出预测系数{ak,k=1,2,…,p本文档来自技高网
...

【技术保护点】
基于语音和面部表情的双模态情感融合的识别方法,其特征在于,包括以下步骤:S1、获取待识别对象的音频数据和视频数据;S2、对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;S3、从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维,获得最终语音情感特征和最终面部表情特征,并将最终语音情感特征作为语音模态样本,将最终面部表情特征作为面部模态样本;S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果。

【技术特征摘要】
1.基于语音和面部表情的双模态情感融合的识别方法,其特征在于,包括以下步骤:S1、获取待识别对象的音频数据和视频数据;S2、对所述音频数据进行预处理得到情感语音信号;从所述视频数据中提取人脸表情图像,并进行眼睛、鼻子、嘴巴区域的分割,预处理后得到统一标准的三个区域的图像;S3、从所述情感语音信号中提取语音情感特征;从所述三个区域的图像中提取每个区域图像中的面部表情特征;S4、对所述语音情感特征和所述面部表情特征进行PCA分析降维,获得最终语音情感特征和最终面部表情特征,并将最终语音情感特征作为语音模态样本,将最终面部表情特征作为面部模态样本;S5、将所述语音模态样本进行朴素贝叶斯的情感语音分类,得到语音模态样本在不同情感状态下的第一条件概率集合;将所述面部表情模态样本进行基于朴素贝叶斯的人脸表情分类,得到面部表情模态样本在不同情感状态下的第二条件概率集合;S6、将所述第一条件概率集合和所述第二条件概率集合进行决策级融合,得到待识别对象的最终情感识别结果。2.根据权利要求1所述的基于语音和面部表情的双模态情感融合的识别方法,其特征在于,所述步骤S2对音频数据进行预处理得到情感语音信号的具体步骤为:S2A.1、对音频数据进行固定频率的采样,将音频数据的幅值分为若干个有限区间,将属于同一区间的音频数据用区间所对应的幅值统一表示,最终将信号转化为时间和幅值离散的数字信号;S2A.2、采用高通滤波器H(z)=1-αz-1对数字信号的高频部分的功率进行 补偿,放大语音信号高频部分,得到补偿语音信号,其中H(z)为语音信号功率函数,z为频率,α为预加重系数且0.9≤α<1;S2A.3、对步骤S2A.2处理后的补偿语音信号进行分帧处理,将补偿语音信号划分为多帧语音段,并对分帧...

【专利技术属性】
技术研发人员:刘振焘吴敏曹卫华陈鑫潘芳芳徐建平张日丁学文
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1