The invention discloses an old speech emotion recognition method of multi feature fusion based on prediction, comprises the following steps: obtaining Empty Nester speech emotion database respectively; in the database of each voice and expression from three different characteristic parameters; using prediction method of multi feature fusion based on feature recognition; SVM; the highest accuracy rate of the output of a speech with emotion category prediction, and get the recognition result. The fusion forecasting framework consists of two parts: Based on the characteristics of cross prediction component, by modeling the relationship between multi feature to a combination of three features, connecting three features from the first group were learning a mapping between predictor substitution, three feature parameters of speech emotion categories; the characteristics of intra prediction time evolution of the three components, respectively. Feature modeling, feature prediction component corresponding to the decision level fusion, each feature is composed of two second sets of predictor modeling, learning mappings between past and current characteristics of each category.
【技术实现步骤摘要】
一种基于预测的多特征融合的老人语音情感识别方法
本专利技术属于信号处理与模式识别领域,更具体地,涉及一种基于预测的多特征融合的老人语音情感识别方法。
技术介绍
近几十年来,人机交互技术发展势头迅猛,但随着各种智能机器不断涌现,人们开始注意到这个问题:是否让计算机感知情感。众所周知,人随时随地都会有喜、怒、哀、乐等情感的起伏变化,人在决策或处事时,掺杂太多的情感因素将会导致负面结果,而如果丧失了情感能力,理性的决策同样难以达到。但没有情感、无法感知情感的机器是否能见机行事呢?“情感计算”一词最早是由美国麻省理工学院的Picard教授在1997年出版的《AffectiveComputing》一书中提出来的,她把“情感计算”定义为:“与情感有关、由情感引发或者能够影响情感的因素的计算。”情感计算的研究目的是通过赋予该计算系统识别、理解、表达和适应人的情感的能力,以实现和谐、高效的人机交互,使计算机具有更高、更全面的智能。目前,在情感识别领域中,就划分为多特征和多模态两大类情感识别研究方面。而单特征和单模态情感识别已经做得非常成熟,在多特征情感识别中,最核心的部分就是多个 ...
【技术保护点】
一种基于预测的多特征融合的老人语音情感识别方法,其特征在于:其包括以下步骤:第一步:获取空巢老人语音情感数据库,所述数据库中包含多种情感类别和多个人物形象;第二步:对所述数据库进行处理,分别对所述数据库中的每条语音和表情提取不同的特征参数:每条语音带有对应的情感类别,与相应语音对应的人物形象带有对应的表情:第一种特征:小波系数;利用小波变换对每条语音进行分解,舍弃语音高频带小波系数,实现降噪目的,然后选取语音基频带的小波系数进行方差分析,进而预测带噪语音的基音周期;第二种特征:傅立叶系数;利用傅里叶变换对每条语音整体变换,在得到加窗的每一帧信号后,需要知道此帧信号在不同频段 ...
【技术特征摘要】
1.一种基于预测的多特征融合的老人语音情感识别方法,其特征在于:其包括以下步骤:第一步:获取空巢老人语音情感数据库,所述数据库中包含多种情感类别和多个人物形象;第二步:对所述数据库进行处理,分别对所述数据库中的每条语音和表情提取不同的特征参数:每条语音带有对应的情感类别,与相应语音对应的人物形象带有对应的表情:第一种特征:小波系数;利用小波变换对每条语音进行分解,舍弃语音高频带小波系数,实现降噪目的,然后选取语音基频带的小波系数进行方差分析,进而预测带噪语音的基音周期;第二种特征:傅立叶系数;利用傅里叶变换对每条语音整体变换,在得到加窗的每一帧信号后,需要知道此帧信号在不同频段的能量分布,从一个离散信号中提取离散频段频谱信息;第三种特征:Mel频率倒谱系数;在Mel标度频率域提取出倒谱参数;第三步:采用基于预测的方法对多特征进行融合;基于预测的融合框架包括两部分:第一个是跨特征预测组件,其通过建模多特征之间的关系来组合小波系数(X)、傅立叶系数(F)、Mel频率倒谱系数(M),跨特征预测组件对应于特征级融合,其中三种特征的连接由第一组预测器替代,分别学习语音情感类别的三种特征参数之间的映射;第二个是特征内预测组件,分别对三种特征的时间演进进行建模,特征内预测组件对应于决策级融合,其中每种特征由两个第二组预测器建模,这两个第二组预测器分别学习每个情感类别的过去和当前特征之间的映射;其中,跨特征预测组件和特征内预测组件以分层方式组合;在第一层中,跨特征预测组件的三个预测器被组合以便考虑特征之间的双向关系,特征内预测组件的三个预测器被组合以便合并关于特征的时间演进的信息;在第二层中,组合跨特征预测组件和特征内预测组件,以便研究特征关系和它们的时间演进;第四步:用SVM进行特征识别;第五步:输出同一段语音下预测的最高准确率的情感类别,得到识别结果。2.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:所述数据库中包含7种情感类别和11个人物形象,7种情感类别为:生气,焦虑,无聊,厌恶,高兴,中性,伤心;11个人物形象,每一个人物表达出自己的情感类别,每一种情感类别里有不同的样本数。3.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:在对特征进行预测的第一组预测器中,小波系数、傅立叶系数和Mel频率倒谱系数之间的关系分别由六个回归因子fX→F、fX→M、fF→M、fF→X、fM→X、fM→F建模;六个回归因子对应六个预测器,六个预测器分别将三种特征作为输入,并在相同帧t处预测对应的识别率;识别率预测时,采用以下等式:fX→F(X[t-kXF,t])=FX→F[t]≈F[t](1)fX→M(X[t-kXM,t])=MX→M[t]≈M[t](2)fF→M(F[t-kFM,t])=MF→M[t]≈M1[t](3)fM→F(M[t-kMF,t])=FM→F[t]≈F1[t](4)fM→X(M[t-kMX,t])=XM→X[t]≈X[t](5)fF→X(F[t-kFX,t])=XF→X[t]≈X1[t](6)其中,在6个等式中,窗口k的大小取决于映射类型和建模类。4.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:在第二组预测器中,其在每个特征内进行预测,每个情感类别的过去和未来特征之间的关系由三个回归因子fX→X、fF→F和fM→M建模;三个回归因子对应三个预测器,三个预测器将过去的特征作为输入,并且在帧t处预测对应的特征;特征预测时,采用以下等式:fX→X(X[t-kXX,t-1])=XX→X[t]≈X[t](7)fF→F(F[t-kFF,t-1])=FF→F[t]≈F[t](8)fM→M(M[t-kMM,t-1])=MM→M[t]≈M[t](9)其中,在上述3个等式中,窗口k的大小取决于映射类型和建模类。5.如权利要求1所述的基于预测的多特征融合的老人语音情感识别方法,其特征在于:每个预测器的总误差通过对所有帧N上的误差求和来计算,导致每个情感类别的每个序列有9个预测误差,情感类别的9个预测...
【专利技术属性】
技术研发人员:王坤侠,刘文静,王鑫,夏巍,
申请(专利权)人:安徽建筑大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。