【技术实现步骤摘要】
一种基于多级支持向量机分类的语音情感识别方法及系统
本专利技术涉及语音情感识别
,具体而言,尤其涉及一种基于多级支持向量机分类的语音情感识别方法及系统。
技术介绍
情感是人类一种重要的本能,它同理性思维和逻辑推理能力一样,在人们的日常生活、工作、交流、处理事务和决策中扮演着重要的角色。其中,对语音信号情感的识别研究已发展为语音信号处理的重要分支,成为人机和谐交互的重要组成部分。由于情感信息的社会性、文化性以及语音信号自身的复杂性,语音情感识别尚有许多问题有待解决,如情感建模、特征的分析和选择及识别方法的改进。HMM技术、高斯混合模型和神经网络等方法在语音情感识别领域得到广泛应用,不过它们都存在一些难以弥补的缺陷。HMM分类决策能力差,需要先验统计知识;高斯混合模型也是基于统计理论的,需要大量训练样本才能获得比较好的识别效果;神经网络则存在网络结构难以确定、局部最优、容易过学习等问题。当样本数据较少或有限时,以上传统方法的工程应用受到限制。支持向量机是在结构风险最小化原则基础上建立起来的机器学习方法,能有效地克服基于经验风险最小化原则的神经网络容易过学习、泛化 ...
【技术保护点】
1.一种基于多级支持向量机分类的语音情感识别方法,其特征在于,包括:S1:提取语音训练样本集的情感特征;S2:构造情感特征的多级分类算法模型;S3:根据多级分类算法模型对所输入语音情感的类型进行识别。
【技术特征摘要】
1.一种基于多级支持向量机分类的语音情感识别方法,其特征在于,包括:S1:提取语音训练样本集的情感特征;S2:构造情感特征的多级分类算法模型;S3:根据多级分类算法模型对所输入语音情感的类型进行识别。2.根据权利要求1所述一种基于多级支持向量机分类的语音情感识别方法,其特征在于,所述语音训练样本集是由CASIA语音情感库中的情感构成。3.根据权利要求1所述一种基于多级支持向量机分类的语音情感识别方法,其特征在于,所述步骤S1包括提取语音情感122维全局特征,其中所述122维全局特征包括:特征1-7依次为短时能量的最大值、最小值、均值、方差、抖动、线性回归系数、线性回归系数的均方误差;特征8依次为0-250HZ频段能量占总能量的百分比;特征9-14依次为基因频率的最大值、最小值、均值、方差、一阶抖动、二阶抖动;特征15-18依次为浊音帧差分基因的最大值、最小值、均值、方差;特征19-70依次为0-12阶梅尔倒谱系数的最大值、最小值、均值、方差;特征71-122依次为0-12阶梅尔倒谱系数一阶差分的最大值、最小值、均值、方差。4.根据权利要求1所述一种基于多级支持向量机分类的语音情感识别方法,其特征在于,所述步骤S3包括:将所述情感特征根据传统支持向量机方法对情感进行分类识别,计算出情感分类识别率,进而得到语音情感识别混淆矩阵;构造第一级分类器,设定第一级分类器概率为P1,将情感混淆度超过第一级分类器概率的语音情感归为未获知的语音情感类,未超过所述分类器概率的作为已获知的语音情感类;对第一级分类器中的所述未获知的语音情感类构造第二级分类器,设定第二级分...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。