当前位置: 首页 > 专利查询>东南大学专利>正文

一种跨语言的语音情感识别方法技术

技术编号:9668972 阅读:226 留言:0更新日期:2014-02-14 08:14
本发明专利技术公开了一种跨语言的语音情感识别方法,属于语音信号处理领域。本方法首先建立了一个汉语语音库和德语语音库,然后对其中的语音进行特征提取,计算每个特征分别关于两个语音库的Fisher判别系数,并采用加权融合技术来获得每个特征的跨语言Fisher判别系数,并排序选出情感区分度最好的一些特征。在训练和识别中采用高斯混合模型来分别进行参数估计和似然值的计算。本发明专利技术可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,所提出的基于加权融合的Fisher判别系数对于跨语言情感识别中的特征选择也具有很好的效果。

【技术实现步骤摘要】

本专利技术涉及,属于语音信号处理领域。
技术介绍
语音作为最自然的交流手段之一,在人机交互应用中得到了越来越广泛的应用。语音中的情感信息,与语义信息不同,通常是在说话人无意识的控制下表达的。语音情感的表达不容易伪装和控制,因而为计算机理解用户的意图提供了一个有效的新途径。情感的表达方式与很多因素有关,如年龄、性别、语境和文化背景等。因此语音情感识别与其它的模式识别问题相比有特殊的困难。对语音中的情感进行建模是语音情感识别中的最基本也是最重要的问题。随着语音情感识别研究的深入,人们提出了很多颇具前景的实际应用。如,在车载电子中,通过对驾驶员的情感状态(如愉快、惊讶、愤怒和悲伤等)进行跟踪,监测与识另O,从而做出相应的响应以保证驾驶的安全。又例如,通过对恐惧类别的极端情感的识别,在一个基于音频的监控系统中,可以对可能发生的危险情感进行探测。在现有的语音情感识别的研究和应用中,主要针对的还是单一的语言,如汉语语音情感识别系统,英语语音情感识别系统,德语语音情感识别系统等。虽然来自不同语系的人群在文化上有所差异,但是其情感的表达,特别是语音情感的表达上具有一定的普遍性。而目前,还未出现可以跨越两种不同语言的语音情感识别系统和方法。
技术实现思路
本专利技术提出了,可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性,在汉语和德语这两种语言上都获得了较高的识别率。本专利技术为解决其技术问题采用如下技术方案: ,包括以下步骤: (O建立汉语和德语情感语音库;汉语情感语音库包含六名男性和六名女性的表演语音,包括了愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感;德语语音库中包含了五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感;选择出两个情感语音库中的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤; (2)对汉语语音库和德语语音库中的每一条语音,进行特征提取和特征选择; (2-1)对于情感语音库中的每一条语音样本,提取基本的声学特征,共375个特征,即,特征向量的维素为375 ; (2-2)对各个维度上的特征进行归一化处理本文档来自技高网...

【技术保护点】
一种跨语言的语音情感识别方法,其特征在于包括以下步骤:(1)建立汉语和德语情感语音库;汉语情感语音库包含六名男性和六名女性的表演语音,包括愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感;德语语音库中包含五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感;选择出两个情感语音库中的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤;(2)对汉语语音库和德语语音库中的每一条语音,进行特征提取和特征选择;(2?1)对于情感语音库中的每一条语音样本,提取基本的声学特征,共?375个特征,即特征向量的维素为375;(2?2)对各个维度上的特征进行归一化处理,设????????????????????????????????????????????????和分别为归一化前和归一化后第p维的特征的数值,则其归一化公式为:????????????????????(1)其中和分别为两个语音库中的所有数据的第p维特征的最小值和最大值,即;(2?3)对德语语音库中的第p维特征,,基于所有用于训练并且已经分好情感类别的样本,计算其Fisher判别系数FDR,的计算公式如下:??????????????(2)其中,为情感的类别数,此处为5,i、j为类别编号,为类别中心,即为该类别对应的所有训练数据的特征向量的均值,为该类别对应的所有训练数据的特征向量的样本方差;那么,对应于德语语音库的所有特征,其FDR集合为?;(2?4)对于汉语语音库,采用与步骤(2?3)相同的计算方法求得所有特征的FDR集合;(2?5)采用简单的加权融合的方法获得最终的跨语言的特征评价分数,对于特征p,有?????????(3)????????上式中,是融合权重,取值范围为[0,1];最终所有特征的FDR集合为;(2?6)根据进行从大到小排序,选出前10个最大的值所对应的特征作为最能区分不同情感类别的特征矢量;(3)训练:提取并选择出10维特征矢量以后,对于每一类情感所对应的所有训练数据,采用一个高斯混合模型来建模该类数据集中的数据分布,通过期望最大算法,训练出对于每一类情感所对应的高斯混合模型,即,?……?,?,其中为情感类别数,这里为5;(4)识别:在识别过程中,将汉语语音库和德语语音库中待识别一段语音,直接计算先前选出的10个区分度最好的特征,得到相应的10维特征矢量;对于该特征矢量,计算其关于每一类训练好的情感模型,?……?,的似然值;最终的识别结果为最大的所对应的情感,即:。2012102563810100001dest_path_image001.jpg,2012102563810100001dest_path_image002.jpg,2012102563810100001dest_path_image003.jpg,2012102563810100001dest_path_image004.jpg,2012102563810100001dest_path_image005.jpg,2012102563810100001dest_path_image006.jpg,dest_path_image007.jpg,2012102563810100001dest_path_image008.jpg,dest_path_image009.jpg,2012102563810100001dest_path_image010.jpg,dest_path_image011.jpg,2012102563810100001dest_path_image012.jpg,dest_path_image013.jpg,2012102563810100001dest_path_image014.jpg,dest_path_image015.jpg,2012102563810100001dest_path_image016.jpg,dest_path_image017.jpg,2012102563810100001dest_path_image018.jpg,dest_path_image019.jpg,2012102563810100001dest_path_image020.jpg,dest_path_image021.jpg,965115dest_path_image011.jpg,819938dest_path_image020.jpg,599675dest_path_image021.jpg,2012102563810100001dest_path_image022.jpg,680371dest_path_image022.jpg,dest_path_image023.jpg...

【技术特征摘要】
1.一种跨语言的语音情感识别方法,其特征在于包括以下步骤: (1)建立汉语和德语情感语音库;汉语情感语音库包含六名男性和六名女性的表演语音,包括愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感;德语语音库中包含五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感;选择出两个情感语音库中的五种共同的情感:愤怒、恐惧、喜悦、中性和悲伤; (2)对汉语语音库和德语语音库中的每一条语音,进行特征提取和特征选择; (2-1)对于情感语音库中的每一条语音样本,提取基本的声学特征,共375个特征,即特征向...

【专利技术属性】
技术研发人员:赵力刘汝杰黄程韦魏昕包永强余华阴法明
申请(专利权)人:东南大学富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1