当前位置: 首页 > 专利查询>东南大学专利>正文

基于巴氏距离最优小波包分解的语音情感特征提取方法技术

技术编号:9008246 阅读:187 留言:0更新日期:2013-08-08 03:07
本发明专利技术涉及一种基于巴氏距离最优小波包分解的语音情感特征提取方法。所述方法包括面向情感分类问题的巴氏距离准则函数定义方法,最优小波包基构造方法,以及语音情感特征提取方法。该方法定义针对情感分类问题的巴氏距离准则函数用于最优小波包基的构造,在对语音信号进行最优小波包分解的基础上提取语音情感特征。本发明专利技术通过构建针对情感分类问题的小波包基对语音信号进行分析和特征提取,降低了说话人身份、语音内容等无关信息对情感识别准确度的影响,同时具有较低的计算复杂度。

【技术实现步骤摘要】

本专利技术专利涉及一种语音情感特征提取方法,尤其涉及一种,属于语音情感识别

技术介绍
随着信息技术的快速发展和各种智能终端的兴起,现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍,使人机交互更为方便、自然,机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介,携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题,在远程教学、辅助测谎、自动远程电话服务中心以及临床医学,智能玩具,智能手机等方面有着广阔的应用前景,吸引了越来越多研究机构与研究学者的广泛关注。为了提高语音情感识别的精度和鲁棒性,提取充分反映说话人情感状态的语音情感特征至关重要。从原始语音数据中提取有效的情感信息,剔除情感无关的说话人身份信息、说话内容信息等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。作为一种新兴的信号时频分析技术,小波包分析因其在数字信号处理中的灵活性和有效性,越来越得到研究者的广泛重视。对于分类问题,建立反映类别可分性的准则函数用于构建最优小波包基,对信号进行相应的最优小波包分解,并保留最具类别区分性的信号分量,剔除冗余信息,是提高分类准确度的重要途径。这种基于分类能力的有监督的特征提取思想和方法在语音情感识别研究中具有重要的意义。
技术实现思路
本专利技术解决的问题是:为提高语音情感识别的精度和鲁棒性,结合以上背景和需求,本专利技术提供一种基于巴氏距离最 优小波包分解的语音情感特征提取方法。这种语音情感特征提取方法能够利用小波包分解的灵活性,以反映情感类别区分能力的巴氏距离为准则构建最优小波包基,并提取具有情感区分性的特征参数,作为语音情感特征。本专利技术的技术解决方案是:—种,包括以下步骤:步骤1:接收情感语音片段输入;步骤2:将情感语音片段数字化以提供数字语音信号X ;步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;步骤4:构造巴氏距离最优小波包基;步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。本专利技术的有益效果包括:(I)本专利技术利用了小波包分解方式的多样性,采用反映情感类别区分能力的巴氏距离作为选取最优小波包基的准则函数,构建了巴氏距离准则下的最优小波包基,用于语音信号的分析;(2)本专利技术根据巴氏距离与情感类别区分能力的相关性,有选择性地保留具有较大巴氏距离的最优小波包树叶节点用于语音情感特征提取,剔除原始语音信号中与情感类别相关性较弱的冗余信息,有助于提高语音情感识别的鲁棒性;(3)本专利技术建立了一种反映类别区分能力的巴氏距离准则函数用于最优小波包基的构造,该准则函数具有可加性,从而保证了自底至顶的快速算法可以用于最优小波包基的构造,有效降低了最优小波包基构造和语音情感特征提取的计算复杂度。附图说明图1为本专利技术的语音情感特征提取流程图;图2为巴氏距离最优小波包基构造流程图。具体实施例方式一种,包括以下步骤:步骤1:接收情感语音片段输入;步骤2:将情感语音片段数字化以提供数字语音信号X ;步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;步骤4:构造巴氏距离最优小波包基; 步骤5:利用步骤4构 造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。步骤3中所述的预处理包括如下步骤:步骤3.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号JT:λ\7ι)=Χ{Τι) — 0.9375.1X77-1), 0<77< λ>-1I I ;其中3表示数字语音信号X的离散点序号,及为数字语音信号X的长度,朋和 -1)分别表示数字语音信号X在第万和I个离散点上的值,司表示预加重后的语音信号I在第万个离散点上的值,X(-1)=0 ;步骤3.2:采用交叠分段的方法对预加重后的语音信号I进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,J经过分巾贞得到语音巾贞集合:!>■(//) = X{n + 128(i'— I)) O < " < 255,1 < /■' < K' ( 2 )其中;^为语音帧集合中的第k’个语音帧,η表示语音帧离散点序号,k’为语音帧序号,K’为语音帧总帧数,且满足:权利要求1.一种,其特征在于,包括以下步骤: 步骤1:接收情感语音片段输入; 步骤2:将情感语音片段数字化以提供数字语音信号X ; 步骤3:对数字语音信号X进行预处理,得到有效语音帧集合; 步骤4:构造巴氏距离最优小波包基; 步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数; 步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。2.根据权利要求1所述的,其特征是,步骤3中所述的预处理包括如下步骤: 步骤3.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号3.根据权利要求1所述的,其特征是,步骤4中所述的巴氏距离最优小波包基的构造方法如下: 步骤4.1:采集已知情感类别的语音片段,作为小波包构造数据集; 步骤4.2:对小波包构造数据集的情感语音片段数字化以提供小波包构造数字语音信号; 步骤4.3:采用步骤3所述的预处理方法,对小波包构造数字语音信号进行预处理,得到小波包构造有效语首巾贞集合,其中I为情感类别标号,L为情感类别总数,N1为情感类别I的小波包构造有效语音帧的总帧数於丨、为情感类别I的第m个小波包构造有效语音帧; 步骤4.4:构造J层满二叉树结构Tm作为完全小波包分解树,将其表示为7\ Ii = {(O, O), (I, O), (I, I),Λ O),..., (,/, Ij - \) |=5,其树节点以二元组(j, p)表示,O彡j彡J,0彡P彡2J-l,j为树节点的深度,P为/fuu中同一深度j下位于该节点左侧的节点总数目; 步骤4.5:对各小波包构造有效语音帧4.根据权利要求1所述的,其特征是,步骤5中所述的有效语音帧小波包分解方法如下: 步骤5.1:对于各有效语音帧Sk且I≤k≤K,其在小波包树根节点(0,O)上的小波包系数为:5.根据权利要求1所述的,其特征是,步骤6中所述的各有效语音帧的情感特征计算方法如下: 步骤6.1:对最优小波包树的全体叶节点{(j” Pi)}: < i d,按步骤4.7计算巴氏距离并将全体叶节点的巴氏距离按由大到小顺序进行排序,排序后的叶节点表示为ijlAUjLAl-X/iJi).选取巴氏距离排序前I,且I,〈I的叶节点Uu AUjL PiX-l/r, Pr) 步骤6.2:对于各有效语音帧Sk且I彡k彡K,计算Sk在叶节点上的归一化能量:全文摘要本专利技术涉及一种。所述方法包括面向情感分类问题的巴氏距离准则函数定义方法,最优小波包基构造方法,以及语音情感特征提取方法。该方法定义针对情感分类问题的巴氏距离准则函数用于最优小波包基的构造,在对本文档来自技高网...

【技术保护点】
一种基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征在于,包括以下步骤:步骤1:接收情感语音片段输入;步骤2:将情感语音片段数字化以提供数字语音信号X;步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;步骤4:构造巴氏距离最优小波包基;步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。

【技术特征摘要】

【专利技术属性】
技术研发人员:李悦章国宝黄永明
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1