当前位置: 首页 > 专利查询>浙江大学专利>正文

基于频谱平移的情感说话人识别方法技术

技术编号:3048273 阅读:283 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于频谱平移的情感说话人识别方法,包括如下步骤:(1)采集待测音频信号后,对音频信号依次进行采样量化、去零漂、预加重和加窗,得到加窗后的语音帧;(2)加窗后的语音帧经过快速傅立叶变换得到频谱信号,采用频谱平移方法得到多组分别拥有不同共振峰分布的频谱信号;(3)采用美尔滤波器对上述频谱进行滤波,再采用离散余弦压缩得到语音特征;(4)按步骤(1)~步骤(3)的流程提取的待测音频信号的语音特征,采用最大得分方法计算气氛得分,并给出识别结果。本发明专利技术方法改变中性情感语音的共振峰分布情况,合成具有不同共振峰分布的语音频谱,增强系统对各种情感语音的熟悉程度,提高系统识别率。

【技术实现步骤摘要】

本专利技术涉及信号处理和模式识别,主要是一种基于频谱平移的情感说 话人识别方法。
技术介绍
说话人识别技术是指利用信号处理和模式识别方法,根据说话人的语 音识别其身份的技术。情感说话人识别是训练语音和测试语音中包含情感 语音的说话人识别。在情感说话人识别中,由于受到测试语音和训练语音 情感不一致的影响,系统的识别率将降大幅降低。本专利提出的方法就是 为了减弱训练和测试语音情感不 一致引起的系统性能的下降。目前说话人识别方法主要分成两个步骤,第一个步骤为特征提取,主要的特征提取方法有梅尔倒谱系数(MFCC),线形预测编码倒谱系数 (LPCC),感觉加权的线性预测系数(PLP)。第二个步骤为说话人识别过 程,包括说话人建模和训练。主要的建模方法有高斯混合模型法(GMM), 通用背景模型法(GMM-UBM),支持向量机(SVM)。在情感说话人识别中,训练语音通常为中性情感语音,而测试语音包 括各种情感的语音,比如高兴情感语音,悲伤情感语音。所以,解决情感 问题的关键是在训练时也能得到除中性情感语音之外的情感语音。如果只 是让用户提供各种各样的情感语音,显然是不符合应用要求的。 一般情况 下,用户只能提供中性语音,因此提出了采用中性情感语音得到与各种情 感语音等效的语音频谱。
技术实现思路
本专利技术提供了 一种。该方法通过平移语音信号的短时频谱,将中性语音频谱转换成情感语音等效的语音频 谱,降低情感变化因素对说话人识别性能的影响。共振峰位置的不同是各类情感语音的一个主要差别,通过改变中性语 音的共振峰位置,可以得到与情感语音等效的语音频谱,让系统在训练的 时候熟悉各种情感语音,从而提高情感说话人识别的性能。本专利提出了 一种。通过平移中性语音的频谱来改 变共振峰分布,从而得到与情感语音等效的语音频谱。本专利技术首先采用平移中性语音频谱的方法,得到和中性语音有不同共 振峰分布的频谱,再从这些频镨中提取情感语音特征,然后采用高斯混合 模型对各类情感特征建立模型,最后采用最大得分方法求出测试语音得 分,并进行识别。一种,包括如下步骤(1)音频预处理采集待测音频信号后,对音频信号依次进行采样量化、去零漂、预加重和加窗,得到加窗后的语音帧; (2 )频谱平移加窗后的语音帧经过快速傅立叶变换得到频谱信号,采用频谱平移方 法得到多组分别拥有不同共振峰分布的频谱信号;由于说话人处于不同情感状态下的语音频谱的共振峰分布情况不同, 通过改变中性语音频谱的共振峰分布就等效于得到该说话人不同情感状 态下的语音的特征; (3 )特征提取采用美尔滤波器对频谱信号进行滤波,再采用离散余弦压缩得到语音 特征;(4)说话人识别训练采用频谱平移方法对每个说话人的语音4是^^多种情感语音,并对 每种情感的语音建立一个高斯混合模型;测试将按步骤(1) ~步骤(3 )的流程提取的待测音频信号的语音特征,计算待测音频信号在各种情感语音高斯混合模型下的得分,采用最 大得分方法计算其得分,得到识别结果。步骤(1)的音频预处理包括1) 采样量化A)用对采集得到的音频信号^W进行滤波,滤波时奈奎斯特频率& 为4KHZ,音频采样率尸=2^ ,滤波后得到数字音频信号(即数字化的音频信号)的振幅序列s/^力尸B)用脉沖编码调制对数字音频信号的振幅序列^W进行量化编码, 得到振幅序列的量化表示s 丫^;其中/表示该信号是时间连续信号,身表示离散/,f序列,取值 时一般可取为连续的自然数。2) 去零漂A) 计算振幅序列的量化表示s丫j的平均值B) 将振幅序列中的每个振幅值分别减去平均值卩,得到去零漂后平均 值为0的振幅序歹'J s'丫」;3 )预力口重将去零漂后的振幅序列,f^通过数字滤波器进行预加重,预加重时 数字滤波器的传递函数为H(zhl-az-1,得到预加重的振幅序列s,(h」。对语音信号进行预加重,使信号频谱变得平坦,压缩信号器的动态范 围,提高信噪比。这样处理可以使低频到高频的整个频带内能用相同的信 噪比来求频谱。预加重部分可采用6dB/倍频程来增强语音信号的高频部 分,经预加重的语音信号其高频部分可与中频部分(1 2kHz)的能量大致相等。;4)加哈明窗A)把预加重后的振幅序列s,^)划分成若干音频帧每一音频帧 尸M的帧长为W、帧移量为r,且满足二 = 0.032 二 = 0.010其中,F是音频采样率,单位为Hz; —般每一音频帧尸w的帧长为iV、帧移量为r在划分振幅序列前预先计算出来。B) 计算哈明窗函数0.54 - 0.46 cos(^~) 0 S iV — 1 w=L i 其他 ;式中7V为每一音频帧/^的帧长;C) 利用公式《()《()- (n)xFj)对每一音频帧Fw加哈明窗,得 到加哈明窗后的音频帧。步骤(2)的频谦平移包括1) 音频信号转换成频谱信号对加哈明窗后的音频帧Fm W进行快速傅立叶变换,得到频谱信号厶,频谱信号厶的能量谱为&;2) 平移频语信号对频谱信号厶进行平移,得到平移后频谱信号y;,;,其能量谱《;平移公式为<formula>formula see original document page 8</formula>其中ft表示频谱信号人平移的距离,单位为他。平移后的能量谱《在频率为/Hz处的能量和原能量谱五 在频率/ + /z Hz处相等。其目的是得到和中性语音的频谱信号人具有不同共振峰分布的语音 信号,具有不同共振峰分布的语音帧包含该i兌话人的情感语音信息。 步骤(3)的音频特征提取包括 美尔滤波器的实施步骤分为三步 1)计算梅尔域刻度<formula>formula see original document page 9</formula>^表示需计算的美尔刻度的个数;2) 计算梅尔域刻度M,处对应的频谱刻度且固<formula>formula see original document page 9</formula>3) 计算每个梅尔域通道A上的对数能量谱五/.f一其中A(表示梅尔域通道^的权重,^>,( = 1。其中k为滤波器的个数。上述三步完成了对美尔滤波器的构建。上述频谱信号经过美尔滤波器后,再采用离散余弦变换压缩对对数能 量谱^进行压缩,得到语音特征。步骤(4)的所述说话人识别中,训练时采集说话人的中性语音作为 测试语音,采用频谱平移的方法得到各种情感的语音特征,然后为每个说 话人的每种情感语音建立一个高斯混合模型。训练高斯混合模型的方法采 用期望最大化方法。测试时测试语音在提取特征之后,对应每种情感的高斯混合模型计算 后验概率,作为其得分。并根据设定的阀值接收或拒绝该测试语音。本专利技术方法中提及的梅尔域刻度可参见JOSEPHP. CAMPBELL, JR., Speaker Recognition: A Tutorial, PROCEEDINGS OF THE IEEE, VOL. 85, NO. 9, pp.1437-1462, SEPTEMBER 1997.本专利技术方法中提及的期望最大化方法Douglas A.Reynolds, Richard C. Rose, Robust Text-Independen本文档来自技高网...

【技术保护点】
一种基于频谱平移的情感说话人识别方法,其特征在于,包括如下步骤: (1)音频预处理 采集待测音频信号后,对音频信号依次进行采样量化、去零漂、预加重和加窗,得到加窗后的语音帧; (2)频谱平移 加窗后的语音帧经过快速傅 立叶变换得到频谱信号,采用频谱平移方法对频谱信号进行平移得到多组分别拥有不同共振峰分布的频谱信号,不同的共振峰分布表示信号不同的情感类型; (3)特征提取 采用美尔滤波器对频谱信号进行滤波,再采用离散余弦压缩得到语音特征;   (4)说话人识别 采用频谱平移方法将每个说话人的中性语音频谱转换成各种情感语音频谱,并利用每种情感语音频谱建立说话人的相应情感下的模型; 将按步骤(1)~步骤(3)的流程提取的待测音频信号的语音特征,计算待测音频信号在各种情感 语音的说话人模型下的得分,采用最大得分方法计算其得分,得到识别结果。

【技术特征摘要】
1、一种基于频谱平移的情感说话人识别方法,其特征在于,包括如下步骤(1)音频预处理采集待测音频信号后,对音频信号依次进行采样量化、去零漂、预加重和加窗,得到加窗后的语音帧;(2)频谱平移加窗后的语音帧经过快速傅立叶变换得到频谱信号,采用频谱平移方法对频谱信号进行平移得到多组分别拥有不同共振峰分布的频谱信号,不同的共振峰分布表示信号不同的情感类型;(3)特征提取采用美尔滤波器对频谱信号进行滤波,再采用离散余弦压缩得到语音特征;(4)说话人识别采用频谱平移方法将每个说话人的中性语音频谱转换成各种情感语音频谱,并利用每种情感语音频谱建立说话人的相应情感下的模型;将按步骤(1)~步骤(3)的流程提取的待测音频信号的语音特征,计算待测音频信号在各种情感语音的说话人模型下的得分,采用最大得分方法计算其得分,得到识别结果。2、 根据权利要求1所述的基于频语平移的情感说话人识别方法,其 特征在于,步骤(1)中所述的采样量化的步骤为A) 用对采集得到的音频信号s。^进行滤波,滤波时奈奎斯特频率Fw 为4KHZ,音频采样率F=2FW ,滤波后得到数字音频信号的振幅序列B) 用脉沖编码调制对数字音频信号的振幅序列sf^进行量化编码, 得到振幅序列的量化表示s 丫w」。3、 根据权利要求1所述的基于频谱平移的情感说话人识别方法,其特征在于,所述的去零漂的步骤为A) 计算振幅序列的量化表示s 丫J的平均值S;B) 将振幅序列中的每个振幅值分别减去平均值S ,得到去零漂后平均 值为0的振幅序列s'丫w」。4、 根据权利要求1所述的基于频谱平移的情感说话人识别方法,其 特征在于,所述预加重的步骤为将去零漂后的振幅序列s'Y^通过数字滤波器来增强信号的高频部分, 经预加重的信号其高频部分可与中频部分的能量相当,得到预加重后的振幅序列, 。5、 根据权利要求1所述的基于频谱平移的情感说话人识别方法,其 特征在于,所述加哈明窗的步骤...

【专利技术属性】
技术研发人员:杨莹春吴朝晖单振宇
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1