【技术实现步骤摘要】
本专利技术涉及信号处理和模式识别,主要是一种基于频谱平移的情感说 话人识别方法。
技术介绍
说话人识别技术是指利用信号处理和模式识别方法,根据说话人的语 音识别其身份的技术。情感说话人识别是训练语音和测试语音中包含情感 语音的说话人识别。在情感说话人识别中,由于受到测试语音和训练语音 情感不一致的影响,系统的识别率将降大幅降低。本专利提出的方法就是 为了减弱训练和测试语音情感不 一致引起的系统性能的下降。目前说话人识别方法主要分成两个步骤,第一个步骤为特征提取,主要的特征提取方法有梅尔倒谱系数(MFCC),线形预测编码倒谱系数 (LPCC),感觉加权的线性预测系数(PLP)。第二个步骤为说话人识别过 程,包括说话人建模和训练。主要的建模方法有高斯混合模型法(GMM), 通用背景模型法(GMM-UBM),支持向量机(SVM)。在情感说话人识别中,训练语音通常为中性情感语音,而测试语音包 括各种情感的语音,比如高兴情感语音,悲伤情感语音。所以,解决情感 问题的关键是在训练时也能得到除中性情感语音之外的情感语音。如果只 是让用户提供各种各样的情感语音,显然是不符合应用要求的。 一般情况 下,用户只能提供中性语音,因此提出了采用中性情感语音得到与各种情 感语音等效的语音频谱。
技术实现思路
本专利技术提供了 一种。该方法通过平移语音信号的短时频谱,将中性语音频谱转换成情感语音等效的语音频 谱,降低情感变化因素对说话人识别性能的影响。共振峰位置的不同是各类情感语音的一个主要差别,通过改变中性语 音的共振峰位置,可以得到与情感语音等效的语音频谱,让系统在训练的 时候熟悉 ...
【技术保护点】
一种基于频谱平移的情感说话人识别方法,其特征在于,包括如下步骤: (1)音频预处理 采集待测音频信号后,对音频信号依次进行采样量化、去零漂、预加重和加窗,得到加窗后的语音帧; (2)频谱平移 加窗后的语音帧经过快速傅 立叶变换得到频谱信号,采用频谱平移方法对频谱信号进行平移得到多组分别拥有不同共振峰分布的频谱信号,不同的共振峰分布表示信号不同的情感类型; (3)特征提取 采用美尔滤波器对频谱信号进行滤波,再采用离散余弦压缩得到语音特征; (4)说话人识别 采用频谱平移方法将每个说话人的中性语音频谱转换成各种情感语音频谱,并利用每种情感语音频谱建立说话人的相应情感下的模型; 将按步骤(1)~步骤(3)的流程提取的待测音频信号的语音特征,计算待测音频信号在各种情感 语音的说话人模型下的得分,采用最大得分方法计算其得分,得到识别结果。
【技术特征摘要】
1、一种基于频谱平移的情感说话人识别方法,其特征在于,包括如下步骤(1)音频预处理采集待测音频信号后,对音频信号依次进行采样量化、去零漂、预加重和加窗,得到加窗后的语音帧;(2)频谱平移加窗后的语音帧经过快速傅立叶变换得到频谱信号,采用频谱平移方法对频谱信号进行平移得到多组分别拥有不同共振峰分布的频谱信号,不同的共振峰分布表示信号不同的情感类型;(3)特征提取采用美尔滤波器对频谱信号进行滤波,再采用离散余弦压缩得到语音特征;(4)说话人识别采用频谱平移方法将每个说话人的中性语音频谱转换成各种情感语音频谱,并利用每种情感语音频谱建立说话人的相应情感下的模型;将按步骤(1)~步骤(3)的流程提取的待测音频信号的语音特征,计算待测音频信号在各种情感语音的说话人模型下的得分,采用最大得分方法计算其得分,得到识别结果。2、 根据权利要求1所述的基于频语平移的情感说话人识别方法,其 特征在于,步骤(1)中所述的采样量化的步骤为A) 用对采集得到的音频信号s。^进行滤波,滤波时奈奎斯特频率Fw 为4KHZ,音频采样率F=2FW ,滤波后得到数字音频信号的振幅序列B) 用脉沖编码调制对数字音频信号的振幅序列sf^进行量化编码, 得到振幅序列的量化表示s 丫w」。3、 根据权利要求1所述的基于频谱平移的情感说话人识别方法,其特征在于,所述的去零漂的步骤为A) 计算振幅序列的量化表示s 丫J的平均值S;B) 将振幅序列中的每个振幅值分别减去平均值S ,得到去零漂后平均 值为0的振幅序列s'丫w」。4、 根据权利要求1所述的基于频谱平移的情感说话人识别方法,其 特征在于,所述预加重的步骤为将去零漂后的振幅序列s'Y^通过数字滤波器来增强信号的高频部分, 经预加重的信号其高频部分可与中频部分的能量相当,得到预加重后的振幅序列, 。5、 根据权利要求1所述的基于频谱平移的情感说话人识别方法,其 特征在于,所述加哈明窗的步骤...
【专利技术属性】
技术研发人员:杨莹春,吴朝晖,单振宇,
申请(专利权)人:浙江大学,
类型:发明
国别省市:86[中国|杭州]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。