当前位置: 首页 > 专利查询>黄伟专利>正文

去除声纹识别情感语音干扰的方法及系统技术方案

技术编号:9935988 阅读:191 留言:1更新日期:2014-04-18 14:45
一种去除声纹识别情感语音干扰的方法,其特征在于,其包括如下步骤:1)建立情感去除模型;2)在进行声纹识别时,首先提取语音数据的原始特征参数,然后计算其相应的特征向量参数;3)将计算得到的特征向量参数中所含有的情感因素信息通过情感去除模型进行消除;4)将去除情感因素信息的语音数据进行声纹识别。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种去除声纹识别情感语音干扰的方法,其包括如下步骤:建立情感去除模型;在进行声纹识别时,首先提取语音数据的原始特征参数,然后计算其相应的特征向量参数;将计算得到的特征向量参数中所含有的情感因素信息通过情感去除模型进行消除;将去除情感因素信息的语音数据进行声纹识别。该方法无需标注各种具体情感类型数据,无需对某种情感类型单独建模,可以使得模型建立过程的复杂度大大降低;可以使情感去除模型具备更良好的推广和泛化能力;该方法可以直接加在现有任何主流声纹识别系统上,实现简单、方便;该方法可以充分学习情感语音所含有的情感信息,进而进行去除,大幅提高声纹识别系统对情感因素的鲁棒性。【专利说明】去除声纹识别情感语音干扰的方法及系统
本专利技术涉及声纹识别领域,特别涉及一种在进行声纹识别时能去除情感语音干扰的方法,以及实现这种方法的系统。
技术介绍
声纹识别是一种通过人的语音信号中所蕴含的生理与行为特征,自动辨别身份的生物特征识别技术。经过数十年的技术探索与积累,声纹识别系统的性能已经取得了巨大进展,但在实际应用中还面临着一些挑战,其中,人自身状态的变化会对声纹识别系统造成相当程度的不利影响。如今智能交互技术愈发普遍,而语音交互无疑是智能交互的主要交互方式之一,如何提高语音交互过程中用户使用的流畅性尤为重要,即在用户带有情感发出声纹验证指令时,声纹认证系统依然能够对其进行准确识别,会给交互带来更加自然、友好的感受。现有的声纹识别技术在解决情感差异的问题上还不是很理想,现有的方法包括在特征上或模型上,大多先进行情感辨别技术,把语音划分给某一类情感属性,再通过情感属性间的映射关系将特征或模型映射到中性或与其匹配的声音情感类别,然后再进行匹配。这种方法存在着诸多问题,首先,人的情感是非常丰富的,有限的情感类别标签无法覆盖人的情感空间,其次,就情感识别技术本身来说,其识别精度还未能达到一个很高的水平,所以这种技术虽然能在某些特定情感数据集上获得一些性能提升,但究其本质是无法解决情感语音差异性问题的。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的一个目的在于提供一种识别精度高,可有效去除声纹识别中情感因素干扰的方法,本专利技术的另一个目的是提供一种识别精度高,可有效去除声纹识别中情感因素干扰的系统。为实现上述目的及其他相关目的,本专利技术提供一种去除声纹识别情感语音干扰的方法,其包括如下步骤:I)建立情感去除模型;2)在进行声纹识别时,首先提取语音数据的原始特征参数,然后计算其相应的特征向量参数;3)将计算得到的特征向量参数中所含有的情感因素信息通过情感去除模型进行消除;4)将去除情感因素信息的语音数据进行声纹识别。优选地,建立情感去除模型包括如下步骤:首先建立一情感语音数据库,用于收集各种情感的语音,将情感语音数据库中的语音按发音者的身份及情感类型进行标注;提取每条语音的特征参数,计算出每条语音的特征向量参数;将标注的身份信息与计算出每条语音的特征向量参数通过统计学习的方法即可计算出情感去除模型。优选地,所述统计学习的方法可以采用主元分析技术方法或因子分析技术方法。优选地,计算每条语音的特征向量参数可利用事先训练生成的通用背景模型将语音特征映射到高维超向量空间的方法来计算特征向量参数。 优选地,计算每条语音的特征向量参数可将语音特征直接映射到其它维度变换空间的方法来计算特征向量参数。优选地,语音进行特征向量提取时应事先进行降噪、滤波处理。本专利技术还公开了一种采用上述方法去除声纹识别情感语音干扰系统,其包括:特征向量提取单元,所述特征向量提取单元用于计算情感语音数据库中每条语音的特征向量参数;情感去除模型单元,所述情感去除模型单元用于将语音数据中情感因素信息进行去除;声纹识别单元,所述声纹识别单元用于将去除情感因素信息干扰的语音进行声纹识别。优选地,该系统还包括一降噪、滤波处理单元,所述降噪、滤波单元用于对进入特征向量提取单元内的语音数据进行降噪、滤波处理。如上所述,本专利技术的去除声纹识别情感语音干扰的方法及系统具有以下有益效果:该方法通过建模方式建立统一的情感去除模型,无需标注各种具体情感类型数据,无需对某种情感类型单独建模,可以使得模型建立过程的复杂度大大降低;该方法并不将某一语音硬性分配给某一离散的、具体的情感类别,而是统一计算其情感分量,可以使情感去除模型具备更良好的推广和泛化能力;该方法可以直接加在现有任何主流声纹识别系统上,实现简单、方便;本专利技术提出的情感模型的建模和匹配方法,可以充分学习情感语音所含有的情感?目息,进而进行去除,大幅提闻声纹识别系统对情感因素的鲁棒性。【专利附图】【附图说明】图1为本专利技术实施例情感去除模型建立示意图。图2为本专利技术实施例语音特征向量参数提取的流程图。图3为多个原始特征映射为单个特征向量的示意图。图4为本专利技术实施例抗情感干扰的声纹识别系统框图。图5为为本专利技术实施例情感信息去除的流程图。图6为本专利技术实施例的系统框图。【具体实施方式】以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效。本专利技术的第一个实施例公开了一种去除声纹识别情感语音干扰的方法,其包括如下步骤:如图1所示,首先建立情感去除模型,在建立感去除模型时,首先建立一情感语音数据库,该情感语音数据库用于收集各种情感的语音,并将将情感语音数据库中的语音按发音者的身份及情感类型进行标注,标注每条语音归属于哪一个人,归属于哪一类情感类型,然后对数据进行删减,目的是使得每个人所对应的语音数据各种情感类型的语音数量保持均衡,同时去除过短语音、剪切过长语音,使得语音长度保持均衡,至此情感语音数据库建立完成。如图2所示,接着提取每条语音的特征参数,计算出每条语音的特征向量参数。语音在进行特征向量提取时应事先进行降噪、滤波处理。计算每条语音的特征向量可利用事先训练生成的通用背景模型(或映射函数)将原始语音按帧生成的多个特征映射到高维超向量空间的方法来计算特征向量;也可将语音特征直接映射到其它维度变换空间的方法来计算特征向量,总之每条语音均需要计算其相应的特征向量参数,其计算方法可依据不同声纹识别系统做相应调整,基本过程如图3所示。最后再将标注的语音信息与计算出每条语音的特征向量参数通过统计学习的方法即可计算出情感去除模型。该统计学习的方法可以采用主元分析技术方法、因子分析技术方法及本领域公知的其他方法来实现。以主元分析技术为例:将所有人所有语音的特征向量组合成矩阵【权利要求】1.一种去除声纹识别情感语音干扰的方法,其特征在于,其包括如下步骤: 1)建立情感去除模型; 2)在进行声纹识别时,首先提取语音数据的原始特征参数,然后计算其相应的特征向量参数; 3)将计算得到的特征向量参数中所含有的情感因素信息通过情感去除模型进行消除; 4)将去除情感因素信息的语音数据进行声纹识别。2.根据权利要求1所述的去除声纹识别情感语音干扰的方法,其特征在于:建立情感去除模型包括如下步骤:首先建立一情感语音数据库,用于收集各种情感的语音,将情感语音数据库中的语音按发音者的身份及情感类型进行标注;提取每条语音的特征参数,计算出每条语音的特征向量参数;将标注的身份信息与本文档来自技高网
...

【技术保护点】
一种去除声纹识别情感语音干扰的方法,其特征在于,其包括如下步骤:1)建立情感去除模型;2)在进行声纹识别时,首先提取语音数据的原始特征参数,然后计算其相应的特征向量参数;3)将计算得到的特征向量参数中所含有的情感因素信息通过情感去除模型进行消除;4)将去除情感因素信息的语音数据进行声纹识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄伟
申请(专利权)人:黄伟
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[内蒙古包头市联通] 2015年03月11日 11:32
    《别情》是元代词人王实甫的作品,内容是描写一个将军思国思民的情感。
    0
1