当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于数据选择性和高斯混合模型的语音活动检测方法技术

技术编号:25839850 阅读:47 留言:0更新日期:2020-10-02 14:19
本发明专利技术提出了一种基于数据选择性和高斯混合模型的语音活动检测方法,步骤如下:对输入的含噪语音信号进行分帧、加窗处理后,通过FFT将信号转换到频域上;根据频域上的信号计算平滑信号功率谱,进而通过平滑信号功率谱计算平滑子带对数能量,平滑子带对数能量作为语音特征用于GMM建模;选取前M帧信号进行GMM参数集初始化;对每帧信号进行GMM参数集数据选择性更新;根据参数集计算子带语音存在概率;将一帧信号中所有子带的语音存在概率相加与判决阈值进行比较,若大于判决阈值,则判定当前帧为语音帧,否则为噪声帧,输出每一帧的VAD结果。本发明专利技术方法在基于GMM的VAD算法中引入了数据选择性,在保证正确率基本不变情况下,能够大幅降低计算复杂度。

【技术实现步骤摘要】
一种基于数据选择性和高斯混合模型的语音活动检测方法
本专利技术涉及语音信号处理
,特别涉及一种基于数据选择性和GMM(GaussianMixtureModel:高斯混合模型)的VAD(VoiceActivityDetection:语音活动检测)方法。
技术介绍
语音信号处理是目前一个非常热门的领域。VAD作为语音信号处理中的一个方向,其目的是从含噪语音信号中区分出语音段和非语音段。VAD在许多领域都发挥着重要的作用:在存储或传输语音的场景下,其可以从连续的语音流中分离出有效语音,能够有效降低存储或传输的数据量;在语音增强领域,其可以在非语音段估计噪声信息,从而进行噪声抑制。早期的VAD算法大多基于如能量,短时过零率,倒谱距离,谱熵等语音特征直接对声音信号作出语音/非语音判决。这些算法的原理比较简单,计算复杂度低,在无噪声或者高信噪比情况下具有较高的正确率。但是一旦信噪比下降,其正确率就会急剧降低。进入21世纪以来,基于统计学模型的VAD算法因为更好的性能获得了快速的发展。其中有研究人员使用GMM对含噪语音进行建模,并设计了VAD算法。在GMM建模过程中,关键步骤是计算其参数集(均值,方差,权重)。首先需要选取一定的样本数据初始化参数集。之后对新的数据,需要持续地进行参数集的更新。基于GMM的VAD算法虽然在低信噪比环境下具有更好的鲁棒性,但是计算复杂度也大大增加。
技术实现思路
本专利技术要解决的技术问题是在保证正确率基本不变的情况下,如何降低基于GMM的VAD方法的计算复杂度。本专利技术提供一种基于数据选择性和高斯混合模型的语音活动检测方法,能保证正确率基本不变情况下,大幅降低计算复杂性。为了上述专利技术目的,本专利技术创造采用如下专利技术构思:为解决上述问题,本专利技术提供的技术方案是对基于GMM的VAD方法中GMM参数集更新过程做出改进。该技术方案的设计构思是在参数集更新过程中引入数据选择性思想,当数据对方法的正确率提升有限甚至有损的情况下,保持参数不变,从而在保持正确率大体不变的同时,大幅降低计算复杂度。根据上述专利技术构思,本专利技术采用如下技术方案:一种基于数据选择性和高斯混合模型GMM的语音活动检测VAD方法,操作步骤如下:步骤一:对输入的含噪语音信号进行采样、分帧、加窗处理后,通过FFT(FastFourierTransformation,快速傅里叶变换)将信号转换到频域上;步骤二:计算平滑子带对数能量;步骤三:选取前M帧信号进行GMM参数集初始化;步骤四:进行GMM参数集数据选择性更新;步骤五:根据参数集计算子带语音存在概率,子带语音存在概率通过一个数值反映了当前子带的属性;步骤六:给出帧单位上VAD结果。优选地,所述步骤二中平滑子带对数能量的计算方法为:通过频域上信号的幅度谱计算功率谱,并在帧间进行平滑,从而得到平滑信号功率谱。进而将一帧信号分为多个子带计算平滑子带对数能量,作为语音特征用于GMM建模。优选地,所述步骤三中GMM参数集初始化的方法为:GMM参数集初始化通过迭代算法实现:首先设置参数集迭代计算开始前的起始值,然后根据公式进行迭代计算,直至参数集收敛完成初始化。优选地,所述步骤四中GMM参数集数据选择性更新的方法为:首先根据更新比例Pup计算更新阈值,接着根据更新阈值设置不更新条件,然后将当前平滑子带对数能量分别相对于噪声模型和语音模型进行归一化得到位置信息,最后根据位置信息判断是否满足不更新条件,若满足则保持参数集不变,否则更新参数。优选地,所述步骤六中给出帧单位上VAD结果的方法为:融合一帧中所有子带的语音存在概率,即将一帧信号中的所以子带语音存在概率相加,与判决阈值进行比较,若大于判决阈值,则判定当前帧为语音帧,否则为噪声帧。并且对于后续每一帧,重复步骤四、步骤五和步骤六,从而得到整段音频信号的VAD判决结果。与现有技术相比,本专利技术具有如下显而易见的突出实质性特点和显著的技术进步:1.本专利技术在计算量最大的参数集更新过程中引入了数据选择性思想,不同于以往的参数集更新方式,在数据对算法的正确率提升有限甚至有损的情况下,保持参数不变,以此来降低计算复杂度,同时保证了正确率基本不变;2.本专利技术整个方法的实施过程较为清晰简单,在正确率基本不变的同时能够大幅降低计算复杂度;在实际应用过程中,尤其是对实时性要求较高的场景中,具有较好的应用前景。本领域的技术人员阅读了下面的附图以及具体实施方式后,将能更进一步理解本专利技术的实施方法、优越的特征和其它重要方面。附图说明图1是本专利技术方法的总体流程图。图2是本专利技术方法的信号分帧示意图。图3是本专利技术方法的GMM参数初始化流程图。图4是本专利技术方法的GMM参数集数据选择性更新流程图。图5是本专利技术方法在不同噪声环境中与现有技术方法在正确率和计算时间的对比图。图6是本专利技术方法与现有技术在低信噪比下VAD结果对比图。具体实施方式下面将对本专利技术的优选实施例结合附图进行详细地说明,其中表示了本专利技术的优选实施例,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。实施例一:参见图1~图6,一种基于数据选择性和高斯混合模型的语音活动检测方法,包括以下操作步骤:步骤一:对输入的含噪语音信号进行分帧、加窗处理后,通过快速傅里叶变换FFT将信号转换到频域上;步骤二:计算平滑子带对数能量;步骤三:选取前M帧信号进行高斯混合模型GMM参数集初始化;步骤四:进行GMM参数集数据选择性更新;步骤五:根据参数集计算子带语音存在概率,子带语音存在概率通过一个数值反映了当前子带的属性;步骤六:给出帧单位上语音活动检测VAD结果。本实施例方法是基于GMM的VAD方法中GMM参数集更新过程做出改进,在参数集更新过程中引入数据选择性思想,当数据对方法的正确率提升有限甚至有损的情况下,保持参数不变,从而在保持正确率大体不变的同时,大幅降低计算复杂度。实施例二:本实施例与实施例一基本相同,特别之处如下:一种基于数据选择性和高斯混合模型的语音活动检测方法,包括以下操作步骤:步骤一:对输入的含噪语音信号进行分帧、加窗处理后,通过快速傅里叶变换FFT将信号转换到频域上;步骤二:计算平滑子带对数能量,平滑子带对数能量计算方法为:通过频域上信号的幅度谱计算功率谱,并在帧间进行平滑,从而得到平滑信号功率谱;进而将一帧信号分为多个子带计算平滑子带对数能量,作为语音特征用于GMM建模;步骤三:选取前M帧信号进行高斯混合模型GMM参数集初始化,GMM参数集初始化方法为:GMM参数集初始化通过迭代算法实现:首先设置参数集迭代计算开始前的起始值,然后根据公式进行迭代计算,直至参数集收敛完成初始化;本文档来自技高网...

【技术保护点】
1.一种基于数据选择性和高斯混合模型的语音活动检测方法,其特征在于,包括以下操作步骤:/n步骤一:对输入的含噪语音信号进行分帧、加窗处理后,通过快速傅里叶变换FFT将信号转换到频域上;/n步骤二:计算平滑子带对数能量;/n步骤三:选取前M帧信号进行高斯混合模型GMM参数集初始化;/n步骤四:进行GMM参数集数据选择性更新;/n步骤五:根据参数集计算子带语音存在概率,子带语音存在概率通过一个数值反映了当前子带的属性;/n步骤六:给出帧单位上语音活动检测VAD结果。/n

【技术特征摘要】
1.一种基于数据选择性和高斯混合模型的语音活动检测方法,其特征在于,包括以下操作步骤:
步骤一:对输入的含噪语音信号进行分帧、加窗处理后,通过快速傅里叶变换FFT将信号转换到频域上;
步骤二:计算平滑子带对数能量;
步骤三:选取前M帧信号进行高斯混合模型GMM参数集初始化;
步骤四:进行GMM参数集数据选择性更新;
步骤五:根据参数集计算子带语音存在概率,子带语音存在概率通过一个数值反映了当前子带的属性;
步骤六:给出帧单位上语音活动检测VAD结果。


2.根据权利要求1所述基于数据选择性和高斯混合模型的语音活动检测方法,其特征在于:所述步骤二中的平滑子带对数能量计算方法为:通过频域上信号的幅度谱计算功率谱,并在帧间进行平滑,从而得到平滑信号功率谱;进而将一帧信号分为多个子带计算平滑子带对数能量,作为语音特征用于GMM建模。


3.根据权利要求1所述基于数据选择性和高斯混合模型的语音活动检测方法,其特征在于:所述步骤三中的G...

【专利技术属性】
技术研发人员:王涛阮振裔李平
申请(专利权)人:上海大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1