一种基于数据选择性和高斯混合模型的语音活动检测方法技术

技术编号：25839850 阅读：47 留言：0更新日期：2020-10-02 14:19

本发明专利技术提出了一种基于数据选择性和高斯混合模型的语音活动检测方法，步骤如下：对输入的含噪语音信号进行分帧、加窗处理后，通过FFT将信号转换到频域上；根据频域上的信号计算平滑信号功率谱，进而通过平滑信号功率谱计算平滑子带对数能量，平滑子带对数能量作为语音特征用于GMM建模；选取前M帧信号进行GMM参数集初始化；对每帧信号进行GMM参数集数据选择性更新；根据参数集计算子带语音存在概率；将一帧信号中所有子带的语音存在概率相加与判决阈值进行比较，若大于判决阈值，则判定当前帧为语音帧，否则为噪声帧，输出每一帧的VAD结果。本发明专利技术方法在基于GMM的VAD算法中引入了数据选择性，在保证正确率基本不变情况下，能够大幅降低计算复杂度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据选择性和高斯混合模型的语音活动检测方法
本专利技术涉及语音信号处理
，特别涉及一种基于数据选择性和GMM(GaussianMixtureModel：高斯混合模型)的VAD(VoiceActivityDetection：语音活动检测)方法。
技术介绍
语音信号处理是目前一个非常热门的领域。VAD作为语音信号处理中的一个方向，其目的是从含噪语音信号中区分出语音段和非语音段。VAD在许多领域都发挥着重要的作用：在存储或传输语音的场景下，其可以从连续的语音流中分离出有效语音，能够有效降低存储或传输的数据量；在语音增强领域，其可以在非语音段估计噪声信息，从而进行噪声抑制。早期的VAD算法大多基于如能量，短时过零率，倒谱距离，谱熵等语音特征直接对声音信号作出语音/非语音判决。这些算法的原理比较简单，计算复杂度低，在无噪声或者高信噪比情况下具有较高的正确率。但是一旦信噪比下降，其正确率就会急剧降低。进入21世纪以来，基于统计学模型的VAD算法因为更好的性能获得了快速的发展。其中有研究人员使用GMM对含噪语音进行建模，并设计了VAD算法。在GMM建模过程中，关键步骤是计算其参数集(均值，方差，权重)。首先需要选取一定的样本数据初始化参数集。之后对新的数据，需要持续地进行参数集的更新。基于GMM的VAD算法虽然在低信噪比环境下具有更好的鲁棒性，但是计算复杂度也大大增加。
技术实现思路
本专利技术要解决的技术问题是在保证正确率基本不变的情况下，如何降低基于GMM的VAD方法的计算复杂度。本专...

【技术保护点】
1.一种基于数据选择性和高斯混合模型的语音活动检测方法，其特征在于，包括以下操作步骤：/n步骤一：对输入的含噪语音信号进行分帧、加窗处理后，通过快速傅里叶变换FFT将信号转换到频域上；/n步骤二：计算平滑子带对数能量；/n步骤三：选取前M帧信号进行高斯混合模型GMM参数集初始化；/n步骤四：进行GMM参数集数据选择性更新；/n步骤五：根据参数集计算子带语音存在概率，子带语音存在概率通过一个数值反映了当前子带的属性；/n步骤六：给出帧单位上语音活动检测VAD结果。/n

【技术特征摘要】
1.一种基于数据选择性和高斯混合模型的语音活动检测方法，其特征在于，包括以下操作步骤：
步骤一：对输入的含噪语音信号进行分帧、加窗处理后，通过快速傅里叶变换FFT将信号转换到频域上；
步骤二：计算平滑子带对数能量；
步骤三：选取前M帧信号进行高斯混合模型GMM参数集初始化；
步骤四：进行GMM参数集数据选择性更新；
步骤五：根据参数集计算子带语音存在概率，子带语音存在概率通过一个数值反映了当前子带的属性；
步骤六：给出帧单位上语音活动检测VAD结果。

2.根据权利要求1所述基于数据选择性和高斯混合模型的语音活动检测方法，其特征在于：所述步骤二中的平滑子带对数能量计算方法为：通过频域上信号的幅度谱计算功率谱，并在帧间进行平滑，从而得到平滑信号功率谱；进而将一帧信号分为多个子带计算平滑子带对数能量，作为语音特征用于GMM建模。

3.根据权利要求1所述基于数据选择性和高斯混合模型的语音活动检测方法，其特征在于：所述步骤三中的G...

【专利技术属性】
技术研发人员：王涛，阮振裔，李平，
申请(专利权)人：上海大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人