语音激活检测方法和装置制造方法及图纸

技术编号：27979679 阅读：22 留言：0更新日期：2021-04-06 14:14

本发明专利技术公开一种语音激活检测方法和装置，其中，语音激活检测方法，包括：对接收的音频进行处理生成音频帧特征；基于神经网络分类器对每一所述音频帧特征为噪声或语音的概率分布值进行计算；对每一所述音频帧特征为噪声或语音的概率分布值进行后处理，输出每一所述音频帧特征的状态判定结果，其中，所述状态判定结果包括静音状态、预音频状态、音频状态和预静音状态。本方案有效解决语音激活检测过程中的一些异常帧以及解决人说话过程中会夹杂静音和噪声段的情况，极大提高语音激活检测的准确性和可用性。通过优化语音激活检测性能，可以进一步提升唤醒及识别性能。

全部详细技术资料下载

【技术实现步骤摘要】
语音激活检测方法和装置
本专利技术属于语音识别领域，尤其涉及语音激活检测方法和装置。
技术介绍
语音激活检测(VAD,VoiceActivityDetection)，其目的是检测当前语音信号中是否包含语音信号存在，即对输入信号进行判断，将语音信号与各种背景噪声信号区分出来，分别对两种信号采用不同的处理方法。传统的方式有通过过零率、短时能量来进行语音和噪声信号的区分。最近几年基于神经网络的语音激活检测蓬勃发展，极大提高了区分语音和噪声信号的正确率。短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数，主要是基于语音音频会有高的过零率，在没有噪声的位置表现良好，但是在有噪声的地方表现并不好，抗干扰能力比较差，过零率只是统计了一定时间内波形穿过很轴的次数，当有噪声时波形也会频繁穿过横轴；基于短时能量的方式同样是计算出每帧的能量以后，根据能量的高低判断是不是语音段，方式过于直接，实际效果差，当噪声能量大时，也会被误判成语音；基于神经网络的语音激活检测，是通过训练一个神经网络分类器，该分类器可以判断一帧是否是语音还是噪...

【技术保护点】
1.一种语音激活检测方法，包括：/n对接收的音频进行处理生成音频帧特征；/n基于神经网络分类器对每一所述音频帧特征为噪声或语音的概率分布值进行计算；/n对每一所述音频帧特征为噪声或语音的概率分布值进行后处理，输出每一所述音频帧特征的状态判定结果，其中，所述状态判定结果包括静音状态、预音频状态、音频状态和预静音状态。/n

【技术特征摘要】
1.一种语音激活检测方法，包括：
对接收的音频进行处理生成音频帧特征；
基于神经网络分类器对每一所述音频帧特征为噪声或语音的概率分布值进行计算；
对每一所述音频帧特征为噪声或语音的概率分布值进行后处理，输出每一所述音频帧特征的状态判定结果，其中，所述状态判定结果包括静音状态、预音频状态、音频状态和预静音状态。

2.根据权利要求1所述的方法，其中，所述静音状态、所述预音频状态、所述音频状态和所述预静音状态形成闭环，相邻的音频帧特征的状态仅能够在相邻的状态之间转换。

3.根据权利要求1或2所述的方法，其中，所述对每一所述音频帧特征为噪声或语音的概率分布值进行后处理，输出每一所述音频帧特征的状态判定结果包括：
将每一所述音频帧特征的概率分布值与每一状态的阈值进行比较；
基于比较结果输出每一所述音频帧特征对应的状态判定结果；
其中，在所述静音状态，具有静音阈值Tsil；
在所述预音频状态，具有预音频阈值Tprsp；
在所述音频状态，具有音频阈值Tsp；
在所述预静音状态，具有预静音低阈值Tlowprsil和预静音高阈值Thightprsil。

4.根据权利要求3所述方法，还包括：
在所述静音状态，若所述音频帧特征的概率分布值小于所述静音阈值Tsil，则进入所述预音频状态；
在所述预音频状态，若所述音频帧特征的概率分布值小于所述预音频阈值Tprsp，则返回所述静音状态；若所述音频帧特征的概率分布值大于所述预音频阈值Tprsp，且持续时间大于或等于第一预设时间，则进入所述音频状态；
在所述音频状态，若所述音频帧特征的概率分布值小于所述音频阈值Tsp，则进入所述预静状态；
在所述预静音状态，若所述音频帧特征的概率分布值小于所述预静音低阈值Tlowprsil，则返回所述音频状态；若所述音频帧特征的概率分布值大于所述预静音低阈值Tlowprsil且持续时间大于或等于第二预设时间，或若所述音频帧特征的概率分布值大...

【专利技术属性】
技术研发人员：王雪志，薛少飞，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人