语音活动检测方法及装置制造方法及图纸

技术编号：16646710 阅读：38 留言：0更新日期：2017-11-26 22:01

本发明专利技术提出的一种语音活动检测方法及装置，其方法包括，计算声音信号的听觉特征，所述听觉特征包括与先验信噪比相关的第一维度参数、与后验信噪比相关的第二维度参数、与时域信号相关的第三维度参数；将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较，获得检测结果。本发明专利技术采用先验信噪比、后验信噪比联合时域信号表征听觉特征，提取的听觉特征与听觉阈值比较，检测实时的语音活动。本发明专利技术可在单麦克风体系下，有效地提取在远讲情况下的听觉特征，检测声音信号中语音的存在。

Voice activity detection method and device

The invention proposes a voice activity detection method and device, the method includes calculating auditory features of sound signals, the auditory features including a priori SNR first dimension parameters, associated with a posteriori SNR third dimension parameters of second dimension parameters, correlation and time domain signal; comparing hearing the first threshold dimension parameters, second dimension parameters, third dimension parameters and the corresponding test results. The present invention adopts prior signal to noise ratio (SNR), posterior signal-to-noise ratio (SNR) and time domain signal to characterize auditory features. The extracted auditory features are compared with auditory thresholds to detect real-time speech activity. Under the single microphone system, the invention can effectively extract the auditory features in the far speech condition, and detect the existence of the voice in the sound signal.

全部详细技术资料下载

【技术实现步骤摘要】
语音活动检测方法及装置
本专利技术涉及到语音识别领域，特别是涉及到一种语音活动检测方法及装置。
技术介绍
近年来随着互联网技术、智能硬件的蓬勃发展，语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近，噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。在远讲情况下，由于语音能量会快速衰减，而噪音干扰能量大致不变，会使得识别率迅速下降。另外一个影响识别准确率的因素是，语音指令到达房间墙壁多次反射之后的混响，也会造成实际应用与语音识别训练数据集的不匹配，影响识别率。噪音主要有两个来源：(1)麦克风信号采集系统自带的信道噪声，信道噪声因麦克风的敏感性而不同，麦克风敏感性越高，通常信道噪声越高；(2)不可忽略的环境噪声干扰，比如电视机、空调噪声等等。相比于噪声，混响由于产生条件更为复杂，更难抑制。并且，噪音和混响一般同时存在，使得混响抑制更加困难。201510119374.X公开了一种语音检测方法及装置...
语音活动检测方法及装置

【技术保护点】
一种语音活动检测方法，其特征在于，包括以下步骤：计算声音信号的听觉特征，所述听觉特征包括与先验信噪比相关的第一维度参数、与后验信噪比相关的第二维度参数、与时域信号相关的第三维度参数；将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较，获得检测结果。

【技术特征摘要】
1.一种语音活动检测方法，其特征在于，包括以下步骤：计算声音信号的听觉特征，所述听觉特征包括与先验信噪比相关的第一维度参数、与后验信噪比相关的第二维度参数、与时域信号相关的第三维度参数；将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较，获得检测结果。2.根据权利要求1所述的语音活动检测方法，其特征在于，所述第一维度参数以V(1)表示，其由以下公式求得：其中，γ(k)为先验信噪比，k为频率，K为频带整体的数量；所述第二维度参数以V(2)表示，其由以下公式求得：其中，ε(k)为后验信噪比；所述第三维度参数以V(3)表示，其由以下公式求得：其中，LW代表窗长，LT代表起始样本点，函数y为时域混合语音数据，j为时间变量。3.根据权利要求2所述的语音活动检测方法，其特征在于，所述先验信噪比γ(k)由以下公式求得：其中，1为时间帧坐标，Y(l，k)为混合语音频谱，ΦV(k)代表噪音信号的功率谱密度。4.根据权利要求3所述的语音活动检测方法，其特征在于，所述后验信噪比ε(k)由以下公式求得：其中，β为平滑因子，β为取值范围为0.6～0.9，为估算语音频谱，Max函数表示选择两个变量中的最大值。5.根据权利要求4所述的语音活动检测方法，其特征在于，β为0.75。6.根据权利要求1所述的语音活动检测方法，其特征在于，所述时域信号以y(t)表示，其由以下公式表示：

【专利技术属性】
技术研发人员：蔡钢林，
申请(专利权)人：深圳永顺智信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人