语音活动检测方法、语音识别方法及系统技术方案

技术编号：23364286 阅读：39 留言：0更新日期：2020-02-18 17:51

本发明专利技术公开一种语音活动检测方法，包括：对待检测音频文件进行帧级别音频活动检测，以确定所述待检测音频文件是否包含语音；当采用帧级别音频活动检测确定所述待检测音频文件包含语音时，将所述待检测音频文件切分为多个句子级子音频片段，以获取所述多个句子级子音频片段的多个子音频特征；根据所述多个子音频特征对所述待检测音频文件进行句子级别语音活动检测，以再次判断所述待检测音频文件是否包含语音。本发明专利技术在对待检测音频文件进行帧级别的语音活动检测之后，对初步确定的包含语音的待检测音频文件进行特征提取，并根据所提取的特征实现了句子级别的再次检测，从而使得在背景噪声较大、信噪比较低时，仍能够检测出是否存在语音。

Speech activity detection method, speech recognition method and system

全部详细技术资料下载

【技术实现步骤摘要】
语音活动检测方法、语音识别方法及系统
本专利技术涉及语音识别
，尤其涉及一种语音活动检测方法、语音识别方法及系统。
技术介绍
语音活动检测(VoiceActivitydetection，VAD)也被称为语音检测，在语音处理中用于检测语音的存在与否，从而将信号中的语音片段和非语音片段分开。专利申请号为：201410853931.6，名称为：语音活动检测方法及其系统的中国专利申请基于传统声学特征，如短时能量、频谱能量、过零率等或基于神经网络提取的特征来进行语音活动检测，对每一帧音频都给出是否是语音的判定。这种方法在信噪比较高时拥有很好的性能。但是背景噪声较大、信噪比较低时，系统容易将非语音片段判定为语音片段，并送到后端语音识别系统，造成资源的浪费。
技术实现思路
本专利技术实施例提供一种语音活动检测方法、语音识别方法及系统，用于至少解决上述技术问题之一。第一方面，本专利技术实施例提供一种语音活动检测方法，包括：对待检测音频文件进行帧级别音频活动检测，以确定所述待检测音频文件是否包含语音；...

【技术保护点】
1.一种语音活动检测方法，包括：/n对待检测音频文件进行帧级别音频活动检测，以确定所述待检测音频文件是否包含语音；/n当采用帧级别音频活动检测确定所述待检测音频文件包含语音时，将所述待检测音频文件切分为多个句子级子音频片段，以获取所述多个句子级子音频片段的多个子音频特征；/n根据所述多个子音频特征对所述待检测音频文件进行句子级别语音活动检测，以再次判断所述待检测音频文件是否包含语音。/n

【技术特征摘要】
1.一种语音活动检测方法，包括：
对待检测音频文件进行帧级别音频活动检测，以确定所述待检测音频文件是否包含语音；
当采用帧级别音频活动检测确定所述待检测音频文件包含语音时，将所述待检测音频文件切分为多个句子级子音频片段，以获取所述多个句子级子音频片段的多个子音频特征；
根据所述多个子音频特征对所述待检测音频文件进行句子级别语音活动检测，以再次判断所述待检测音频文件是否包含语音。

2.根据权利要求1所述的方法，其中，所述根据所述音频特征对所述待检测音频文件进行句子级别语音活动检测包括：将所述音频特征输入至预先训练的句子级语音活动检测模型，以对所述待检测音频文件进行句子级别语音活动检测；所述句子级语音活动检测模型基于语音数据和噪声数据集预先训练得到。

3.根据权利要求2所述的方法，其中，所述句子级语音活动检测模型包括：顺序连接的特征提取层、卷积层、特征统计层、融合层和深度神经网络层；其中，
所述特征提取层提取所接收到的句子级子音频片段的子音频特征，并将所述子音频特征输入至所述卷积层；
所述特征统计层基于所述卷积层的输出统计得到所述子音频特征的统计特征；
所述融合层对所述统计特征进行融合处理，并将融合结果输入至所述深度神经网络层，以基于所述深度神经网络层的输出确定所述待检测音频文件是否包含语音。

4.根据权利要求3所述的方法，其中，所述特征统计层包括：
音频特征均值统计单元，用于确定所述句子级子音频片段在预设时间内的子音频特征的特征平均值；
音频特征标准差统计单元，用于确定所述句子级子音频片段在预设时间内的子音频特征的特征标准差；所述预设时长为所述句子级子音频片段的时间长度。

5.根据权利要求1所述的方法，其中...

【专利技术属性】
技术研发人员：汪鑫，薛峰，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人