一种构建语音检测模型的方法及语音端点检测系统技术方案

技术编号：22170757 阅读：25 留言：0更新日期：2019-09-21 12:14

本发明专利技术公开了一种构建语音检测模型的方法及语音端点检测系统，属于语音识别技术领域。本发明专利技术的一种构建语音检测模型的方法，先采集音频数据并合成混合语音，而后对混合语音进行特征提取得到62维特征，再将62维特征输入至RNN模型进行训练得到语音检测模型。本发明专利技术的一种语音端点检测系统，包括采集单元、计算单元、传输单元和终端，采集单元与计算单元电连接，计算单元和终端分别与传输单元连接。本发明专利技术克服了现有技术中，语音识别准确性和稳定性不高的不足，提供了一种构建语音检测模型的方法及语音端点检测系统，对各类噪声下的语音数据具有较高的识别率，可以应用部署至实时会议通信设备。

A Method of Building Speech Detection Model and Speech Endpoint Detection System

全部详细技术资料下载

【技术实现步骤摘要】
一种构建语音检测模型的方法及语音端点检测系统
本专利技术涉及语音识别领域，更具体地说，涉及一种构建语音检测模型的方法及语音端点检测系统。
技术介绍
VAD(VoiceActivityDetection)，又称语音端点检测，是指在噪声环境中检测语音存在与否，通常应用于语音编码、语音增强等语音处理系统中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。传统算法在进行语音活动检测时有两个问题需要注意：一、背景噪声问题，即如何在较大的背景噪声中检测语音；二、前后沿剪切问题，即还原语音时，由于从实际讲话开始到检测到语音之间有一定的判断门限和时延，有时语音波形的开始和结束部分会作为非语音被丢掉，还原的语音会出现变化，因此需要在突发语音分组前面或后面增加一个语音分组进行平滑以解决这一问题。VAD算法的准确性对语音前端算法十分关键，传统的VAD算法通常包括两个部分：特征提取和语音/非语音判决，常用的特征提取分为五类：基于能量、频域、倒普、谐波、和长时信息；语音/非语音判决则根据各自提取的特征的特性进行设计，常用的有根据门限、长时包络、基频等。但是传统VAD算法往往对环境和信噪比依赖性较大，准确性也无法得到保证，十分不利应用于实时会议通信设备中。近年来，由于深度学习的发展，开始出现了利用深度学习进行VAD检测的技术。相对于传统算法，深度学习的非线性拟合能力极强，而且较为成熟的深度学习模型如RNN、LSTM和GRU等也十分适用于音频信号这种序列型输入数据。但是深度学习的参数规模和计算开销通常较大，直接使用小模型又使得算法的稳定性和效果得不到保障，因此很...

【技术保护点】
1.一种构建语音检测模型的方法，其特征在于，先采集音频数据并合成混合语音，而后对混合语音进行特征提取得到62维特征，再将62维特征输入至RNN模型进行训练得到语音检测模型。

【技术特征摘要】
1.一种构建语音检测模型的方法，其特征在于，先采集音频数据并合成混合语音，而后对混合语音进行特征提取得到62维特征，再将62维特征输入至RNN模型进行训练得到语音检测模型。2.根据权利要求1所述的一种构建语音检测模型的方法，其特征在于，具体步骤如下：步骤一、合成混合语音先采集纯净语音和噪声，而后将采集的纯净语音和噪声进行语音合成得到混合语音；步骤二、特征提取先对混合语音进行加窗分帧处理并进行短时傅里叶变换，再计算每帧的频域对数谱，而后对对数谱进行特征提取得到62维特征；步骤三、生成语音检测模型将62维特征输入至RNN模型，再采用Adam训练策略和改进的loss函数进行训练得到语音检测模型；改进的loss函数的公式如下：BCEmin(x)i＝0.1×MC(x)×[-yilogfi(x)+(1-yi)log(1-fi(x))]其中，BCEmin(x)i为二值交叉熵，fi(x)表示预测结果，yi表示真实标签，MC(x)为最小期望成本，公式如下：MC(x)＝P(preL0，tureL1，x)×C10+P(preL1，trueL0，x)×C0式中，pre代表预测结果，ture代表真实标签，P(preL0，tureL1，x)表示真实标签为L1，L1为语音标签，预测为L0的个数占总个数的比，L0为非语音标签；P(preL1，trueL0，x)表示真实标签为L0，预测为L1的个数占总个数的比；C10为真实标签为L1但检测为L0时的成本，C0为真实标签为L0但检测为L1的成本。3.根据权利要求2所述的一种构建语音检测模型的方法，其特征在于，步骤一中语音合成公式如下：Smix＝α×Sclean+β×N其中，Smix为合成的混合语音，Sclean为纯净语音，N为噪声，α为纯净语音的衰减系数，0.3≤α≤1；β为噪声的衰减系数，0.3≤β≤1。4.根据权利要求2所述的一种构建语音检测模型的方法，其特征在于，步骤二中对对数谱进行特征提取的具体步骤为：将对数谱均匀分成22个子频带，再对每个子频带进行DCT变换得到22维特征，再根据22维特征将当前帧与当前帧的前两帧和当前帧的后两帧的数据特征分别进行差异比较并根据当前帧特征共得到36维特征；而后将基音周期、当前帧谱距离、当前帧与前两帧分别计算所得的...

【专利技术属性】
技术研发人员：方泽煌，康元勋，冯万健，
申请(专利权)人：厦门亿联网络技术股份有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人