语音活动检测模型的训练及检测方法、装置、设备和介质制造方法及图纸

技术编号：36046146 阅读：10 留言：0更新日期：2022-12-21 10:54

本申请涉及音频及直播技术领域，提供一种语音活动检测模型训练及检测方法、装置、设备和介质。本申请能够提高语音活动检测模型的检测精确率。包括：将纯净语音信号样本分帧得到多个纯净语音信号帧样本，获取该多个信号帧样本各自对应的对数能量的归一化值，针对每一信号帧样本，获取该信号帧样本前后第一预设数量个信号帧样本中第一纯净语音信号帧样本的占比，该第一纯净语音信号帧样本为对数能量的归一化值大于阈值的信号帧样本，根据该占比确定该信号帧样本对应的语音活动检测标签，根据信号帧样本和预设噪声得到携带噪声的信号帧样本，利用携带噪声的信号帧样本和语音活动检测标签对待训练的语音活动检测模型进行训练。标签对待训练的语音活动检测模型进行训练。标签对待训练的语音活动检测模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
语音活动检测模型的训练及检测方法、装置、设备和介质

[0001]本申请涉及音频及直播
，特别是涉及一种语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]语音活动检测(Voice Activity Detection，VAD)在实时通信(Real
‑
Time Communication，RTC)领域起着至关重要的作用。它可为语音前端处理算法提供参考，也可为语音数据流传输提供依据。
[0003]然而，目前技术提供的基于深度学习的语音活动检测方法中，其采用的深度学习模型的检测精确率不足，语音漏判概率较高，难以满足实时通信的需求。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质。
[0005]第一方面，本申请提供了一种语音活动检测模型的训练方法。所述方法包括：
[0006]获取纯净语音信号样本；
[0007]将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本，获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值；
[0008]针对每一纯净语音信号帧样本，根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值，获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比；所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信...

【技术保护点】

【技术特征摘要】
1.一种语音活动检测模型的训练方法，其特征在于，所述方法包括：获取纯净语音信号样本；将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本，获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值；针对每一纯净语音信号帧样本，根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值，获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比；所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本；根据所述第一纯净语音信号帧样本的占比，确定所述纯净语音信号帧样本对应的语音活动检测标签；根据所述纯净语音信号帧样本和预设噪声信号，得到携带噪声的语音信号帧样本；利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一纯净语音信号帧样本的占比，确定所述纯净语音信号帧样本对应的语音活动检测标签，包括：根据所述第一纯净语音信号帧样本的占比与占比阈值的比较结果，得到所述纯净语音信号帧样本对应的初始语音活动检测标签；针对每一纯净语音信号帧样本，根据所述多个纯净语音信号帧样本各自对应的初始语音活动检测标签，获取所述纯净语音信号帧样本前后第二预设数量个纯净语音信号帧样本中第二纯净语音信号帧样本的数量；所述第二纯净语音信号帧样本为所述初始语音活动检测标签属于第一类标签的纯净语音信号帧样本；根据所述第二纯净语音信号帧样本的数量，确定所述纯净语音信号帧样本对应的语音活动检测标签。3.根据权利要求2所述的方法，其特征在于，所述根据所述第二纯净语音信号帧样本的数量，确定所述纯净语音信号帧样本对应的语音活动检测标签，包括：若所述第二纯净语音信号帧样本的数量大于或等于第二预设数量，则确定所述纯净语音信号帧样本对应的语音活动检测标签属于第一类标签；若所述第二纯净语音信号帧样本的数量小于第二预设数量，则确定所述纯净语音信号帧样本对应的语音活动检测标签属于第二类标签。4.根据权利要求2所述的方法，其特征在于，所述根据所述第一纯净语音信号帧样本的占比与占比阈值的比较结果，得到所述纯净语音信号帧样本对应的初始语音活动检测标签，包括：若所述第一纯净语音信号帧样本的占比大于所述占比阈值，则确定所述纯净语音信号帧样本对应的初始语音活动检测标签属于第一类标签；若所述第一纯净语音信号帧样本的占比小于或等于所述占比阈值，则确定所述纯净语音信号帧样本对应的初始语音活动检测标签属于第二类标签。5.根据权利要求1至4任一项所述的方法，其特征在于，所述获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值，包括：针对每一纯净语音信号帧样本，对所述纯净语音信号帧样本进行去均值处理，根据去
均值处理后的纯净语音信号帧样本计算对应的对数能量，对所述对数能量进行归一化，得到所述多个纯净语音信号帧样本各自对应的对数能量的归一化值。6.根据权利要求1至4任一项所述的方法，其特征在于，所述利用所述携带噪声...

【专利技术属性】
技术研发人员：王海平，
申请(专利权)人：广州方硅信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人