语音活动检测模型的训练及检测方法、装置、设备和介质制造方法及图纸

技术编号:36046146 阅读:10 留言:0更新日期:2022-12-21 10:54
本申请涉及音频及直播技术领域,提供一种语音活动检测模型训练及检测方法、装置、设备和介质。本申请能够提高语音活动检测模型的检测精确率。包括:将纯净语音信号样本分帧得到多个纯净语音信号帧样本,获取该多个信号帧样本各自对应的对数能量的归一化值,针对每一信号帧样本,获取该信号帧样本前后第一预设数量个信号帧样本中第一纯净语音信号帧样本的占比,该第一纯净语音信号帧样本为对数能量的归一化值大于阈值的信号帧样本,根据该占比确定该信号帧样本对应的语音活动检测标签,根据信号帧样本和预设噪声得到携带噪声的信号帧样本,利用携带噪声的信号帧样本和语音活动检测标签对待训练的语音活动检测模型进行训练。标签对待训练的语音活动检测模型进行训练。标签对待训练的语音活动检测模型进行训练。

【技术实现步骤摘要】
语音活动检测模型的训练及检测方法、装置、设备和介质


[0001]本申请涉及音频及直播
,特别是涉及一种语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]语音活动检测(Voice Activity Detection,VAD)在实时通信(Real

Time Communication,RTC)领域起着至关重要的作用。它可为语音前端处理算法提供参考,也可为语音数据流传输提供依据。
[0003]然而,目前技术提供的基于深度学习的语音活动检测方法中,其采用的深度学习模型的检测精确率不足,语音漏判概率较高,难以满足实时通信的需求。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质。
[0005]第一方面,本申请提供了一种语音活动检测模型的训练方法。所述方法包括:
[0006]获取纯净语音信号样本;
[0007]将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;
[0008]针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;
[0009]根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;
[0010]根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;
[0011]利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。
[0012]第二方面,本申请提供了一种语音活动检测方法。所述方法包括:
[0013]获取待检测语音信号帧;
[0014]利用经训练的语音活动检测模型对所述待检测语音信号帧进行检测,得到所述语音活动检测模型输出的所述待检测语音信号帧对应的语音活动检测预测信息;其中,所述经训练的语音活动检测模型根据如上所述的语音活动检测模型的训练方法训练得到;
[0015]根据所述语音活动检测预测信息,得到所述待检测语音信号帧的语音活动检测结果。
[0016]第三方面,本申请还提供了一种语音活动检测模型的训练装置。所述装置包括:
[0017]语音样本获取模块,用于获取纯净语音信号样本;
[0018]归一化处理模块,用于将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;
[0019]占比获取模块,用于针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;
[0020]标签确定模块,用于根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;
[0021]训练样本获得模块,用于根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;
[0022]模型训练模块,用于利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。
[0023]第四方面,本申请还提供了一种语音活动检测装置。所述装置包括:
[0024]待检测帧获取模块,用于获取待检测语音信号帧;
[0025]模型检测模块,用于利用经训练的语音活动检测模型对所述待检测语音信号帧进行检测,得到所述语音活动检测模型输出的所述待检测语音信号帧对应的语音活动检测预测信息;其中,所述经训练的语音活动检测模型利用如上所述的语音活动检测模型的训练装置训练得到;
[0026]结果获得模块,用于根据所述语音活动检测预测信息,得到所述待检测语音信号帧的语音活动检测结果。
[0027]第五方面,本申请还提供了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0028]获取纯净语音信号样本;将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。
[0029]第六方面,本申请还提供了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0030]获取待检测语音信号帧;利用经训练的语音活动检测模型对所述待检测语音信号帧进行检测,得到所述语音活动检测模型输出的所述待检测语音信号帧对应的语音活动检测预测信息;其中,所述经训练的语音活动检测模型根据如上所述的语音活动检测模型的训练方法训练得到;根据所述语音活动检测预测信息,得到所述待检测语音信号帧的语音活动检测结果。
[0031]第七方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0032]获取纯净语音信号样本;将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。
[0033]第八方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音活动检测模型的训练方法,其特征在于,所述方法包括:获取纯净语音信号样本;将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签,包括:根据所述第一纯净语音信号帧样本的占比与占比阈值的比较结果,得到所述纯净语音信号帧样本对应的初始语音活动检测标签;针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的初始语音活动检测标签,获取所述纯净语音信号帧样本前后第二预设数量个纯净语音信号帧样本中第二纯净语音信号帧样本的数量;所述第二纯净语音信号帧样本为所述初始语音活动检测标签属于第一类标签的纯净语音信号帧样本;根据所述第二纯净语音信号帧样本的数量,确定所述纯净语音信号帧样本对应的语音活动检测标签。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二纯净语音信号帧样本的数量,确定所述纯净语音信号帧样本对应的语音活动检测标签,包括:若所述第二纯净语音信号帧样本的数量大于或等于第二预设数量,则确定所述纯净语音信号帧样本对应的语音活动检测标签属于第一类标签;若所述第二纯净语音信号帧样本的数量小于第二预设数量,则确定所述纯净语音信号帧样本对应的语音活动检测标签属于第二类标签。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一纯净语音信号帧样本的占比与占比阈值的比较结果,得到所述纯净语音信号帧样本对应的初始语音活动检测标签,包括:若所述第一纯净语音信号帧样本的占比大于所述占比阈值,则确定所述纯净语音信号帧样本对应的初始语音活动检测标签属于第一类标签;若所述第一纯净语音信号帧样本的占比小于或等于所述占比阈值,则确定所述纯净语音信号帧样本对应的初始语音活动检测标签属于第二类标签。5.根据权利要求1至4任一项所述的方法,其特征在于,所述获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,包括:针对每一纯净语音信号帧样本,对所述纯净语音信号帧样本进行去均值处理,根据去
均值处理后的纯净语音信号帧样本计算对应的对数能量,对所述对数能量进行归一化,得到所述多个纯净语音信号帧样本各自对应的对数能量的归一化值。6.根据权利要求1至4任一项所述的方法,其特征在于,所述利用所述携带噪声...

【专利技术属性】
技术研发人员:王海平
申请(专利权)人:广州方硅信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1