【技术实现步骤摘要】
语音检测方法、装置、电子设备及存储介质
[0001]本申请涉及语音处理领域,尤其涉及一种语音检测方法、装置、电子设备、存储介质及计算机程序产品。
技术介绍
[0002]目前的语音活动检测(Voice Activity Detection,VAD))可以较好的分辨出环境噪声与语音之间的区别,例如在嘈杂的街头,可以通过汽车噪声与人声完全不同的语音特征,较为准确的过滤掉汽车的噪声,从而获取准确的语音信息。但是实际环境往往更加复杂,不仅包括环境噪声,还有其他人的语音干扰,仅仅依靠相关VAD技术只能分辨出环境噪声与语音,无法分辨出人声噪声,导致检测结果不够准确。
技术实现思路
[0003]本申请提供了一种语音检测方法、装置、电子设备、存储介质及计算机程序产品,本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此,本申请的一个目的在于提出一种语音检测方法。
[0005]本申请的第二个目的在于提出一种语音检测装置。
[0006]本申请的第三个目的在于提出一种电子设备。
...
【技术保护点】
【技术特征摘要】
1.一种语音检测方法,其特征在于,包括:获取待检测语音,其中所述待检测语音中至少包括目标人的音频帧;获取所述目标人的第一语音特征向量和所述音频帧的第二语音特征向量;基于所述待检测语音的语谱图,获取所述待检测语音的第一语音编码向量;根据所述第一语音特征向量、所述第二语音特征向量和所述第一语音编码向量,对所述待检测语音进行语音活动检测VAD,以确定所述音频帧的目标类别,所述目标类别包括目标人、非目标人和环境噪声。2.根据权利要求1所述的方法,其特征在于,所述获取所述音频帧的目标类别之后,还包括:根据所述音频帧的目标类别,从所述待检测语音中提取属于所述目标人的目标音频帧;将所述目标音频帧按序组合,生成所述目标人的目标语音。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一语音特征向量、所述第二语音特征向量和所述第一语音编码向量,对所述待检测语音进行语音活动检测VAD,以确定所述音频帧的目标类别包括:对所述第一语音编码向量、所述第二语音特征向量和所述第一语音特征向量进行拼接,生成目标拼接向量;根据所述目标拼接向量对所述待检测语音进行VAD,以确定所述音频帧的目标类别。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标拼接向量,对所述待检测语音进行VAD,包括:将所述目标拼接向量输入预训练的目标VAD网络中,由所述目标VAD网络对所述目标拼接向量对应的音频帧进行分类识别,输出所述音频帧的目标类别。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述获取所述目标人的第一语音特征向量,包括:从所述待检测语音的首个音频帧开始,提取设定时长内或设定数量的音频帧的语音特征向量,作为所述目标人的第一语音特征向量。6.根据权利要求4所述的方法,其特征在于,所述目标VAD网络的训练过程,包括:获取第一样本语音,其中,所述第一样本语音中包括样本目标人和样本非目标人和环境噪声各自的样本音频帧,以及所述样本音频帧的类别标签;获取所述第一样本语音的第二语音编码向量和每个所述样本音频帧的第三语音特征向量,并将所述第二语音编码向量和所述第三语音特征向量拼接,得到样本拼接向量;基于所述样本拼接向量和所述样本音频帧的类别标签,对构建的待训练VAD网络进行训练,以获取每个所述样本音频帧的预测类别;根据所述样本音频帧的预测类别和所述样本音频帧的类别标签,确定所述VAD网络的第一损失函数;基于所述第一损失函数,调整所述VAD网络的参数,并返回使用下一个第一样本语音继续对调整后的VAD网络进行训练,直至满足训练结束条件停止训练,得到所述目标VAD网络。7.根据权利要求6所述的方法,其特征在于,获取所述第一语音编码向量或所述第二语音编码向量的过程,包括:
获取候选语音的语谱图,其中,所述候选语音为所述第一样本语音或所述待检测语...
【专利技术属性】
技术研发人员:魏文琦,夏龙,贾杨,高强,蒋栋蔚,
申请(专利权)人:北京猿力未来科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。