一种语音活动检测方法、装置、设备及存储介质制造方法及图纸

技术编号：40512906 阅读：17 留言：0更新日期：2024-03-01 13:29

本申请公开一种语音活动检测方法、装置、设备及存储介质，该方法包括：获取混合语音和第一说话人的注册语音；利用第一个性化语音活动检测PVAD模型对混合语音和注册语音进行特征提取，并基于提取到的混合语音的帧级别声学特征和注册语音的帧级别声学特征，得到第一说话人在每帧子混合语音上的概率分布。如此，通过利用注册语音的帧级别声学特征作为第一说话人的说话人信息，这样在使用短语音(如唤醒词语音)进行注册时，能够提取到短语音的更精细的语音信号特性，进一步保证PVAD模型的输出结果的准确性，从而提升PVAD模型的召回率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音检测技术，尤其涉及一种语音活动检测方法、装置、设备及存储介质。

技术介绍

1、目前，个性化语音活动检测技术(personal voice activity detection，pvad)可以在多说话人带噪语音中检测特定目标说话人的讲话起始时间片段。pvad模型由一个预训练的说话人识别模型、pvad主干网络和线性层组成。由于pvad模型大多依赖于预训练的说话人识别模型所提取的段级别声纹嵌入的质量，当使用短语音(如唤醒词语音)进行注册时，所提取的段级别声纹嵌入质量下降，这会导致pvad模型的召回率下降。

技术实现思路

1、本申请期望提供一种语音活动检测方法、装置、设备及存储介质。

2、本申请的技术方案是这样实现的：

3、第一方面，提供了一种语音活动检测方法，所述方法包括：

4、获取混合语音和第一说话人的注册语音；

5、利用第一个性化语音活动检测pvad模型对所述混合语音和所述注册语音进行特征提取，并基于提取到的所述混合语音的帧级别声...

【技术保护点】

1.一种语音活动检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于提取到的所述混合语音的帧级别声学特征和所述注册语音的帧级别声学特征，得到所述第一说话人在每帧子混合语音上的概率分布，包括：

3.根据权利要求2所述的方法，其特征在于，第一PVAD模型包括第一Conformer编码器、交叉注意力机制模块和特征线性调制层；所述基于所述混合语音的帧级别声学特征和所述注册语音的帧级别声学特征，得到所述第一说话人在每帧子混合语音上的成分表示，包括：

4.根据权利要求3所述的方法，其特征在于，所述交叉注意力机制模块包括设有多个编...

【技术特征摘要】

1.一种语音活动检测方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，第一pvad模型包括第一conformer编码器、交叉注意力机制模块和特征线性调制层；所述基于所述混合语音的帧级别声学特征和所述注册语音的帧级别声学特征，得到所述第一说话人在每帧子混合语音上的成分表示，包括：

4.根据权利要求3所述的方法，其特征在于，所述交叉注意力机制模块包括设有多个编码子层的transformer编码器，每个编码子层包括多头注意力层和全连接层；所述将所述混合语音的帧级别编码结果和所述注册语音的帧级别编码结果作为所述交叉注意力机制模块的输入，得到所述第一说话人在每帧子混合语音上的注意力权重...

【专利技术属性】
技术研发人员：田垚，曾邦，程铭，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人