语音活动检测方法技术

技术编号：39513711 阅读：9 留言：0更新日期：2023-11-25 18:50

本申请提供了一种语音活动检测方法

全部详细技术资料下载

【技术实现步骤摘要】
语音活动检测方法、装置、设备、存储介质及产品

[0001]本申请涉及语音信号处理
，特别涉及一种语音活动检测方法
、
装置
、
设备
、
存储介质及产品
。

技术介绍

[0002]随着语音信号处理技术的发展，通过语音控制智能语音设备是一种快捷且高效的方式；然而在嘈杂的语音环境中会采集到多个用户的混合语音数据，此时需要基于特定人的语音活动检测
(Target
‑
Speaker Voice Activity Detection
，
TSVAD)
，从混合语音数据中识别出特定人的语音数据，然后基于特定人的语音数据，对智能语音设备进行控制
。

技术实现思路

[0003]本申请实施例提供了一种语音活动检测方法
、
装置
、
设备
、
存储介质及产品，能够节省进行特定人的语音活动检测的运算资源
。
所述技术方案如下：
[0004]一方面，提供了一种语音活动检测方法，所述方法包括：
[0005]基于第一特定人的语音活动检测模型中的特征提取模块，对混合语音数据的音频特征进行提取得到多个用户的混合音频特征，所述混合语音数据为所述多个用户的语音数据的混合；
[0006]基于第一特定人的语音活动检测模型中的编码器，对所述混合音频特征进行编码得到所述多个用户的音频编码特征；
[0007]确定所述多个用户中的目标用...

【技术保护点】

【技术特征摘要】
1.
一种语音活动检测方法，其特征在于，所述方法包括：基于第一特定人的语音活动检测模型中的特征提取模块，对混合语音数据的音频特征进行提取得到多个用户的混合音频特征，所述混合语音数据为所述多个用户的语音数据的混合；基于第一特定人的语音活动检测模型中的编码器，对所述混合音频特征进行编码得到所述多个用户的音频编码特征；确定所述多个用户中的目标用户的声纹编码特征；基于所述第一特定人的语音活动检测模型中的解码器，对所述音频编码特征和所述声纹编码特征进行解码，得到所述目标用户的语音活动检测结果
。2.
根据权利要求1所述的方法，其特征在于，所述基于所述第一特定人的语音活动检测模型中的解码器，对所述音频编码特征和所述声纹编码特征进行解码，得到所述目标用户的语音活动检测结果，包括：确定解码所需的解码初始特征；基于所述声纹编码特征，确定所述目标用户的分类特征；基于所述解码初始特征
、
所述声纹编码特征和所述分类特征和所述音频编码特征，通过所述解码器包括的多层多头注意力机制，确定所述语音活动检测结果
。3.
根据权利要求2所述的方法，其特征在于，所述基于所述解码初始特征
、
所述声纹编码特征和所述分类特征和所述音频编码特征，通过所述解码器包括的多层多头注意力机制，确定所述语音活动检测结果，包括：基于所述解码初始特征
、
所述分类特征和所述音频编码特征，确定所述解码器中的第一层多头注意力机制的多个参数信息；基于所述第一层多头注意力机制的多个参数信息，确定所述目标用户的第一预测结果；基于所述目标用户的第一预测结果
、
所述声纹编码特征
、
所述音频编码特征和位置编码特征，确定所述解码器中的第二层多头注意力机制的多个参数信息，所述位置编码特征为对所述混合语音数据的语音位置进行编码得到的特征；基于所述第二层多头注意力机制的多个参数信息，确定所述语音活动检测结果
。4.
根据权利要求3所述的方法，其特征在于，所述基于所述解码初始特征
、
所述分类特征和所述音频编码特征，确定所述解码器中的第一层多头注意力机制的多个参数信息，包括：将所述音频编码特征和所述分类特征进行拼接，得到第一拼接特征；将所述解码初始特征作为所述解码器中的第一层多头注意力机制的
value
参数值，将所述第一拼接特征分别作为所述第一层头注意力机制的
key
参数值和
query
参数值
。5.
根据权利要求3所述的方法，其特征在于，所述基于所述目标用户的第一预测结果
、
所述声纹编码特征
、
所述音频编码特征和位置编码特征，确定所述解码器中的第二层多头注意力机制的多个参数信息，包括：将所述第一预测结果与所述声纹编码特征进行拼接，得到第二拼接特征，将所述第二拼接特征作为所述解码器中的第二层多头注意力机制的
query
参数值；将所述音频编码特征和所述位置编码特征进行拼接，得到第三拼接特征，将所述第三
拼接特征作为所述第二层多头注意力机制的
key
参数值，将所述音频编码特征作为所述第二层多头注意力机制的
value
参数值
。6.
根据权利要求1所述的方法，其特征在于，所述基于第一特定人的语音活动检测模型中的特征提取模块，对混合语音数据的音频特征进行提取得到多个用户的混合音频特征，包括：基于所述第一特定人的语音活动检测模型中的特征提取模块，对语音数据进行检测；当检测到唤醒词时，采集语音数据，得到所述混合语音数据；基于第一特定人的语音活动检测模型中的特征提取模块，对所述混合语音数据的音频特征进行提取得到多个用户的混合音频特征
。7...

【专利技术属性】
技术研发人员：田垚，曾邦，程铭，
申请(专利权)人：昆山杜克大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人