语音活动检测方法技术

技术编号:39513711 阅读:9 留言:0更新日期:2023-11-25 18:50
本申请提供了一种语音活动检测方法

【技术实现步骤摘要】
语音活动检测方法、装置、设备、存储介质及产品


[0001]本申请涉及语音信号处理
,特别涉及一种语音活动检测方法

装置

设备

存储介质及产品


技术介绍

[0002]随着语音信号处理技术的发展,通过语音控制智能语音设备是一种快捷且高效的方式;然而在嘈杂的语音环境中会采集到多个用户的混合语音数据,此时需要基于特定人的语音活动检测
(Target

Speaker Voice Activity Detection

TSVAD)
,从混合语音数据中识别出特定人的语音数据,然后基于特定人的语音数据,对智能语音设备进行控制


技术实现思路

[0003]本申请实施例提供了一种语音活动检测方法

装置

设备

存储介质及产品,能够节省进行特定人的语音活动检测的运算资源

所述技术方案如下:
[0004]一方面,提供了一种语音活动检测方法,所述方法包括:
[0005]基于第一特定人的语音活动检测模型中的特征提取模块,对混合语音数据的音频特征进行提取得到多个用户的混合音频特征,所述混合语音数据为所述多个用户的语音数据的混合;
[0006]基于第一特定人的语音活动检测模型中的编码器,对所述混合音频特征进行编码得到所述多个用户的音频编码特征;
[0007]确定所述多个用户中的目标用户的声纹编码特征;
[0008]基于所述第一特定人的语音活动检测模型中的解码器,对所述音频编码特征和所述声纹编码特征进行解码,得到所述目标用户的语音活动检测结果

[0009]另一方面,提供了一种语音活动检测装置,所述装置包括:
[0010]提取模块,用于基于第一特定人的语音活动检测模型中的特征提取模块,对混合语音数据的音频特征进行提取得到多个用户的混合音频特征,所述混合语音数据为所述多个用户的语音数据的混合;
[0011]编码模块,用于基于第一特定人的语音活动检测模型中的编码器,对所述混合音频特征进行编码得到所述多个用户的音频编码特征;
[0012]确定模块,用于确定所述多个用户中的目标用户的声纹编码特征;
[0013]解码模块,用于基于所述第一特定人的语音活动检测模型中的解码器,对所述音频编码特征和所述声纹编码特征进行解码,得到所述目标用户的语音活动检测结果

[0014]另一方面,提供了一种智能语音设备,所述智能语音设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现上述所述的语音活动检测方法

[0015]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述所述的语音活动检测方


[0016]另一方面,提供了一种计算机程序产品,所述计算机程序产品存储有至少一条程序代码,所述至少一条程序代码用于被处理器执行,以实现上述所述的语音活动检测方法

[0017]由于相关技术中,是将混合音频特征和目标用户的声纹特征进行拼接,对拼接后的特征进行编码以及解码等处理,得到最终的语音活动检测结果

而由于将混合音频特征和目标用户的声纹特征进行拼接,会导致拼接得到的特征的维度较高,这样会增加运算资源

[0018]在本申请实施例中,通过对第一特定人的语音活动检测模型的框架进行改进,将混合音频特征和目标用户的声纹特征进行解耦,不对混合音频特征和目标用户的声纹特征进行拼接处理,而是先将混合音频特征直接输入到编码器中进行编码,将编码得到的音频编码特征和目标用户的声纹编码特征输入到解码器中进行解码

由于将混合音频特征和目标用户的声纹特征进行了解耦,这样就不会增加特征的维度,也即本申请实施例能够降低解码特征的维度,从而节省进行特定人的语音活动检测的运算资源

附图说明
[0019]图1示出了本申请一个示例性实施例示出的语音活动检测方法的实施环境的示意图;
[0020]图2示出了本申请一个示例性实施例示出的语音活动检测方法的流程图;
[0021]图3示出了本申请一个示例性实施例示出的语音活动检测方法的示意图;
[0022]图4示出了本申请一个示例性实施例示出的语音活动检测方法的流程图;
[0023]图5示出了本申请一个示例性实施例示出的语音活动检测方法的示意图;
[0024]图6示出了本申请一个示例性实施例示出的语音活动检测方法的流程图;
[0025]图7示出了本申请一个示例性实施例示出的解码器的解码过程示意图;
[0026]图8示出了本申请一个示例性实施例示出的语音活动检测方法的流程图;
[0027]图9示出了本申请一个示例性实施例示出的语音活动检测方法的流程图;
[0028]图
10
示出了本申请一个示例性实施例示出的语音活动检测方法的流程图;
[0029]图
11
示出了本申请一个示例性实施例示出的语音活动检测装置的框图;
[0030]图
12
示出了本申请一个示例性实施例示出的智能语音设备的框图

具体实施方式
[0031]为使本申请的目的

技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述

[0032]在本文中提及的“多个”是指两个或两个以上
。“和
/
或”,描述关联对象的关联关系,表示可以存在三种关系,例如,
A

/

B
,可以表示:单独存在
A
,同时存在
A

B
,单独存在
B
这三种情况

字符“/”一般表示前后关联对象是一种“或”的关系

[0033]需要说明的是,本申请所涉及的信息
(
包括但不限于用户设备信息

用户个人信息等
)、
数据
(
包括但不限于用于分析的数据

存储的数据

展示的数据等
)
以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集

使用和处理需要遵守相关国家和地区的相关法律法规和标准

例如,本申请中涉及到的目标用户的语音数据和混合语音数据
等都是在充分授权的情况下获取的

[0034]请参考图1,其示出了本申请一个示例性实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音活动检测方法,其特征在于,所述方法包括:基于第一特定人的语音活动检测模型中的特征提取模块,对混合语音数据的音频特征进行提取得到多个用户的混合音频特征,所述混合语音数据为所述多个用户的语音数据的混合;基于第一特定人的语音活动检测模型中的编码器,对所述混合音频特征进行编码得到所述多个用户的音频编码特征;确定所述多个用户中的目标用户的声纹编码特征;基于所述第一特定人的语音活动检测模型中的解码器,对所述音频编码特征和所述声纹编码特征进行解码,得到所述目标用户的语音活动检测结果
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述第一特定人的语音活动检测模型中的解码器,对所述音频编码特征和所述声纹编码特征进行解码,得到所述目标用户的语音活动检测结果,包括:确定解码所需的解码初始特征;基于所述声纹编码特征,确定所述目标用户的分类特征;基于所述解码初始特征

所述声纹编码特征和所述分类特征和所述音频编码特征,通过所述解码器包括的多层多头注意力机制,确定所述语音活动检测结果
。3.
根据权利要求2所述的方法,其特征在于,所述基于所述解码初始特征

所述声纹编码特征和所述分类特征和所述音频编码特征,通过所述解码器包括的多层多头注意力机制,确定所述语音活动检测结果,包括:基于所述解码初始特征

所述分类特征和所述音频编码特征,确定所述解码器中的第一层多头注意力机制的多个参数信息;基于所述第一层多头注意力机制的多个参数信息,确定所述目标用户的第一预测结果;基于所述目标用户的第一预测结果

所述声纹编码特征

所述音频编码特征和位置编码特征,确定所述解码器中的第二层多头注意力机制的多个参数信息,所述位置编码特征为对所述混合语音数据的语音位置进行编码得到的特征;基于所述第二层多头注意力机制的多个参数信息,确定所述语音活动检测结果
。4.
根据权利要求3所述的方法,其特征在于,所述基于所述解码初始特征

所述分类特征和所述音频编码特征,确定所述解码器中的第一层多头注意力机制的多个参数信息,包括:将所述音频编码特征和所述分类特征进行拼接,得到第一拼接特征;将所述解码初始特征作为所述解码器中的第一层多头注意力机制的
value
参数值,将所述第一拼接特征分别作为所述第一层头注意力机制的
key
参数值和
query
参数值
。5.
根据权利要求3所述的方法,其特征在于,所述基于所述目标用户的第一预测结果

所述声纹编码特征

所述音频编码特征和位置编码特征,确定所述解码器中的第二层多头注意力机制的多个参数信息,包括:将所述第一预测结果与所述声纹编码特征进行拼接,得到第二拼接特征,将所述第二拼接特征作为所述解码器中的第二层多头注意力机制的
query
参数值;将所述音频编码特征和所述位置编码特征进行拼接,得到第三拼接特征,将所述第三
拼接特征作为所述第二层多头注意力机制的
key
参数值,将所述音频编码特征作为所述第二层多头注意力机制的
value
参数值
。6.
根据权利要求1所述的方法,其特征在于,所述基于第一特定人的语音活动检测模型中的特征提取模块,对混合语音数据的音频特征进行提取得到多个用户的混合音频特征,包括:基于所述第一特定人的语音活动检测模型中的特征提取模块,对语音数据进行检测;当检测到唤醒词时,采集语音数据,得到所述混合语音数据;基于第一特定人的语音活动检测模型中的特征提取模块,对所述混合语音数据的音频特征进行提取得到多个用户的混合音频特征
。7...

【专利技术属性】
技术研发人员:田垚曾邦程铭
申请(专利权)人:昆山杜克大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1