语音激活检测方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33087584 阅读:24 留言:0更新日期:2022-04-15 10:54
本公开提供了语音激活检测方法、装置、电子设备和存储介质,涉及语音处理技术领域,具体为人工智能和深度学习技术领域。具体实现方案为:获取第一音频信号,并提取所述第一音频信号的频域特征;将所述第一音频信号的频域特征输入至语音激活检测模型中,得到所述语音激活检测模型输出的语音存在检测结果,其中,所述语音激活检测模型用于检测所述第一音频信号中是否存在语音。本公开实施例可以提高语音激活检测的检测准确率,降低检测复杂性。降低检测复杂性。降低检测复杂性。

【技术实现步骤摘要】
语音激活检测方法、装置、电子设备和存储介质


[0001]本公开涉及语音处理
,具体为人工智能和深度学习
,尤其涉及语音激活检测方法、装置、电子设备和存储介质。

技术介绍

[0002]语音激活检测(Voice Active Detection,VAD)是一项用于检测语音是否存在的技术,这项技术在语音编解码、语音增强、语音识别等任务中被广泛的应用。
[0003]在网络电话(Voice over Internet Protocol,VOIP)通讯场景下,VAD可以帮助通讯系统只要传输语音段以降低传输带宽;在语音识别场景下,VAD的使用可以使得识别系统只在存在语音的时候调用识别引擎,以降低识别系统计算负载;在语音增强领域,VAD可以用来辅助估计噪声功率谱,以提升语音增强效果。另外,在自动增益控制、说话人指示等场景下,VAD也有着一定的应用。

技术实现思路

[0004]本公开提供了一种语音激活检测方法、装置、电子设备和存储介质。
[0005]根据本公开的一方面,提供了一种语音激活检测方法,包括:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音激活检测方法,包括:获取第一音频信号,并提取所述第一音频信号的频域特征;将所述第一音频信号的频域特征输入至语音激活检测模型中,得到所述语音激活检测模型输出的语音存在检测结果,其中,所述语音激活检测模型用于检测所述第一音频信号中是否存在语音。2.根据权利要求1所述的方法,其中,所述将所述第一音频信号的频域特征输入至语音激活检测模型中,得到所述语音激活检测模型输出的语音存在检测结果,包括:通过语音激活检测模型中时序特征提取层对所述频域特征进行特征提取,得到时频域特征,其中,所述时序特征提取层用于对频域特征进行时域特征提取;通过所述语音激活检测模型中分类层对所述时频域特征进行处理,得到所述语音存在检测结果,并输出。3.根据权利要求2所述的方法,其中,所述语音激活检测模型包括至少一个时序特征提取层;所述通过语音激活检测模型中时序特征提取层对所述频域特征进行特征提取,得到时频域特征,包括:通过语音激活检测模型中至少一个所述时序特征提取层,对所述频域特征进行帧率调整,得到至少一个帧率的中间特征,并进行特征提取,得到对应帧率的单元特征;通过语音激活检测模型对至少一个所述单元特征进行特征融合,得到时频域特征。4.根据权利要求3所述的方法,其中,所述语音激活检测模型包括串接的至少两个时序特征提取层,首个时序特征提取层包括时序特征提取模型,除所述首个时序特征提取层之外的其他时序特征提取层包括时序特征提取模型和跳帧层;所述通过语音激活检测模型中至少一个所述时序特征提取层,对所述频域特征进行帧率调整,得到至少一个帧率的中间特征,并进行特征提取,得到对应帧率的单元特征,包括:将所述频域特征作为所述首个时序特征提取层的中间特征;通过所述首个时序特征提取层对所述首个时序特征提取层的中间特征进行特征提取,得到所述首个时序特征提取层输出的单元特征;通过所述其他时序特征提取层对串接的前一时序特征提取层输出的单元特征,进行跳帧处理,得到所述其他时序特征提取层的中间特征;通过所述其他时序特征提取层对所述其他时序特征提取层的中间特征进行特征提取,得到所述其他时序特征提取层输出的单元特征;其中,所述时序特征提取层输出的单元特征的帧率与所述时序特征提取层的中间特征的帧率相同。5.根据权利要求3所述的方法,其中,所述通过语音激活检测模型对至少一个所述单元特征进行特征融合,得到时频域特征,包括:通过所述语音激活检测模型对第一帧率的单元特征进行帧率调整,与相同帧率的第二帧率的单元特征进行融合,所述第一帧率小于第二帧率;将各帧率的单元特征融合得到结果,确定为时频域特征。6.根据权利要求3所述的方法,其中,不同的时序特征提取层的宽度不同。7.根据权利要求1所述的方法,其中,所述提取所述第一音频信号的频域特征,包括:
对所述第一音频信号进行分帧和频域变换,得到至少一帧的频域信号;对各所述帧的频域信号进行幅度特征提取,得到所述第一音频信号的频域特征。8.根据权利要求7所述的方法,其中,所述对各所述帧的频域信号进行幅度特征提取,得到所述第一音频信号的频域特征,包括:对各所述帧的频域信号进行幅度特征提取,得到备选幅度特征;对所述备选幅度特征进行数据压缩,得到所述第一音频信号的频域特征。9.根据权利要求1所述的方法,还包括:获取第二音频信号,并提取所述第二音频信号的频域特征,所述第二音频信号作为所述第一音频信号的干扰参考信号;将所述第二音频信号的频域特征输入至所述语音激活检测模型中;所述得到所述语音激活检测模型输出的语音存在检测结果,包括:通过所述语音激活检测模型对所述第一音频信号的频域特征和所述第二音频信号的频域特征进行特征融合,并对融合后的频域特征进行处理,得到所述语音激活检测模型输出的语音存在检测结果。10.一种语音激活检测装置,包括:音频信号处理模块,用于获取第一音频信号,并提取所述第一音频信号的频域特征;信号语音识别模块,用于将所述第一音频信号的频域特征输入至语音激活检测模型中,得到所述语音激活检测模型输出的语音存在检测结果,其中,所述语音激活检测模型用于检测所述第一音...

【专利技术属性】
技术研发人员:张国昌于利标魏建强
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1