一种语音活动检测方法、装置、设备及存储介质制造方法及图纸

技术编号:43114598 阅读:25 留言:0更新日期:2024-10-26 09:53
本发明专利技术公开一种语音活动检测方法、装置、设备及存储介质,将获取的待检声音信号的频谱信息输入语音检测模型,其中,语音检测模型为卷积神经网络、循环神经网络和全连接网络串联的模型;利用卷积神经网络对频谱信息进行降维处理,得到降维信息;利用循环神经网络提取降维信息的特征信息;利用全连接网络对特征信息进行语音活动检测,得到待检声音信号的语音活动检测结果;其中,语音活动检测结果为语音或非语音。本发明专利技术实施例通过将待检声音信号的频谱信息输入语音检测模块,通过卷积神经网络、循环神经网络和全连接网络来计算所述待检声音信号的语音活动检测结果,具备较好的抗环境干扰能力,适用于复杂的应用环境,满足实际应用需求。

【技术实现步骤摘要】

本专利技术涉及语音活动检测,具体的说,涉及的是一种语音活动检测方法、装置、设备及存储介质


技术介绍

1、语音活动检测vad(voice activity detection)是指通过准确识别一段语音信号中的起始点和结束点,区分出语音信号和噪音信号的过程,是语音分析、语音合成和语音活动检测等领域中的一个重要环节。语音活动检测通过识别并去除噪音段数据,节省数据处理时间,提升语音活动检测的精度,在实际应用中具有重要的研究意义。

2、现有技术中,普遍通过设置门限、采用似然比波动方式或采用统计模型等方式来进行语音判别,通常在外界环境噪声较小的情况下,这些传统的语音活动检测方式一般能取得较理想的结果,但当应用环境过于复杂时,其效果很难满足实际应用需求。


技术实现思路

1、基于此,本专利技术提供了一种语音活动检测方法、装置、设备及存储介质,其能够通过将待检声音信号的频谱信息输入语音检测模块,通过卷积神经网络、循环神经网络和全连接网络来逐帧计算所述待检声音信号的语音活动检测结果,具备较好的抗环境干扰能力,适用于本文档来自技高网...

【技术保护点】

1.一种语音活动检测方法,其特征在于,包括:

2.如权利要求1所述的语音活动检测方法,其特征在于,所述循环神经网络包括至少两个级联的双向GRU层或者至少两个级联的双向LSTM层。

3.如权利要求2所述的语音活动检测方法,其特征在于,所述循环神经网络包括两个级联双向GRU层;其中,所述GRU层的输入大小和输出大小均为T×1024,T为所述频谱信息关联的预设帧时长,所述GRU层的超参数设置为隐含层节点数量为1024。

4.如权利要求1所述的语音活动检测方法,其特征在于,所述卷积神经网络包括至少两个卷积层和与每一所述卷积层对应的池化层;</p>

5.如权...

【技术特征摘要】

1.一种语音活动检测方法,其特征在于,包括:

2.如权利要求1所述的语音活动检测方法,其特征在于,所述循环神经网络包括至少两个级联的双向gru层或者至少两个级联的双向lstm层。

3.如权利要求2所述的语音活动检测方法,其特征在于,所述循环神经网络包括两个级联双向gru层;其中,所述gru层的输入大小和输出大小均为t×1024,t为所述频谱信息关联的预设帧时长,所述gru层的超参数设置为隐含层节点数量为1024。

4.如权利要求1所述的语音活动检测方法,其特征在于,所述卷积神经网络包括至少两个卷积层和与每一所述卷积层对应的池化层;

5.如权利要求4所述的语音活动检测方法,其特征在于,所述卷积神经网络由第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层依次串联得到,每一卷积层的卷积核均为(2,3),卷积步长均为(1,2);

6.如权利要求1所述的语音活动检测方法,其特征在于,所述语音检测模型还包括第一重构层和第二重构层,所述第一重构层串联在所述卷积神经网络之前,所述...

【专利技术属性】
技术研发人员:黄川
申请(专利权)人:中移物联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1