语音活动检测方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:37999512 阅读:23 留言:0更新日期:2023-06-30 10:13
本申请公开了一种语音活动检测方法、装置、电子设备及可读存储介质,属于音频处理技术领域。其中,该方法包括:获取目标音频信号的目标音频特征;将目标音频特征输入至目标模型的第一网络层,得到第一特征图,该第一特征图包括N个第一通道,每个第一通道分别包括一个目标特征矩阵,每个目标特征矩阵是:该第一网络层对目标音频特征进行高层特征提取得到的;将第一特征图输入至目标模型的第二网络层,得到第二特征图,该第二特征图包括N个第二通道,每个第二通道分别对应一个第一通道,每个第二通道分别包括一个目标特征值,每个目标特征值是:第二网络层对对应的目标特征矩阵进行时序建模得到的;根据第二特征图,输出语音活动检测类别。测类别。测类别。

【技术实现步骤摘要】
语音活动检测方法、装置、电子设备及可读存储介质


[0001]本申请属于音频处理
,具体涉及一种语音活动检测方法、装置、电子设备及可读存储介质。

技术介绍

[0002]电子设备可以对音频信号进行语音活动检测,以从该音频信号中区分出语音信号和非语音(例如噪声、静音等)信号,从而电子设备可以仅对该语音信号进行编码和传输,以减少要传输的音频数据量,进而可以提升传输信道的利用率。在相关技术中,电子设备可以提取音频信号的特征(例如时域特征和频域特征),并根据该特征区分语音信号和非语音信号。
[0003]由于在电子设备处于低信噪比的环境下,音频信号的时域特征受噪声的影响较大,这样可能会导致电子设备无法根据该特征区分语音信号和非语音信号的情况,因此,导致电子设备进行语音活动检测的准确性较差。

技术实现思路

[0004]本申请实施例的目的是提供一种语音活动检测方法、装置、电子设备及可读存储介质,能够解决电子设备进行语音活动检测的准确性较差的问题。
[0005]第一方面,本申请实施例提供了一种语音活动检测方法,该方法包括:获取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音活动检测方法,其特征在于,所述方法包括:获取目标音频信号的目标音频特征;将所述目标音频特征输入至目标模型的第一网络层,得到第一特征图,所述第一特征图包括N个第一通道,每个第一通道分别包括一个目标特征矩阵,每个目标特征矩阵是:所述第一网络层对所述目标音频特征进行高层特征提取得到的,N为大于1的正整数;将所述第一特征图输入至所述目标模型的第二网络层,得到第二特征图,所述第二特征图包括N个第二通道,每个第二通道分别对应一个第一通道,每个第二通道分别包括一个目标特征值,每个目标特征值是:所述第二网络层对对应的目标特征矩阵进行时序建模得到的,每个目标特征值用于表征对应的目标特征矩阵的上下文特征;根据所述第二特征图,输出语音活动检测类别。2.根据权利要求1所述的方法,其特征在于,在所述获取目标音频信号的目标音频特征之前,所述方法包括:对第一音频信号进行音频信号预处理,生成M帧第二音频信号,所述M帧第二音频信号中包括所述目标音频信号,M为正整数;分别对所述M帧第二音频信号进行特征提取,得到所述M帧第二音频信号一一对应的M个第一音频特征;所述获取目标音频信号的目标音频特征,包括:根据所述M个第一音频特征中的X个第一音频特征,生成所述目标音频特征,X为小于或等于M的正整数;其中,所述X个第一音频特征中包括:所述目标音频信号的第一音频特征、Y个第一音频特征,Y为小于X的正整数;所述Y个第一音频特征包括以下至少一项:所述M帧第二音频信号中的所述目标音频信号的前i帧音频信号、所述M帧第二音频信号中的所述目标音频信号的后j帧音频信号,i为正整数,j为大于或等于0的整数。3.根据权利要求1所述的方法,其特征在于,所述第一网络层包括:卷积神经网络CNN层;所述将所述目标音频特征输入至目标模型的第一网络层,得到第一特征图,包括:将所述目标音频特征输入至所述CNN层,得到第三特征图,所述第三特征图包括Q个第三通道,每个第三通道分别包括一个第一特征矩阵,每个第一特征矩阵是:所述CNN层对所述目标音频特征进行卷积运算得到的,Q为大于1的正整数;根据所述第三特征图,得到所述第一特征图。4.根据权利要求3所述的方法,其特征在于,所述第一网络层还包括:依次连接的至少一个残差网络层;所述根据所述第三特征图,得到所述第一特征图,包括:将所述第三特征图输入至所述至少一个残差网络层,得到所述第一特征图;其中,所述第一特征图是:所述至少一个残差网络层依次对所述第三特征图进行运算得到的;每个残差网络层的网络超参数不同。5.根据权利要求4所述的方法,其特征在于,第一残差网络层包括:残差网络和压缩与激励SE单元;所述第一残差网络层为:所述至少一个残差网络层中的任意一个;
所述将所述第三特征图输入至所述至少一个残差网络层,得到所述第一特征图包括:将第四特征图输入至所述残差网络,得到第五特征图,所述第四特征图为:所述至少一个残差网络层中的所述第一残差网络层的上一个残差网络层输出的特征图;将所述第五特征图输入至所述SE单元,得到第一权值,所述第一权值包括:所述第五特征图包括的每个通道对应的第二权值,每个第二权值用于表征对应的通道对音频信号进行分类的权重;根据所述第五特征图和所述第一权值,生成第六特征图;根据所述第四特征图和所述第六特征图,得到并输出第七特征图,所述第七特征图为:所述至少一个残差网络层中的所述第一残差网络层的下一个残差网络层输入的特征图。6.根据权利要求5所述的方法,其特征在于,所述第五特征图包括Z个第四通道,每个第四通道分别包括一个第二特征矩阵,每个第二特征矩阵是:所述残差网络对所述第四特征图进行运算得到的;所述SE单元包括:相互连接的第一池化层和全连接层;Z为大于1的正整数;所述将所述第五特征图输入至所述SE单元,得到第一权值,包括:将Z个第二特征矩阵输入至所述第一池化层,得到Z个第一特征值,每个第一特征值是:所述第一池化层对一个第二特征矩阵进行运算得到的;将所述Z个第一特征值输入至所述全连接层,得到Z个第二权值,每个第二权值是:所述全连接层对一个第一特征值进行运算得到的,所述第一权值包括所述Z个第二权值。7.根据权利要求1所述的方法,其特征在于,所述第二网络层包括:长短期记忆网络LSTM层;所述将所述第一特征图输入至所述目标模型的第二网络层,得到第二特征图,包括:将N个第三特征值输入至所述LSTM层,得到N个目标特征值,每个目标特征值是:所述LSTM层对一个第三特征值进行时序建模得到的;其中,所述N个第三特征值和N个目标特征矩阵一一对应,每个第三特征值是:对对应的目标特征矩阵进行特征聚集处理得到的。8.根据权利要求7所述的方法,其特征在于,所述第二网络层还包括:第二池化层;在所述将N个第三特征值输入至所述LSTM层,得到N个目标特征值之前,所述方法还包括:将所述N个目标特征矩阵输入至所述第二池...

【专利技术属性】
技术研发人员:张勇
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1