【技术实现步骤摘要】
本专利技术属于语音处理,具体涉及一种个性化ambisonics语音增强方法。
技术介绍
1、语音识别需要清晰的唤醒者的语音信号,在空间音频场景下,ambisonics语音信号除了被环境噪声影响,还会被其他非唤醒者的声音干扰,导致语音识别效果不佳。在语音增强环境下称说唤醒语音的人为目标说话人,因为目标是增强该说话人的声音,其他对语音识别有影响的说话人称为非目标说话人,目标是将其和环境噪声一起消除,非目标说话人声音称之为前景干扰。解决个性化语音增强问题的一种方法是首先在嘈杂的音频上应用语音分离系统,以便将声音从不同的说话者中分离出来。因此,如果噪声信号包含n个说话者,这种方法将产生n个输出,并具有环境噪声的潜在额外输出。经典语音分离任务需要解决两个主要问题,首先,识别记录中的说话者数量n,在实际场景中是未知的。其次,语音分离系统的优化可能需要对说话人标签的排列保持不变,因为说话人的顺序在训练过程中不应该产生影响。随着计算水平的高速发展,深度学习表现出不俗的能力。深度聚类、深度吸引子网络和置换不变训练等是利用深度神经网络来解决这些问题的。
...【技术保护点】
1.一种个性化Ambisonics语音增强方法,其特征在于,包括:获取待增强的语音数据,对待增强的语音数据提取LogMel频谱图,并对待增强的语音数据进行短时傅里叶变换;训练说话人编码器以及时域掩码系统,其中时域掩码系统包括复数特征编码器、LSTM网络以及FCN网络;
2.根据权利要求1所述的一种个性化Ambisonics语音增强方法,其特征在于,提取LogMel频谱图包括:将原始的音频信号进行重采样以及分帧处理;对每一帧的音频信号进行快速傅里叶变换,得到频域信息;使用Mel滤波器组对频域信息进行加权,得到每个Mel频率段的能量;将每个Mel频率段的能量取
...【技术特征摘要】
1.一种个性化ambisonics语音增强方法,其特征在于,包括:获取待增强的语音数据,对待增强的语音数据提取logmel频谱图,并对待增强的语音数据进行短时傅里叶变换;训练说话人编码器以及时域掩码系统,其中时域掩码系统包括复数特征编码器、lstm网络以及fcn网络;
2.根据权利要求1所述的一种个性化ambisonics语音增强方法,其特征在于,提取logmel频谱图包括:将原始的音频信号进行重采样以及分帧处理;对每一帧的音频信号进行快速傅里叶变换,得到频域信息;使用mel滤波器组对频域信息进行加权,得到每个mel频率段的能量;将每个mel频率段的能量取对数,得到logmel频谱图;对logmel频谱图进行归一化处理。
3.根据权利要求1所述的一种个性化ambisonics语音增强方法,其特征在于,logmel频谱图输入到说话人编码器进行处理包括:将语音信号通过stft变换到频域,其表达式为:
4.根据权利要求1所述的一种个性化ambisonics语音增强方法,其特征在于,语音数据进行短时傅里叶变换公式为:
5.根据权利要求1所述的一种个性化ambisonics语音增强方法,其特征在于,短时傅里叶变换后的信号输入到复数特征编码器进行...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。