一种语音增强方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：33637584 阅读：23 留言：0更新日期：2022-06-02 01:52

本申请实施例属于人工智能领域，涉及一种语音增强方法、装置、计算机设备及存储介质，所述方法包括获取待增强语音数据，所述待增强语音数据包括多个声道语音数据,每个所述声道语音数据均携带有对应的声道空间信息；将所述多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行独立编码处理后，基于每个声道语音数据对应的声道空间信息，在所述编辑器模块的跨声道注意力块中进行降噪处理，以得到所述多个声道语音数据对应的多个声道语音目标特征图；将所述多个声道语音目标特征图输入所述目标全卷积网络中的解码模块进行解码融合，得到增强后的目标语音数据。本申请能够提高语音增强算法的鲁棒性。能够提高语音增强算法的鲁棒性。能够提高语音增强算法的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音增强方法、装置、计算机设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及语音增强方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着语音增强领域不断发展，语音增强受到了越来越多的关注。语音增强是语音识别，情绪识别等噪音的关键点。随着深度学习的发展，依赖于数据的语音增强方法在使用单个麦克风时取得了突破。在大多数单通道方法中，首先将语音信号变换到频域，然后估计时频掩模，以确定每个掩膜的降噪量。然而，这种方法在相位谱估计和在低信噪比环境下表现不佳。一些方案估计了复杂域内的时频掩码，但网络不易训练。当处理多麦克风场景时，麦克风之间存在空间信息，可以利用空间信息进一步提高语音增强算法的性能。统计方法如波束形成和多通道维纳滤波首先估计麦克风之间的到达方向，然后利用线性滤波器增强来自估计源方向的输入信号，衰减来自其他方向的干扰。虽然这些方法快速且轻量级，但它们在恶劣的环境中，性能和鲁棒性并不可靠。

技术实现思路

[0003]本申请实施例的目的在于提出一种语音增强方法、装置、计算机设备及存储介...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法，其特征在于，包括下述步骤：获取待增强语音数据，所述待增强语音数据包括多个声道语音数据,每个所述声道语音数据均携带有对应的声道空间信息；将所述多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行独立编码处理后，基于每个声道语音数据对应的声道空间信息，在所述编辑器模块的跨声道注意力块中进行降噪处理，以得到所述多个声道语音数据对应的多个声道语音目标特征图；将所述多个声道语音目标特征图输入所述目标全卷积网络中的解码模块进行解码融合，得到增强后的目标语音数据。2.根据权利要求1所述的语音增强方法，其特征在于，所述编码器模块包括多个声道编码器以及设置在多个声道编码器之间的跨声道注意力块，每个声道编码器均采用独立信道的频谱估计编码体系结构；所述将所述多个声道语音数据输入目标全卷积网络的编辑器模块中的声道编码器进行独立编码处理后，基于每个声道语音数据对应的声道空间信息，在所述编辑器模块的跨声道注意力块中进行降噪处理，以得到所述多个声道语音数据对应的多个声道语音目标特征图，包括：将所述多声道语音数据分别输入所述多个声道编码器中进行独立编码，得到多个声道语音特征图；基于每个声道语音数据对应的声道空间信息，将所述多个声道语音特征图输入所述跨声道注意力块中进行信息交换；根据信息交换结果计算通道掩膜，根据所述通道掩膜对所述多个声道语音特征图进行降噪，以得到多个声道语音目标特征图。3.根据权利要求2所述的语音增强方法，其特征在于，所述基于每个声道语音数据对应的声道空间信息，将所述多个声道语音特征图输入所述跨声道注意力块中进行信息交换，包括：将所述多个声道语音特征图中任意一个声道语音特征图作为参考声道语音特征图；将所述参考声道语音特征图，分别通过所述跨声道注意力块与所述多个声道语音特征图中，除了所述参考声道语音特征图以外的声道语音特征图进行信息交换。4.根据权利要求2所述的语音增强方法，其特征在于，所述通道掩膜的计算公式为：其中，M
l
表示掩膜，表示声道一的输入经过第一卷积层，表示第一卷积层的卷积核大小，表示的是声道二的输入经过第二卷积层，表示第二卷积层的卷积核大小，tanh和σ
α,β
为激活函数，表示...

【专利技术属性】
技术研发人员：张之勇，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人