多通道语音增强方法、系统、电子设备和存储介质技术方案

技术编号：35778650 阅读：19 留言：0更新日期：2022-12-01 14:23

本发明专利技术实施例提供一种多通道语音增强方法、系统、电子设备和存储介质。该方法包括：采集多通道语音信号；将多通道语音信号输入至第一信号处理模块，进行声源方向信号增强处理，得到在信噪比低于预设阈值或语音欠定情况下声源方向的频点级的时频掩蔽值；将多通道语音信号以及频点级的时频掩蔽值输入至第二信号处理模块，重建多通道语音信号的相位信息，得到第一增强语音；基于频点级的时频掩蔽值以及第一增强语音增强处理，得到减小失真的第二增强语音。本发明专利技术实施例能够更准确地估计掩蔽值，解决欠定条件下的信号处理，可以更好地实现相位重建，获得更好的降噪水平。获得更好的降噪水平。获得更好的降噪水平。

全部详细技术资料下载

【技术实现步骤摘要】
多通道语音增强方法、系统、电子设备和存储介质

[0001]本专利技术涉及智能语音领域，尤其涉及一种多通道语音增强方法、系统、电子设备和存储介质。

技术介绍

[0002]由于语音的音频质量影响着语音识别结果，为了进一步提升语音识别的准确性，会对采集的音频进行降噪，实现语音增强。由于智能设备搭载的麦克风不同采集的音频也会不同，例如，单麦克风可以采集到单通道语音，而多麦克风阵列可以采集到多通道语音。
[0003]对于单通道语音可以使用单通道传统降噪方法，其基本思路是利用各种各样的方法估计噪声的功率谱，然后利用噪声功率谱估计出滤波器，实现降噪的语音增强目的；
[0004]对于多通道语音可以使用多通道波束形成，依据不同方向到麦克风阵列处的相位差不同，设计滤波器实现方向性降噪；多通道盲源分离利用声源的独立性，推导出使得代价函数最小的滤波器，进行声源分离；神经网络方法通过构造输入和标准答案，让模型自动学习语音内在的联系，达到降噪的目的。
[0005]在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：
[0006]单通道传统降噪方法无法消除人声干扰，音乐，键盘敲桌子等非稳态噪声，神经网络方法可以通过同类训练消除音乐，键盘敲桌子等声音，但是依旧解决不了人声干扰；多通道传统信号处理可以解决人声干扰，但是传统信号处理方法存在噪声抑制不干净问题，低信噪比性能下降明显，且欠定条件下算法失效，欠定问题即声源数大于麦克风数目，神经网络方法存在相位重建困难，模型输出信号失真大问题。
专利技术内...

【技术保护点】

【技术特征摘要】
1.一种多通道语音增强方法，包括：采集多通道语音信号；将所述多通道语音信号输入至第一信号处理模块，进行声源方向信号增强处理，得到在信噪比低于预设阈值或语音欠定情况下所述声源方向的频点级的时频掩蔽值；将所述多通道语音信号以及所述频点级的时频掩蔽值输入至第二信号处理模块，重建所述多通道语音信号的相位信息，得到第一增强语音；基于所述频点级的时频掩蔽值以及所述第一增强语音增强处理，得到减小失真的第二增强语音。2.根据权利要求1所述的方法，其中，所述第一信号处理模块由深度神经网络、循环神经网络、卷积神经网络中之一或多个神经网络组合构建，其中，所述第一信号处理模块输出的声源方向的频点级的时频掩蔽值与和所述声源方向相对应的干扰方向的噪声频点成反比。3.根据权利要求1所述的方法，其中，所述第二信号处理模块由多通道的波束形成模型和/或盲源分离模型构建。4.根据权利要求3所述的方法，其中，当所述第二信号处理模块由多通道的波束形成模型构建时，基于所述频点级的时频掩蔽值的大小控制波束形成滤波器的更新速率，其中，所述频点级的时频掩蔽值的大小与所述滤波器的更新速率成反比，以降低滤波处理的失真。5.一种多通道语音增强系统，包括：语音信号采集程序模块，用于采集多通道语音信号；神经网络处理程序模块，用于将所述多通道语音信号输入至第一信号处理模块，进行声源方向信号增强处理，得到在信噪比低于预设阈值或语音欠定情况下所述声源方向的频点级的时频掩蔽值；信号处理程序模块，用于将所述多通...

【专利技术属性】
技术研发人员：邵雅婷，周强，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人