音频信号处理方法、装置、设备及存储介质制造方法及图纸

技术编号：37781726 阅读：22 留言：0更新日期：2023-06-09 09:12

本公开涉及一种音频信号处理方法、装置、设备及存储介质。本公开通过对所述原始音频信号对应的第一复数频谱图进行编码，得到第一特征图，并对所述第一特征图对应的时间序列和频率序列分别进行处理，得到第二特征图，根据所述第二特征图，同时学习复数比率掩蔽和复数频谱映射。从而使用掩蔽预测和频谱预测相结合的方式，对原始音频信号的幅度谱和相位同时进行增强，从而提高了语音增强效果。通过语音增强可以极大地提升语音质量，解决噪声干扰问题，提升语音识别效果。提升语音识别效果。提升语音识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
音频信号处理方法、装置、设备及存储介质

[0001]本公开涉及信息
，尤其涉及一种音频信号处理方法、装置、设备及存储介质。

技术介绍

[0002]目前的语音增强技术包括去噪声、响度增强、回声消除、去混响等方面的技术。
[0003]但是，采用目前的语音增强技术对音频信号进行语音增强后，无法获得较好的降噪结果。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种音频信号处理方法、装置、设备及存储介质，以解决噪声干扰问题，提升语音识别效果。
[0005]第一方面，本公开实施例提供一种音频信号处理方法，包括：
[0006]获取原始音频信号；
[0007]对所述原始音频信号对应的第一复数频谱图进行编码，得到第一特征图；
[0008]对所述第一特征图对应的时间序列和频率序列分别进行处理，得到第二特征图；
[0009]根据所述第二特征图，预测复数比率掩蔽和复数频谱映射；
[0010]根据所述复数比率掩蔽和所述复数频谱映...

【技术保护点】

【技术特征摘要】
1.一种音频信号处理方法，其中，所述方法包括：获取原始音频信号；对所述原始音频信号对应的第一复数频谱图进行编码，得到第一特征图；对所述第一特征图对应的时间序列和频率序列分别进行处理，得到第二特征图；根据所述第二特征图，预测复数比率掩蔽和复数频谱映射；根据所述复数比率掩蔽和所述复数频谱映射，生成第二复数频谱图，并根据所述第二复数频谱图生成语音增强后的目标音频信号。2.根据权利要求1所述的方法，其中，对所述原始音频信号对应的第一复数频谱图进行编码，包括：采用复数双路径编码器对所述原始音频信号对应的第一复数频谱图进行编码，所述复数双路径编码器包括第一卷积模块、第二卷积模块和第一双路径空洞模块。3.根据权利要求2所述的方法，其中，所述第一卷积模块用于将所述第一复数频谱图从一个特征通道扩展到多个特征通道；所述第二卷积模块用于降低所述第一复数频谱图对应的频率维度；所述第一双路径空洞模块用于在所述第一复数频谱图对应的时间维度和频率维度上分别对所述第一复数频谱图进行特征提取。4.根据权利要求3所述的方法，其中，所述第一双路径空洞模块包括顺序连接的多个双路径块，在所述连接方向上，后一个双路径块的空洞因子是前一个双路径块的空洞因子的2倍。5.根据权利要求4所述的方法，其中，所述多个双路径块中除第一个双路径块之外的其他任一双路径块的输入是所述第一个双路径块的输入和所述任一双路径块的上一个双路径块的输出的拼接结果。6.根据权利要求1所述的方法，其中，对所述第一特征图对应的时间序列和频率序列分别进行处理，包括：将所述第一特征图调整为时间序列；通过时间转换器采用自注意力机制对所述时间序列进行处理，得到所述时间转换器的输出；根据所述时间转换器的输出，获得频率序列；通过频率转换器采用自注意力机制对所述频率序列进行处理，得到所述频率转换器的输出。7.根据权利要求6所述的方法，其中，根据所述时间转换器的输出，获得频率序列，包括：将所述时间转换器的输出和所述时间转换器的输入进行连接，得到第一连接结果；对所述第一连接结果进行调整，获得所述频率序列；相应的，通过频率转换器采...

【专利技术属性】
技术研发人员：赵胜奎，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人