一种音频中节拍器噪声抑制方法及系统技术方案

技术编号:31505341 阅读:14 留言:0更新日期:2021-12-22 23:35
本发明专利技术公开了一种音频中节拍器噪声抑制方法及系统,所述方法包括:获取节拍器空响音频,对获取的所述音频进行短时傅里叶变换和时频谱矩阵处理得到节拍器词典和节拍器词典的激活权重;获取待处理的音频信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱并对幅度谱进行归一化;对待处理的音频信号进行声源分离,利用得到的幅度谱和相位谱分别重建得到节拍器时域信号和乐器音频时域信号。本发明专利技术实现了对节拍器噪声的抑制,提高了降噪的效果,在降噪的同时保证乐器演奏音频的音质,从而可以提升各类算法在包含节拍器噪声下的运行效果。行效果。行效果。

【技术实现步骤摘要】
一种音频中节拍器噪声抑制方法及系统


[0001]本专利技术涉及音频信号处理
,更具体地,涉及一种音频中节拍器噪声抑制方法及系统。

技术介绍

[0002]近年来越来越多的信息技术应用于音乐教育领域,给人们在音乐学习的过程中带来了很大的便利,例如:远程视频上课、旋律检索、练琴时长统计、乐器智能陪练等。
[0003]在学习/练习乐器的过程中节拍器扮演着非常重要的角色,它能帮助人们很好地建立节奏感提升演奏效果,几乎所有学习过乐器的人都使用过它。节拍器的种类主要包含电子节拍器和机械节拍器,节拍器的音色千差万别,例如:带重拍的机械节拍器、人声节拍器、带音高的电子节拍器等等。
[0004]然而在基于信号处理或深度学习算法的智能评测或其他场景中,节拍器是一种噪声,它的存在会严重影响这些算法的性能,例如:乐谱跟随算法、音高估计算法、音视频通话的回声消除/降噪算法等,受到强节拍器噪声的影响会导致乐谱跟随的光标在乐谱上乱跳,音高估计不准,音视频通话中音质失真等严重问题。尤其在开启同一部终端设备自带的节拍器进行智能评测的时候,由于固体传声能量远大于空气传声,导致终端设备的麦克风收到的节拍器噪声更大,通常比乐器演奏音频的能量高出几十dB;而人们通常喜欢把节拍器开到最大音量,这又会在节拍器信号通过扬声器播放的时候由于超出功率放大器的线性工作区间或麦克风扬声器声学腔体设计缺陷等原因引入非线性失真。因此节拍器噪声具有非线性、高功率、非平稳等特性,这表明基于传统信号处理的自适应滤波和各类降噪方法并不适用于此场景;同时由于节拍器噪声种类五花八门,加上各式各样的房间冲击响应、麦克风的频率响应和使用环境下的背景噪声,导致很难获得如此多的节拍器数据,因此通过数据驱动方式训练的深度神经网络模型的声源分离方法在此场景的应用效果并不理想,模型泛化能力有限。
[0005]现有技术中,公开号为:CN111370019A中国专利技术专利于2020年7月3日公开了一种声源分离方法及装置、神经网络的模型训练方法及装置,方法包括:获取混合音频;确定与混合音频对应的声源标签组;根据声源标签组,确定条件向量组;将条件向量组和混合音频输入至第一神经网络进行声源分离处理以得到目标声源组,其中,目标声源组中的目标声源与条件向量组的条件向量一一对应。该方案利用神经网络进行声源分离,模型泛化能力有限。

技术实现思路

[0006]本专利技术为克服上述现有的在音频中去除节拍器噪声方法效果不理想的缺陷,提供一种音频中节拍器噪声抑制方法及系统。
[0007]本专利技术的首要目的是为解决上述技术问题,本专利技术的技术方案如下:
[0008]本专利技术第一方面提供了一种音频中节拍器噪声抑制方法,包括以下步骤:
[0009]S1:获取节拍器空响音频,对获取的所述音频进行短时傅里叶变换和时频谱矩阵处理得到节拍器词典和节拍器词典的激活权重;
[0010]S2:获取待处理的音频信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱并对幅度谱进行归一化;
[0011]S3:对待处理的音频信号进行声源分离,利用得到的幅度谱和相位谱分别重建得到节拍器时域信号和乐器音频时域信号。
[0012]进一步地,步骤S1的具体过程为:
[0013]S101,获取节拍器空响音频,将节拍器的空响音频分帧加窗处理并进行短时傅里叶变换;
[0014]S102,将傅里叶变换得到的信号序列归一化处理得到时频谱矩阵;
[0015]S103,对时频谱矩阵利用EM算法进行非负矩阵分解得到节拍器词典w
m
和节拍器词典的激活权重h
m

[0016]进一步地,节拍器信号的幅度谱为:
[0017]M=w
m
*h
m
[0018]乐器信号的幅度谱为:
[0019]I=w
I
*h
I
[0020]其中,w
m
表示节拍器词典,h
m
表示节拍器词典的激活权重,w
I
表示乐器词典,h
I
表示乐器词典的激活权重。
[0021]进一步地,所述待处理的音频信号为实时信号时其处理过程为:
[0022]a1:获取待处理的实时信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱,归一化当前帧的幅度谱,利用幅度谱判断第t帧信号是否为静音帧,若为静音帧则对第t帧信号重建,若为非静音帧则转至步骤a2;
[0023]a2:判断非静音帧包括节拍器还是仅包括乐器帧,若包括节拍器则对该非静音帧进行节拍器分离;若仅包括乐器帧则将该帧存入乐器帧缓冲器中同时学习乐器词典,并将存入的乐器帧替代最老的乐器帧,同时重建该非静音帧的时域信号;
[0024]a3:将包括节拍器的非静音帧进行节拍器和乐器声源分离,分别得到声源分离后的乐器音频的幅度谱;
[0025]a4:将步骤a3得到的乐器音频的d幅度谱进行归一化并结合步骤a1中得到的相位谱进行逆傅里叶变换,重建得到步骤a3所述的非静音帧的乐器音频的时域信号。
[0026]进一步地,步骤a1的具体过程为:
[0027]a101,获取待处理的实时信号进行分帧加窗后并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱;
[0028]a102,对幅度谱进行归一化,计算第t帧信号的能量;
[0029]a103,若第t帧信号的能量小于预设的阈值则判断第t帧信号为静音帧,并利用该帧的相位谱和逆傅里叶变换进行信号重建;
[0030]a104,若第t帧信号的能量大于预设的阈值,则判断第t帧信号为非静音帧并转至步骤a2进行非静音帧处理。
[0031]进一步地,步骤a2的具体过程为:
[0032]a201,利用节拍器字典重建非静音帧的幅度谱记为计算与真实幅度谱之间的
散度;
[0033]a202,若散度小于预设的散度阈值则该非静音帧包含有节拍器并转至步骤a3进行节拍器和声源分离;
[0034]a203,若散度大于预设的散度阈值则该非静音帧仅包含乐器帧将该帧存入乐器帧缓冲器中用于学习乐器词典,并将存入的乐器帧替代最老的乐器帧,同时利用该帧的真实幅度谱和相位谱重建该非静音帧的时域信号。
[0035]进一步地,所述乐器帧缓冲器的长度范围为0.5

2秒。
[0036]进一步地,步骤a3的具体过程为:
[0037]固定上一帧的节拍器词典w
m
和乐器词典w
I
对包含有节拍器的非静音帧进行全监督分离,对该帧信号的幅度谱S进行非负矩阵分解,得到激活权重h
S
,即
[0038]S=w
S
*h
S
[0039]其中,w
S
=[w
m
w
I
],h
S
=[h
m
h
I
],非本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频中节拍器噪声抑制方法,其特征在于,包括以下步骤:S1:获取节拍器空响音频,对获取的所述音频进行短时傅里叶变换和时频谱矩阵处理得到节拍器词典和节拍器词典的激活权重;S2:获取待处理的音频信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱并对幅度谱进行归一化;S3:对待处理的音频信号进行声源分离,利用得到的幅度谱和相位谱分别重建得到节拍器时域信号和乐器音频时域信号。2.根据权利要求1所述一种音频中节拍器噪声抑制方法,其特征在于,步骤S1的具体过程为:S101,获取节拍器空响音频,将节拍器的空响音频分帧加窗处理并进行短时傅里叶变换;S102,将傅里叶变换得到的信号序列归一化处理得到时频谱矩阵;S103,对时频谱矩阵利用EM算法进行非负矩阵分解得到节拍器词典w
m
和节拍器词典的激活权重h
m
。3.根据权利要求2所述的一种音频中节拍器噪声抑制方法,其特征在于,节拍器信号的幅度谱为:M=w
m
*h
m
乐器信号的幅度谱为:I=w
I
*h
I
其中,w
m
表示节拍器词典,h
m
表示节拍器词典的激活权重,w
I
表示乐器词典,h
I
表示乐器词典的激活权重。4.根据权利要求1所述一种音频中节拍器噪声抑制方法,其特征在于,所述待处理的音频信号为实时信号时其处理过程为:a1:获取待处理的实时信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱,归一化当前帧的幅度谱,利用幅度谱判断第t帧信号是否为静音帧,若为静音帧则对第t帧信号重建,若为非静音帧则转至步骤a2;a2:判断非静音帧包括节拍器还是仅包括乐器帧,若包括节拍器则对该非静音帧进行节拍器分离;若仅包括乐器帧则将该帧存入乐器帧缓冲器中同时学习乐器词典,并将存入的乐器帧替代最老的乐器帧,同时重建该非静音帧的时域信号;a3:将包括节拍器的非静音帧进行节拍器和乐器声源分离,分别得到声源分离后的乐器音频的幅度谱;a4:将步骤a3得到的乐器音频的d幅度谱进行归一化并结合步骤a1中得到的相位谱进行逆傅里叶变换,重建得到步骤a3所述的非静音帧的乐器音频的时域信号。5.根据权利要求4所述的一种音频中节拍器噪声抑制方法,其特征在于,步骤a1的具体过程为:a101,获取待处理的实时信号进行分帧加窗后并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱;a102,对幅度谱进行归一化,计算第t帧信号的能量;a103,若第t帧信号的能量小于预设的阈值则判断第t帧信号为静音帧,并利用该帧的
相位谱和逆傅里叶变换进行信号重建;a104,若第t帧信号的能量大于预设的阈值,则判断第t帧信号为非静音帧并转至步骤a2进行非静音帧处理。6.根据权利要求1所述的一种音频中节拍器噪声抑制方法,其特征在于,步骤a2的具体过程为:a201,利用节拍器字典重建非静音帧的幅度谱记为计算与真实幅度谱之间的散度;a202,若散度小于预设的散度阈值则该非静音帧包含有节拍器并转至步骤a3进行节拍器和声源分离;a203,若散度大于预设的散度阈值则该非静音帧仅包含乐器帧将该帧存入乐器帧缓冲器中用于学习乐器词典,并将存入的乐器帧替代最老的乐器帧,同时利用该帧的真实幅度谱和相位谱重建该非静音帧的时域信号。7.根据权利要求4所述的一种音频中节拍器噪声抑制方法,其特征...

【专利技术属性】
技术研发人员:魏新元段志尧何欣燕
申请(专利权)人:深圳市芒果未来科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1