音频处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:31227387 阅读:18 留言:0更新日期:2021-12-08 09:36
本公开实施例公开了一种音频处理方法、装置、电子设备和可读存储介质。该音频处理方法包括:获取第一麦克风采集的第一音频数据和第二麦克风采集的与所述第一音频数据相对应的第二音频数据;确定所述第一音频数据和所述第二音频数据的主音源方位;基于所述第一音频数据、第二音频数据以及所述主音源方位确定目标噪音比,所述目标噪音比表示所述第一音频数据和所述第二音频数据各自的期望信号能量与非期望信号能量的比值;以及,基于所述目标噪音比,对所述第一音频数据和/或第二音频数据进行滤波并基于滤波后的第一音频数据和/或第二音频数据获取目标音频数据,提升了噪音参数的估计准确率,从而可以更好地从环境中提取期望音源的信号。音源的信号。音源的信号。

【技术实现步骤摘要】
音频处理方法、装置、电子设备及可读存储介质


[0001]本公开涉及计算机
,具体涉及一种音频处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]在拍摄视频、录音、进行语音通话或远程会议时,麦克风所接收到的信号是期望信号与非期望噪音信号叠加的结果。实际环境常常伴随着各种不同类型的噪音,有稳态的高斯白噪声,也有非稳态的噪声,如食堂,超市,餐厅等声音场所,环境声音组成比较复杂,导致接收到的声音往往非常嘈杂,影响听音感受,严重的情况下期望的声音甚至会被噪音掩蔽,无法获取期望的语音内容。
[0003]音频降噪的基本思想都是采用谱减法,内置许多不同环境下的背景噪音样本,计算匹配最相似的噪音样本,来应对不同的实际环境。但对于非稳态噪音抑制效果很弱。双麦克风阵列可以定位音源,通过波束成形来提取期望位置的音源,可以在一定程度上抵消环境噪音,但是在混响较大或嘈杂环境的中提取效果较差,还是需要借助谱减法达到最终降噪的目的,并且,该方法在嘈杂环境中定位到目标音源位置不准直接影响了噪音参数估计,可能会出现误判,造成期望语音较大的失真,影响听音感受。

技术实现思路

[0004]为了解决相关技术中的问题,本公开实施例提供一种音频处理方法、装置、电子设备及可读存储介质。
[0005]第一方面,本公开实施例中提供了一种音频处理方法。
[0006]具体地,所述音频处理方法,包括:
[0007]获取第一麦克风采集的第一音频数据和第二麦克风采集的与所述第一音频数据相对应的第二音频数据;/>[0008]确定所述第一音频数据和所述第二音频数据的主音源方位,所述主音源方位包括对所述第一音频数据和所述第二音频数据定位出的多个音源方位中概率符合预设条件的音源方位;
[0009]基于所述第一音频数据、第二音频数据以及所述主音源方位确定目标噪音比,所述目标噪音比表示所述第一音频数据和所述第二音频数据各自的期望信号能量与非期望信号能量的比值;以及
[0010]基于所述目标噪音比,对所述第一音频数据和/或第二音频数据进行滤波并基于滤波后的第一音频数据和/或第二音频数据获取目标音频数据。
[0011]结合第一方面,本公开在第一方面的第一种实现方式中,所述方法还包括:
[0012]在确定目标噪音比之前,获取所述第一音频数据的频谱和所述第二音频数据的频谱。
[0013]结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述
基于所述第一音频数据、第二音频数据以及所述主音源方位确定目标噪音比,包括:
[0014]针对指定频点,确定所述第一音频数据的频谱与所述第二音频数据的频谱之间的相关函数;
[0015]基于所述相关函数和主音源方位确定所述指定频点的目标噪音比。
[0016]结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述基于所述相关函数和主音源方位确定所述指定频点的目标噪音比,包括:
[0017]确定所述相关函数的实部的期望信号成分表示和非期望信号成分表示;
[0018]确定所述相关函数的虚部的期望信号成分表示和非期望信号成分表示;
[0019]基于所述相关函数的实部的期望信号成分表示和非期望信号成分表示、所述相关函数的虚部的期望信号成分表示和非期望信号成分表示,和所述主音源方位,确定所述指定频点的目标噪音比。
[0020]结合第一方面的第二种实现方式,本公开在第一方面的第四种实现方式中,所述基于所述第一音频数据、第二音频数据以及所述主音源方位确定目标噪音比,还包括获取所述频谱中各个频点的目标噪音比。
[0021]结合第一方面的第一种实现方式,本公开在第一方面的第五种实现方式中,所述基于所述目标噪音比,对所述第一音频数据和第二音频数据进行滤波并基于滤波后的第一音频数据和第二音频数据获取目标音频数据,包括:
[0022]基于所述目标噪音比,对所述第一音频数据的频谱和所述第二音频数据的频谱进行滤波;
[0023]从滤波后的第一音频数据的频谱获取所述第一音频数据的时域表示作为第三音频数据,和/或从滤波后的第二音频数据的频谱获取所述第二音频数据的时域表示作为第四音频数据;
[0024]基于所述第三音频数据和/或所述第四音频数据以获取目标音频数据。
[0025]结合第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述基于所述目标噪音比,对所述第一音频数据和第二音频数据进行滤波,包括:
[0026]获取期望音源的方位范围;
[0027]基于所述主音源方位和所述期望音源的方位范围,获取当前音频数据为期望音频数据或非期望音频数据的判断结果,所述当前音频数据为所述第一音频数据或所述第二音频数据;
[0028]基于所述判断结果、所述当前音频数据以及所述目标噪音比更新空域滤波器系数;
[0029]通过更新后的空域滤波器系数对所述当前音频数据滤波。
[0030]结合第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述基于所述判断结果、所述当前音频数据以及所述目标噪音比更新空域滤波器系数,包括:
[0031]在所述当前音频数据为期望音频数据的情况下,基于所述当前音频数据和所述目标噪音比更新所述当前音频数据的全局协方差矩阵;
[0032]在所述当前音频数据为非期望音频数据的情况下,基于所述当前音频数据和所述目标噪音比更新所述当前音频数据的噪音协方差矩阵和所述全局协方差矩阵;
[0033]基于所述噪音协方差矩阵和所述全局协方差矩阵更新空域滤波器系数。
[0034]结合第一方面,本公开在第一方面的第八种实现方式中,所述概率符合预设条件的音源方位,包括概率最大的音源方位。
[0035]第二方面,本公开实施例中提供了一种音频处理装置。
[0036]具体地,所述音频处理装置,包括:
[0037]第一获取模块,被配置为获取第一麦克风采集的第一音频数据和第二麦克风采集的与所述第一音频数据相对应的第二音频数据;
[0038]第一确定模块,被配置为确定所述第一音频数据和所述第二音频数据的主音源方位,所述主音源方位包括对所述第一音频数据和所述第二音频数据定位出的多个音源方位中概率符合预设条件的音源方位;
[0039]第二确定模块,被配置为基于所述第一音频数据、第二音频数据以及所述主音源方位确定目标噪音比,所述目标噪音比表示所述第一音频数据和所述第二音频数据各自的期望信号能量与非期望信号能量的比值;以及
[0040]第二获取模块,被配置为基于所述目标噪音比,对所述第一音频数据和/或第二音频数据进行滤波并基于滤波后的第一音频数据和/或第二音频数据获取目标音频数据。
[0041]结合第二方面,本公开在第二方面的第一种实现方式中,所述装置还包括:
[0042]第三获取模块,被配置为在确定目标噪音比之前,获取所述第一音频数据的频谱和所述第二音频数据的频谱。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:获取第一麦克风采集的第一音频数据和第二麦克风采集的与所述第一音频数据相对应的第二音频数据;确定所述第一音频数据和所述第二音频数据的主音源方位,所述主音源方位包括对所述第一音频数据和所述第二音频数据定位出的多个音源方位中概率符合预设条件的音源方位;基于所述第一音频数据、第二音频数据以及所述主音源方位确定目标噪音比,所述目标噪音比表示所述第一音频数据和所述第二音频数据各自的期望信号能量与非期望信号能量的比值;以及基于所述目标噪音比,对所述第一音频数据和/或第二音频数据进行滤波并基于滤波后的第一音频数据和/或第二音频数据获取目标音频数据。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在确定目标噪音比之前,获取所述第一音频数据的频谱和所述第二音频数据的频谱。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一音频数据、第二音频数据以及所述主音源方位确定目标噪音比,包括:针对指定频点,确定所述第一音频数据的频谱与所述第二音频数据的频谱之间的相关函数;基于所述相关函数和主音源方位确定所述指定频点的目标噪音比。4.根据权利要求3所述的方法,其特征在于,所述基于所述相关函数和主音源方位确定所述指定频点的目标噪音比,包括:确定所述相关函数的实部的期望信号成分表示和非期望信号成分表示;确定所述相关函数的虚部的期望信号成分表示和非期望信号成分表示;基于所述相关函数的实部的期望信号成分表示和非期望信号成分表示、所述相关函数的虚部的期望信号成分表示和非期望信号成分表示,和所述主音源方位,确定所述指定频点的目标噪音比。5.根据权利要求3所述的方法,其特征在于,所述基于所述第一音频数据、第二音频数据以及所述主音源方位确定目标噪音比,还包括:获取所述频谱中各个频点的目标噪音比。6.根据权利要求2所述的方法,其特征在于,所述基于所述目标噪音比,对所述第一音频数据和/或第二音频数据进行滤波并基于滤波后的第一音频数据和/或第二音频数据获取目标音频数据,包括:基于所述目标噪音比,对所述第一音频数据的频谱和/或所述第二音频数据的频谱进行滤波;从滤波后的第一音频数据的频谱获取所述第一音频数据的时域表示作为第三音频数据和/或从滤波后的第二音频数据的频谱获取所述第二音频数据的时域表示作为第四音频数据;基于所述第三音频数据和/或所述第四音频数据以获取目标音频数据。7.根据权利要求6所述的方法,其特征在于,所述基于所述目标噪音比,对所述第一音频数据和第二音频数据进行滤波,包括:
获取期望音源的方位范围;基于所述主音源方位和所述期望音源的方位范围,获取当前音频数据为期望音频数据或非期望音频数据的判断结果,所述当前音频数据为所述第一音频数据或所述第二音频数据;基于所述判断结果、所述当前音频数据以及所述目标噪音比更新空域滤波器系数;通过更新后的空域滤波器系数对所述当前音频数据滤波。8.根据权利要求7所述的方法,其特征在于,所述基于所述判断结果、所述当前音频数据以及所述目标噪音比更新空域滤波器系数,包括:在所述当前音频数据为期望音频数据的情况下,基于所述当前音频数据和所述目标噪音比更新所述当前音频数据的全局协方差矩阵;在所述当前音频数据为非期望音频数据的情况下,基于所述当前音频数据和所述目标噪音比更新所述当前音频数据的噪音协方差矩阵和所述全局协方差矩阵;基于所述噪音协方差矩阵和所述全局协方差矩阵更新空域滤波器系数。9.根据权利要求1所述的方法,其特征在于,所述概率符合预设条件的音源方位,包括概率最大的音源方位。10.一种音频处理方法,其特征在于,包括:获取N个麦克风分别采集的彼此对应的N个音频数据,N≥3;基于所述N个音频数据确定一个或多个音频数据对;对于每个音频数据对,确定所述音频数据对所对应的音频数据的主音源方位,所述主音源方位包括对所述音频数据对定位出的多个音源方位中概率符合预设条件的音源方位;基于所述音频数据对所对应的音频数据以及所述主音源方位确定目标噪音比,所述目标噪音比表示所述音频数据对所对应的音频数据各自的期望信号能量与非期望信号能量的比值;基于所述目标噪音比,对所述音频数据对所对应的音频数据进行滤波以获取滤波后的音频数据;基于从所述一个或多个音频数据对获取的所述滤波后的音频数据确定目标音频数据。11.根据权利要求10所述的方法,其特征在于,所述基于所述多个音频数据确定一个或多个音频数据对包括:根据所述N个麦克风的位置关系,确定所述一个或多个音频数据对;或者将所述多个音频数据中的任意两个音频数据组成音频数据对。12.根据权利要求11所述的方法,其特征在于,所述根据所述N个麦克风的位置关系,确定所述一个或多个音频数据对包括:若所述N个麦克风以线性方式布置,则选择距离所述N个麦克风构成的阵列的几何中心点最近的两个麦克风对应的音频数据组成音频数据对。13.根据权利要求10所述的方法,其特征在于,所述基于从所述一个或多个音频数据对获取的所述滤波后的音频数据确定目标音频数据,包括:通过对从所述一个或多个音频数据对获取的所述滤波后的音频数据进行加权求和以获取目标音频数据;或者在从所述一个或多个音频数据对获取的所述滤波后的音频数据中,选择与预设位置的麦克风相对应的滤波后的音频数据作为目标音频数据。
14.根据权利要求10所述的方法,其特征在于,所述概率符合预设条件的音源方位,包括概率最大的音源方位。15.一种音频处理装置,其特征在于,包括:第一获取模块,被配置为获取第一麦克风采集的第一音频数据和第二麦克风采集的与所述第一音频数据相对应的第二音频数据;第一确定模块,被配置为确定所述第一音频数据和所述第二音频数据的主音源...

【专利技术属性】
技术研发人员:方博伟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1