音频信号处理方法、装置、设备及存储介质制造方法及图纸

技术编号:35844534 阅读:13 留言:0更新日期:2022-12-07 10:23
本公开涉及一种音频信号处理方法、装置、设备及存储介质。该方法包括:接收第一终端发送的第一音频信号;获取第二终端的音频采集装置所采集的第二音频信号;根据所述第一音频信号、所述第二音频信号和预先训练完成的深度学习模型,确定目标音频信号的特征信息,其中,所述第一音频信号和所述第二音频信号用于确定所述深度学习模型的输入信息,所述深度学习模型用于消除回声;根据所述目标音频信号的特征信息确定所述目标音频信号。其可以达到消除近端信号中的回声的目的。其可适用于近端用户和远端用户同时讲话的“双讲”情景,仅远端用户讲话的“单讲”情景,以及仅近端用户讲话的“单讲”情景。情景。情景。

【技术实现步骤摘要】
音频信号处理方法、装置、设备及存储介质


[0001]本公开涉及信息
,尤其涉及一种音频信号处理方法、装置、设备及存储介质。

技术介绍

[0002]随着科技的不断发展,音频通话已成为人们远程沟通所常用的技术手段。在音频通话中,本地方称为近端,通话对方称为远端。远端音频经过本地扬声器播放后再次被本地的收音装置例如麦克风所采集的信号称为回声。
[0003]由于回声对近端信号会产生一定的影响,因此需要消除近端信号中的回声。但是,在近端用户和远端用户同时讲话的“双讲”情景。下,回声消除的效果不佳。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种音频信号处理方法、装置、设备及存储介质。
[0005]第一方面,本公开实施例提供一种音频信号处理方法,所述方法包括:
[0006]接收第一终端发送的第一音频信号;
[0007]获取第二终端的音频采集装置所采集的第二音频信号;
[0008]根据所述第一音频信号、所述第二音频信号和预先训练完成的深度学习模型,确定目标音频信号的特征信息,其中,所述第一音频信号和所述第二音频信号用于确定所述深度学习模型的输入信息,所述深度学习模型用于消除回声;
[0009]根据所述目标音频信号的特征信息确定所述目标音频信号。
[0010]第二方面,本公开实施例提供一种模型训练方法,所述方法包括:
[0011]获取第一样本音频、第二样本音频和噪声样本音频;
[0012]根据所述第一样本音频确定回声样本音频;
[0013]将所述回声样本音频、所述第二样本音频和所述噪声样本音频进行混合处理,得到混合音频;
[0014]根据所述第一样本音频、所述第二样本音频和所述混合音频,对深度学习模型进行训练,所述深度学习模型用于消除回声。
[0015]第三方面,本公开实施例提供一种电子设备,包括:
[0016]存储器;
[0017]处理器;以及
[0018]计算机程序;
[0019]其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
[0020]第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
[0021]本公开实施例提供的音频信号处理方法、装置、设备及存储介质,其实质是将第一音频信号(即远端音频信号)和第二音频信号(即近端音频信号)作为输入信息,输入到预先训练完成的具有消除回声功能的深度学习模型,以对第二音频信号中的回声进行滤除,进而达到消除近端信号中的回声的目的。其可适用于近端用户和远端用户同时讲话的“双讲”情景,仅远端用户讲话的“单讲”情景,以及仅近端用户讲话的“单讲”情景。
附图说明
[0022]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0023]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本公开实施例提供的音频信号处理方法的流程图;
[0025]图2为采用图1中的方法进行音频信号处理的过程中信号的流转图;
[0026]图3为本公开实施例给出的一种用于实现S130的方法的流程图;
[0027]图4为采用图3中的方法进行音频信号处理的过程中的信号流转图;
[0028]图5为本公开实施例提供的另一种进行音频信号处理的过程中信号的流转图;
[0029]图6为本公开实施例提供的一种模型训练方法的流程图;
[0030]图7为采用图6中的方法进行模型训练的过程中信号的流转图
[0031]图8为本公开实施例给出的一种用于实现S240的方法的流程图;
[0032]图9为采用图8中的方法进行模型训练的过程中信号的流转图;
[0033]图10为本公开实施例提供的另一种音频信号处理方法的流程图;
[0034]图11为使用图10中提供的方法进行远程网络教学的场景示意图;
[0035]图12为本公开实施例提供的另一种音频信号处理方法的流程图;
[0036]图13为使用图12中提供的方法进行远程音视频会议的场景示意图;
[0037]图14为本公开实施例提供的音频信号处理装置的结构示意图;
[0038]图15为本公开实施例提供的模型训练装置的结构示意图;
[0039]图16为本公开实施例提供的电子设备实施例的结构示意图。
具体实施方式
[0040]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0041]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0042]通常情况下,回声对近端信号会产生一定的影响,因此需要消除近端信号中的回声。但是,目前,在近端用户和远端用户同时讲话的“双讲”情景下,回声消除的效果不佳。针对该问题,本公开实施例提供了一种音频信号处理方法,下面结合具体的实施例对该方法
进行介绍。
[0043]图1为本公开实施例提供的音频信号处理方法的流程图。图2为采用图1中的方法进行音频信号处理的过程中信号的流转图。本实施例可适用于客户端中进行音频信号处理的情况,该方法可以由音频信号处理装置执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于电子设备中,例如终端,具体包括手机、电脑或平板电脑等。另外,本实施例的音频信号处理方法可以适用于第一终端和第二终端进行音频通话的应用情景。示例性地,第一终端和第二终端利用钉音视频会议功能或阿里云音视频通话功能进行通话。或者,第一终端和第二终端基于移动通信网络进行通话。如图1和图2所示,该方法具体步骤如下:
[0044]S110、接收第一终端发送的第一音频信号。
[0045]其中,第一终端为音频通话中,通话对方所使用的终端,即远端设备。
[0046]第一音频信号是指,远端向近端发送的音频信号。
[0047]S120、获取第二终端的音频采集装置所采集的第二音频信号。
[0048]第二终端为音频通话中,本地方所使用的终端,即近端设备。
[0049]音频采集装置是指可以进行音频信号采集的装置,示例性地,音频采集装置可以为设置于第二终端上的麦克风。
[0050]第二音频信号为安装在近端设备的音频采集装置所采集的音频信号。可选地,第二音频信号包括回声音频信号和用户音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频信号处理方法,其中,所述方法包括:接收第一终端发送的第一音频信号;获取第二终端的音频采集装置所采集的第二音频信号;根据所述第一音频信号、所述第二音频信号和预先训练完成的深度学习模型,确定目标音频信号的特征信息,其中,所述第一音频信号和所述第二音频信号用于确定所述深度学习模型的输入信息,所述深度学习模型用于消除回声;根据所述目标音频信号的特征信息确定所述目标音频信号。2.根据权利要求1所述的方法,其中,根据所述第一音频信号、所述第二音频信号和预先训练完成的深度学习模型,确定目标音频信号的特征信息,包括:对所述第一音频信号和所述第二音频信号进行延迟对齐,得到延迟对齐后的第一音频信号和延迟对齐后的第二音频信号;根据所述延迟对齐后的第一音频信号和所述延迟对齐后的第二音频信号,确定所述深度学习模型的第一输入信息和第二输入信息;将所述第一输入信息和所述第二输入信息输入到所述深度学习模型,根据所述深度学习模型得到所述目标音频信号的特征信息。3.根据权利要求2所述的方法,其中,根据所述延迟对齐后的第一音频信号和所述延迟对齐后的第二音频信号,确定所述深度学习模型的第一输入信息和第二输入信息,包括:将所述延迟对齐后的第一音频信号的特征信息作为所述第一输入信息;或者对所述延迟对齐后的第一音频信号进行线性回声消除处理,得到第三音频信号,所述第三音频信号的特征信息为所述第一输入信息;将所述延迟对齐后的第二音频信号的特征信息作为所述第二输入信息;或者对所述延迟对齐后的第二音频信号进行线性回声消除处理,得到第四音频信号,所述第四音频信号的特征信息为所述第二输入信息。4.根据权利要求3所述的方法,其中,所述目标音频信号的特征信息包括所述目标音频信号的频谱掩码;根据所述目标音频信号的特征信息确定所述目标音频信号,包括:对所述第四音频信号进行时频变换,得到所述第四音频信号对应的频谱;根据所述目标音频信号的频谱掩码和所述第四音频信号对应的频谱,确定所述目标音频信号对应的频谱;对所述目标音频信号对应的频谱进行时频逆变换,得到所述目标音频信号;或者,根据所述目标音频信号的特征信息确定所述目标音频信号,包括:对所述延迟对齐后的第二音频信号进行时频变换,得到所述延迟对齐后的第二音频信号对应的频谱;根据所述目标音频信号的频谱掩码和所述延迟对齐后的第二音频信号对应的频谱,确定所述目标音频信号对应的频谱;对所述目标音频信号对应的频谱进行时频逆变换,得到所述目标音频信号。5.根据权利要求1所述的方法,其中,所述深度学习模型还用于抑制噪声;或/及所述第二音频信号包括回声音频信号、用户音频信号以及环境噪声信号。6.一种模型训练方法,其中,所述方法包括:获取第一样本音频、第二样本音频和噪声样本音频;根据所述第一样本音频确定回声样本音频;
将所述回声样本音频、所述第二样本音频和所述噪声样本音频进行混合处理,得到混合音频;根据所述第一样本音频、所述第二样本音频和所述混合音频,对深度学习模型进行训练,所述深度学习模型用于消除回声。7.根据权利要求6所述的方法,其中,根据所述第一样本音频确定回声样本音频,包括:根据所述第一样本音频和房间冲击响应确定所述回声样本音频;进一步地,根据所述第一样本音频、所述第二样本音频和所述混合音频,对深度学习模型进行训练,包括:根据所述第一样本音频和所述混合音频确定所述深度学习模型的第一输入样本和第二输入样本;将所述第一输入样本和所述第二输入样本输入到所述深度学习模型,根据所述...

【专利技术属性】
技术研发人员:王子腾纳跃跃刘章田彪付强
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1