音频处理方法、相关设备、存储介质及程序产品技术

技术编号:30707106 阅读:31 留言:0更新日期:2021-11-06 09:55
本发明专利技术实施例公开了一种音频处理方法、相关设备、存储介质及程序产品,其中方法包括:获取待处理的目标音频数据及所述目标音频数据的频谱信息,所述目标音频数据中存在音频缺失片段,所述频谱信息包括所述音频缺失片段的上下文音频片段的频谱特征;根据所述上下文音频片段的频谱特征,对所述目标音频数据的频谱信息进行特征补偿处理,得到所述目标音频数据对应的补偿频谱信息;采用所述补偿频谱信息进行音频预测,得到预测音频数据;根据所述预测音频数据对目标音频数据中的所述音频缺失片段进行补偿,得到所述目标音频数据的补偿音频数据,可提升对丢包音频进行预测补偿时的准确性。性。性。

【技术实现步骤摘要】
音频处理方法、相关设备、存储介质及程序产品


[0001]本申请涉及计算机
,尤其涉及一种音频处理方法、相关设备、存储介质及程序产品。

技术介绍

[0002]随着计算机网络技术的不断深入发展,音频数据在基于互联网将进行传输的过程中,通常会发生丢包现象,从而导致发送音频中的部分音频数据无法被接收端接收,从而影响用户的听音体验。而当前进行丢包音频进行补偿恢复的方法,通常是采用自回归的迭代预测方式,即基于上一个采样点对下一个采样点进行依次预测的方法,而由于在进行迭代预测的过程中,误差将不断累积,因此,如何提升对丢包音频进行预测补偿后得到的音频数据的准确性成为了当前的研究热点。

技术实现思路

[0003]本专利技术实施例提供了一种音频处理方法、相关设备、存储介质及程序产品,可提升对丢包音频进行预测补偿时的准确性。
[0004]一方面,本专利技术实施例提供了一种音频处理方法,包括:获取待处理的目标音频数据及所述目标音频数据的频谱信息,所述目标音频数据中存在音频缺失片段,所述频谱信息包括所述音频缺失片段的上下文音频片段的频谱特征;根据所述上下文音频片段的频谱特征,对所述目标音频数据的频谱信息进行特征补偿处理,得到所述目标音频数据对应的补偿频谱信息;采用所述补偿频谱信息进行音频预测,得到预测音频数据;根据所述预测音频数据对目标音频数据中的所述音频缺失片段进行补偿,得到所述目标音频数据的补偿音频数据。
[0005]再一方面,本专利技术实施例提供了一种音频处理装置,包括:获取单元,用于获取待处理的目标音频数据及所述目标音频数据的频谱信息,所述目标音频数据中存在音频缺失片段,所述频谱信息包括所述音频缺失片段的上下文音频片段的频谱特征;处理单元,用于根据所述上下文音频片段的频谱特征,对所述目标音频数据的频谱信息进行特征补偿处理,得到所述目标音频数据对应的补偿频谱信息;预测单元,用于采用所述补偿频谱信息进行音频预测,得到预测音频数据;所述处理单元,还用于根据所述预测音频数据对目标音频数据中的所述音频缺失片段进行补偿,得到所述目标音频数据的补偿音频数据。
[0006]再一方面,本专利技术实施例提供了一种计算机设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持该计算机设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处
理器被配置用于调用所述程序指令,执行如下步骤:获取待处理的目标音频数据及所述目标音频数据的频谱信息,所述目标音频数据中存在音频缺失片段,所述频谱信息包括所述音频缺失片段的上下文音频片段的频谱特征;根据所述上下文音频片段的频谱特征,对所述目标音频数据的频谱信息进行特征补偿处理,得到所述目标音频数据对应的补偿频谱信息;采用所述补偿频谱信息进行音频预测,得到预测音频数据;根据所述预测音频数据对目标音频数据中的所述音频缺失片段进行补偿,得到所述目标音频数据的补偿音频数据。
[0007]再一方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时,所述程序指令被处理器执行时,用于执行如第一方面所述的音频处理方法。
[0008]在本申请实施例中,计算机设备可在获取到存在音频缺失片段的目标音频数据后,获取该目标音频数据的频谱信息,从而可基于该频谱信息中所包括的音频缺失片段的上下文音频片段的频谱特征,对该频谱信息进行特征补偿处理,从而得到该目标音频数据的补偿频谱信息,从而使得计算机设备可通过对该补偿频谱信息的识别,获得该目标音频数据的较多频谱信息。此外,该计算机设备在获得补偿频谱信息后,可采用该补偿频谱信息进行音频预测,得到预测音频数据,从而可采用该预测音频数据和该目标音频数据,对该目标音频数据中的音频缺失片段进行补偿,从而得到该目标音频数据的补偿音频数据,由于该计算机设备在对该音频缺失片段进行预测补偿时,是通过整体的上下文音频片段的频谱信息进行预测补偿的,从而使计算机设备实现了基于该目标音频数据中的全部频谱信息对音频缺失片段进行预测补偿,可提升该计算机设备对音频缺失片段进行预测补偿的准确性和合理性。
附图说明
[0009]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1a是本专利技术实施例提供的一种音频处理的场景示意图;图1b是本专利技术实施例提供的另一种音频处理的场景示意图;图2是本专利技术实施例提供的一种音频处理方法的示意流程图;图3a是本专利技术实施例提供的一种频域处理模块和生成网络的连接示意图;图3b是本专利技术实施例提供的一种目标音频数据和预测音频数据的示意图;图4是本专利技术实施例提供的另一种音频处理方法的示意流程图;图5a是本专利技术实施例提供的一种生成网络的示意图;图5b是本专利技术实施例提供的一种音频融合的示意图;图5c是本专利技术实施例提供的另一种音频融合的示意图;图5d是本专利技术实施例提供的一种判别网络的示意图;图5e是本专利技术实施例提供的一种生成网络和判别网络的示意图;
图6是本专利技术实施例提供的一种音频处理装置的示意性框图;图7是本专利技术实施例提供的一种计算机设备的示意性框图。
具体实施方式
[0011]本申请实施例提出了一种音频处理方法,使计算机设备可在获取到存在音频缺失片段的目标音频数据时,通过该目标音频数据中的音频缺失片段的上下文音频片段,对该音频缺失片段进行预测补偿,由于计算机设备在对目标音频数据中的音频缺失片段进行预测时,结合了音频缺失片段在目标音频数据中的上下文音频片段,从而使计算机设备实现了在对音频缺失片段进行预测的过程中,对该目标音频数据中有效信息的充分利用,也就可提升该计算机设备在对该音频缺失片段进行预测补偿时的鲁棒性。在一个实施例中,该目标音频数据可以是通话语音数据、音乐数据、或者视频数据中的音频部分等,其中,该通话语音数据可以是从即时通信应用程序中获取的历史数据,或者也可以是在语音通话过程中实时生成的数据,而该语音通话过程可以是基于移动通信网络(如第二代移动通信网等)实现的,或者,也可以是经由网际互联协议(Internet Protocol,IP)来实现的语音传输(Voice over Internet Protocol,VoIP),即是说,该通话语音数据可基于移动通信网络中的移动设备进行采集得到,也可以是从互联网中截取到的。此外,该目标音频数据中的音频缺失片段是指不存在音频数据(或存在的音频数据为0)的片段,该音频缺失片段的上下文音频片段包括该音频缺失片段的上文音频片段及下文音频片段,上文音频片段是指在该目标音频数据中,对应的播放时间早于该音频缺失片段的音频片段,下文音频片段则是指在该目标音频数据中,对应的播放时间晚于该音频缺失片段的音频片段。
[0012]由于音频数据(如上述的目标音频数据)在网络传输的过程中,媒体引擎并不能保本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:获取待处理的目标音频数据及所述目标音频数据的频谱信息,所述目标音频数据中存在音频缺失片段,所述频谱信息包括所述音频缺失片段的上下文音频片段的频谱特征;根据所述上下文音频片段的频谱特征,对所述目标音频数据的频谱信息进行特征补偿处理,得到所述目标音频数据对应的补偿频谱信息;采用所述补偿频谱信息进行音频预测,得到预测音频数据;根据所述预测音频数据对目标音频数据中的所述音频缺失片段进行补偿,得到所述目标音频数据的补偿音频数据。2.如权利要求1所述的方法,其特征在于,所述根据所述预测音频数据对目标音频数据中的所述音频缺失片段进行补偿,得到所述目标音频数据的补偿音频数据,包括:将所述目标音频数据和所述预测音频数据基于所述音频缺失片段进行音频融合,得到所述目标音频数据的补偿音频数据。3.如权利要求2所述的方法,其特征在于,所述将所述目标音频数据和所述预测音频数据基于所述音频缺失片段进行音频融合,得到所述目标音频数据的补偿音频数据,包括:从所述预测音频数据中确定出与所述音频缺失片段对应的缺失预测片段,并从所述预测音频数据中确定出所述缺失预测片段的关联预测片段;获取融合参数,并采用所述融合参数对所述关联预测片段进行平滑处理,得到平滑后的关联预测片段;在所述预测音频数据中,采用所述平滑后的关联预测片段替换所述预测音频数据中的对应音频片段,得到融合音频数据。4.如权利要求3所述的方法,其特征在于,所述得到平滑后的关联预测片段之后,所述方法还包括:采用所述预测音频数据中的缺失预测片段替换所述目标音频数据中的音频缺失片段,并采用所述平滑后的关联预测片段对所述目标音频数据中的对应音频片段进行替换,得到融合音频数据。5.如权利要求1所述的方法,其特征在于,所述目标音频数据包括生成网络从训练音频数据中提取出的数据,所述生成网络规定了采样率和音频提取长度;所述获取待处理的目标音频数据,包括:调用所述生成网络按照所述音频提取长度,从所述训练音频数据中提取出与所述音频提取长度等长的中间音频数据;调用所述生成网络按照目标采样率对所述中间音频数据进行采样处理,得到所述中间音频数据的采样序列,并按照预设丢包长度将所述采样序列中的多个采样点调整为0,对所述采样序列中的采样点进行调整后的采样序列为目标音频数据,被调整为0的采样点为所述目标音频数据中的音频缺失片段。6.如权利要求1所述的方法,其特征在于,若所述目标音频数据是生成网络根据从训练音频数据中提取出的中间音频数据确定的;所述方法还包括:调用判别网络从所述补偿音频数据中提取出不同分辨率对应的特征图;根据所述补偿音频数据在不同分辨率下对应的特征图,确定所述补偿音频数据及用于得到所述目标音频数据的中间音频数据之间的特征差异,并基于所述特征差异对所述生成
网络和所述判别网络进行训练,得到训练完成的训练网络和判别网络。7.如权利要求6所述的方法,其特征在于,所述生成网络和所述判别网络是基于损失函数进行训练的,所述损失函数包括多分辨率损失函数;所述根据所述补偿音频数据在不同分辨率下对应的特征图,确定所述补偿音频数据及用于得到所述目标音频数据的中间音频数据之间的特征差异,并基于所述特征差异对所述生成网络和所述判别网络进行训练,包括:根据所述补偿音频数据在任一分辨率下的特征图确定所述任一分辨率下的特征图的频谱特征,并获取得到所述目标音频数据的中间音频数据的频谱特征;采用任一分辨率下的特征图的频谱特征及所述中间音频数据的频谱特征,得到所述任一分辨率下的特征图关联的谱收敛函数;根据各分辨率下的特征图关联的谱收敛函数计算多分辨率损失函数,并基于所述多分辨率损失函数对所述生成网络和所述判别网络进行训练。8.如权利要求7所述的方法,其特征在于,所述采用任一分辨率下的特征图的频谱特征及所述中间音频数据的频谱特征,得到所述任一分辨率的特征图关联的谱收敛函数,包括:采用任一分辨率下的特征图的频谱特征及所述中间音频数据的频谱特征,确定以所述中间音频数据的频谱特征为基准特征时,所述任一分辨率下的特征图对应的谱收敛函数,所述谱收敛函数用于指示所述中间音频数据的频谱特征和所述任一分辨率下的特征图之间的频谱差异;所述根据各分辨率下的特征图关联的谱收敛函数计算多分辨率损失函数,包括:获取所述任一分辨率下的特征图的频谱特征及所述中间音频数据的频谱特征之...

【专利技术属性】
技术研发人员:熊唯黄飞
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1