【技术实现步骤摘要】
音频处理方法、相关设备、存储介质及程序产品
[0001]本申请涉及计算机
,尤其涉及一种音频处理方法、相关设备、存储介质及程序产品。
技术介绍
[0002]随着计算机网络技术的不断深入发展,音频数据在基于互联网将进行传输的过程中,通常会发生丢包现象,从而导致发送音频中的部分音频数据无法被接收端接收,从而影响用户的听音体验。而当前进行丢包音频进行补偿恢复的方法,通常是采用自回归的迭代预测方式,即基于上一个采样点对下一个采样点进行依次预测的方法,而由于在进行迭代预测的过程中,误差将不断累积,因此,如何提升对丢包音频进行预测补偿后得到的音频数据的准确性成为了当前的研究热点。
技术实现思路
[0003]本专利技术实施例提供了一种音频处理方法、相关设备、存储介质及程序产品,可提升对丢包音频进行预测补偿时的准确性。
[0004]一方面,本专利技术实施例提供了一种音频处理方法,包括:获取待处理的目标音频数据及所述目标音频数据的频谱信息,所述目标音频数据中存在音频缺失片段,所述频谱信息包括所述音频缺失片段的上下文音频片段的频谱特征;根据所述上下文音频片段的频谱特征,对所述目标音频数据的频谱信息进行特征补偿处理,得到所述目标音频数据对应的补偿频谱信息;采用所述补偿频谱信息进行音频预测,得到预测音频数据;根据所述预测音频数据对目标音频数据中的所述音频缺失片段进行补偿,得到所述目标音频数据的补偿音频数据。
[0005]再一方面,本专利技术实施例提供了一种音频处理装置,包括:获取单元,用于获取待处理的目 ...
【技术保护点】
【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:获取待处理的目标音频数据及所述目标音频数据的频谱信息,所述目标音频数据中存在音频缺失片段,所述频谱信息包括所述音频缺失片段的上下文音频片段的频谱特征;根据所述上下文音频片段的频谱特征,对所述目标音频数据的频谱信息进行特征补偿处理,得到所述目标音频数据对应的补偿频谱信息;采用所述补偿频谱信息进行音频预测,得到预测音频数据;根据所述预测音频数据对目标音频数据中的所述音频缺失片段进行补偿,得到所述目标音频数据的补偿音频数据。2.如权利要求1所述的方法,其特征在于,所述根据所述预测音频数据对目标音频数据中的所述音频缺失片段进行补偿,得到所述目标音频数据的补偿音频数据,包括:将所述目标音频数据和所述预测音频数据基于所述音频缺失片段进行音频融合,得到所述目标音频数据的补偿音频数据。3.如权利要求2所述的方法,其特征在于,所述将所述目标音频数据和所述预测音频数据基于所述音频缺失片段进行音频融合,得到所述目标音频数据的补偿音频数据,包括:从所述预测音频数据中确定出与所述音频缺失片段对应的缺失预测片段,并从所述预测音频数据中确定出所述缺失预测片段的关联预测片段;获取融合参数,并采用所述融合参数对所述关联预测片段进行平滑处理,得到平滑后的关联预测片段;在所述预测音频数据中,采用所述平滑后的关联预测片段替换所述预测音频数据中的对应音频片段,得到融合音频数据。4.如权利要求3所述的方法,其特征在于,所述得到平滑后的关联预测片段之后,所述方法还包括:采用所述预测音频数据中的缺失预测片段替换所述目标音频数据中的音频缺失片段,并采用所述平滑后的关联预测片段对所述目标音频数据中的对应音频片段进行替换,得到融合音频数据。5.如权利要求1所述的方法,其特征在于,所述目标音频数据包括生成网络从训练音频数据中提取出的数据,所述生成网络规定了采样率和音频提取长度;所述获取待处理的目标音频数据,包括:调用所述生成网络按照所述音频提取长度,从所述训练音频数据中提取出与所述音频提取长度等长的中间音频数据;调用所述生成网络按照目标采样率对所述中间音频数据进行采样处理,得到所述中间音频数据的采样序列,并按照预设丢包长度将所述采样序列中的多个采样点调整为0,对所述采样序列中的采样点进行调整后的采样序列为目标音频数据,被调整为0的采样点为所述目标音频数据中的音频缺失片段。6.如权利要求1所述的方法,其特征在于,若所述目标音频数据是生成网络根据从训练音频数据中提取出的中间音频数据确定的;所述方法还包括:调用判别网络从所述补偿音频数据中提取出不同分辨率对应的特征图;根据所述补偿音频数据在不同分辨率下对应的特征图,确定所述补偿音频数据及用于得到所述目标音频数据的中间音频数据之间的特征差异,并基于所述特征差异对所述生成
网络和所述判别网络进行训练,得到训练完成的训练网络和判别网络。7.如权利要求6所述的方法,其特征在于,所述生成网络和所述判别网络是基于损失函数进行训练的,所述损失函数包括多分辨率损失函数;所述根据所述补偿音频数据在不同分辨率下对应的特征图,确定所述补偿音频数据及用于得到所述目标音频数据的中间音频数据之间的特征差异,并基于所述特征差异对所述生成网络和所述判别网络进行训练,包括:根据所述补偿音频数据在任一分辨率下的特征图确定所述任一分辨率下的特征图的频谱特征,并获取得到所述目标音频数据的中间音频数据的频谱特征;采用任一分辨率下的特征图的频谱特征及所述中间音频数据的频谱特征,得到所述任一分辨率下的特征图关联的谱收敛函数;根据各分辨率下的特征图关联的谱收敛函数计算多分辨率损失函数,并基于所述多分辨率损失函数对所述生成网络和所述判别网络进行训练。8.如权利要求7所述的方法,其特征在于,所述采用任一分辨率下的特征图的频谱特征及所述中间音频数据的频谱特征,得到所述任一分辨率的特征图关联的谱收敛函数,包括:采用任一分辨率下的特征图的频谱特征及所述中间音频数据的频谱特征,确定以所述中间音频数据的频谱特征为基准特征时,所述任一分辨率下的特征图对应的谱收敛函数,所述谱收敛函数用于指示所述中间音频数据的频谱特征和所述任一分辨率下的特征图之间的频谱差异;所述根据各分辨率下的特征图关联的谱收敛函数计算多分辨率损失函数,包括:获取所述任一分辨率下的特征图的频谱特征及所述中间音频数据的频谱特征之...
【专利技术属性】
技术研发人员:熊唯,黄飞,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。