多通道的混音方法、设备及介质技术

技术编号:39243620 阅读:10 留言:0更新日期:2023-10-30 11:56
本申请涉及音频处理技术领域,具体涉及一种多声道的混音方法、设备及介质。该方法包括:获取第一多声道音频数据,第一多声道音频数据包括M个待混音声道的音频数据;确定出第一多声道音频数据中存在能量满足预设能量阈值的音频数据,并对第一多声道音频数据中能量大于预设能量阈值的音频数据进行能量降幅处理;根据能量降幅处理结果,得到第二多声道音频数据;对第二多声道音频数据进行下混,得到具有N个混音声道的混音输出数据,其中M>N,并且N≥1。本申请实施例中提供的多声道的混音方法,可以解决声道下混时,由于部分音频帧能量过高产生的破音问题,得到更为理想的声道下混结果,提升用户的听觉体验。提升用户的听觉体验。提升用户的听觉体验。

【技术实现步骤摘要】
多通道的混音方法、设备及介质


[0001]本申请涉及音频处理
,具体涉及一种多通道的混音方法、设备及介质。

技术介绍

[0002]随着现代技术的快速发展,在需要进行音频播放的多种场景中,由于音频数据与音频输出设备的声道数量的不匹配问题,往往需要在输出音频时完成实时多声道混音,一般为将多声道音频数据转为声道数量更少的音频数据,即声道下混。例如在大屏播放AiMax片源等的时候,会存在3.1、5.1、7.1等多声道的音频数据,但是大屏输出设备切换为数字音频接口(Sony/Philips Digital Interface,spdif)/音频回传通道(Audio Return Channel,ARC)/蓝牙输出时,存在只输出两个声道的情况,为了尽可能多的保留音频流的信息,需要对多个声道的数据进行下混生成两声道数据。
[0003]目前对多声道混音为两声道的声道下混方案一般采用下列两种方案:
[0004]1)采用多声道的前两个声道数据作为输出,丢弃中置声道、环绕声道、低音声道等部分。此种方案在进行输出时,由于部分人声音频数据出现在被丢弃的声道中会造成人声丢失,同时由于只采用两个声道作为输出,会降低用户的听觉体验。
[0005]2)采用杜比下混方案,对多声道的音频数据中和左右声道相关的数据进行加权求和,得到两声道的音频数据输出。但是对于不符合杜比规格的音频数据,例如对于音频数据中,低音音频数据能量较高的情况,在采用杜比下混方案进行声道下混时,会出现破音的情况,使得用户的听觉体验不佳。
专利技术内容
[0006]本申请实施例提供了一种多通道的混音方法、设备及介质,解决了目前声道下混方案中,下混后的音频数据破音,影响用户听觉体验的问题。
[0007]第一方面,本申请实施例提供了一种多声道的混音方法,应用于电子设备,包括:获取第一多声道音频数据,第一多声道音频数据包括M个待混音声道的音频数据;确定出第一多声道音频数据中存在能量满足预设能量阈值的音频数据,并对第一多声道音频数据中能量大于预设能量阈值的音频数据进行能量降幅处理;根据能量降幅处理结果,得到第二多声道音频数据;对第二多声道音频数据进行下混,得到具有N个混音声道的混音输出数据,其中M>N,并且N≥1。
[0008]可以理解,第一多声道音频数据为声道下混时的输入数据,第二多声道音频数据为声道下混后的输出数据。
[0009]在一些实施例中,预设能量阈值为预先设置好的,可能会造成混音后音频破音的最低能量值。在一些实施例中,预设能量阈值为预先设置好的,可能会造成混音后音频破音且影响用户听觉体验的其他能量值。本申请对此不作限制。
[0010]在一些实施例中,第一多声道音频数据可以为2.1声道、3.1声道、5.1声道、7.1声道等多声道音频数据,混音输出数据可以为单声道音频数据、两声道音频数据,也可以为不
超过第一多声道音频数据的其他多声道音频数据。
[0011]可以理解,本申请中的多声道混音方法为将多声道的音频数据(即第一多声道音频数据)混合成声道数量更少的音频数据,即混音输出数据。在对各声道音频数据进行声道下混前,通过对各声道的音频数据进行能量跟踪,确定出超出预设能量阈值的音频数据,并进行能量抑制,得到能量抑制后的第二多声道音频数据,并对第二多声道音频数据进行声道下混。本申请实施例的多声道的混音方法,可以充分适应并支持多种多声道音频数据的声道下混,可以解决声道下混时,由于部分音频帧能量过高产生的破音问题,得到更为理想的声道下混结果,提升用户的听觉体验。
[0012]在上述第一方面的一种可能的实现中,确定出第一多声道音频数据中存在能量大于预设能量阈值的音频数据,包括:对第一多声道音频数据进行分帧处理,得到多个音频帧,并确定多个音频帧的帧能量;确定出第一多声道音频数据中存在帧能量大于预设能量阈值的高能量音频帧。
[0013]可以理解,在一些实施例中,第一多声道音频数据中帧能量不超过预设能量阈值的音频帧为低能量音频帧,对于低能量音频帧可以不进行能量降幅处理。
[0014]在上述第一方面的一种可能的实现中,对第一多声道音频数据中能量大于预设能量阈值的音频数据进行能量降幅处理,得到第二多声道音频数据,包括:确定高能量音频帧的目标增益,并根据目标增益确定高能量音频帧的帧增益;根据高能量音频帧的帧增益,确定能量降幅处理后高能量音频帧对应的目标音频帧。
[0015]可以理解,目标增益为对高能量音频帧进行能量降幅处理时的能量抑制因子,利用该能量抑制因子可以实现高能量音频帧的能量降幅。
[0016]在一些实施例中,对于低能量音频帧也可以具有目标增益,低能量音频帧的目标增益为1,即不对其进行能量降幅。
[0017]在上述第一方面的一种可能的实现中,高能量音频帧的帧能量是通过下列公式确定的:其中,高能量音频帧包括L个采样点;β表示帧能量平滑系数;x
i
(n)(k)表示M个待混音声道中第i个待混音声道的第n个音频帧中的第k个采样点的音频数据;表示M个待混音声道中第i个待混音声道的第n个音频帧中的第k个采样点的能量;表示M个待混音声道中第i个待混音声道的第n个音频帧的帧能量。
[0018]在一些实施例中,每一个音频帧可以包括L=512个采样点,即音频帧的帧长为512。在另一些实施例中,L还可以为其他数值,本申请对此不作限制。
[0019]在上述第一方面的一种可能的实现中,预设能量阈值包括第一阈值和/或第二阈值;高能量音频帧包括下列至少之一:M个待混音声道的多个音频帧中,对应于同一混音声道的索引相同的至少一个音频帧的平均帧能量大于第一阈值的音频帧为高能量音频帧;同一待混音声道的各音频帧中,与对应音频帧连续的至少两个音频帧的最大帧能量大于第二阈值的音频帧为高能量音频帧。
[0020]可以理解,音频帧的索引为M个待混音声道中任意一个声道中的某一音频帧对应的序号,例如对于M个待混音声道中第i个待混音声道的第n个音频帧,其索引为n。
[0021]在上述第一方面的一种可能的实现中,M个待混音声道的各音频帧的最大帧能量是根据与各音频帧对应于同一混音声道且索引相同的音频帧中的帧能量最大的音频帧的帧能量确定的。
[0022]在上述第一方面的一种可能的实现中,高能量音频帧的目标增益是根据预设能量阈值,以及与各高能量音频帧连续的至少两个音频帧的最大帧能量确定的。
[0023]在上述第一方面的一种可能的实现中,帧增益是通过下列公式确定的:其中,α表示帧增益平滑系数;表示M个待混音声道中第i个待混音声道的第n个音频帧的目标增益;表示M个待混音声道中第i个待混音声道的第n

1个音频帧的帧增益;表示M个待混音声道中第i个待混音声道的第n个音频帧的帧增益。
[0024]在一些实施例中,第一多声道音频数据中的帧能量不超过预设能量阈值的低能量音频帧也可以采用上述公式计算其帧增益,其中低能量音频帧的目标增益为1。
[0025]在上本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多声道的混音方法,应用于电子设备,其特征在于,包括:获取第一多声道音频数据,所述第一多声道音频数据包括M个待混音声道的音频数据;确定出所述第一多声道音频数据中存在能量大于预设能量阈值的音频数据,并对所述第一多声道音频数据中能量大于所述预设能量阈值的所述音频数据进行能量降幅处理;根据所述能量降幅处理结果,得到第二多声道音频数据;对所述第二多声道音频数据进行下混,得到具有N个混音声道的混音输出数据,其中M>N,并且N≥1。2.根据权利要求1所述的多声道的混音方法,其特征在于,所述确定出所述第一多声道音频数据中存在能量大于预设能量阈值的音频数据,包括:对所述第一多声道音频数据进行分帧处理,得到多个音频帧,并确定所述多个音频帧的帧能量;确定出所述第一多声道音频数据中存在帧能量大于预设能量阈值的高能量音频帧。3.根据权利要求2所述的多声道的混音方法,其特征在于,所述高能量音频帧的帧能量是通过下列公式确定的:其中,所述高能量音频帧包括L个采样点;β表示帧能量平滑系数;x
i
(n)(k)表示所述M个待混音声道中第i个待混音声道的第n个音频帧中的第k个采样点的音频数据;表示所述M个待混音声道中第i个待混音声道的所述第n个音频帧中的所述第k个采样点的能量;表示所述M个待混音声道中第i个待混音声道的所述第n个音频帧的帧能量。4.根据权利要求2所述的多声道的混音方法,其特征在于,所述预设能量阈值包括第一阈值和/或第二阈值;所述高能量音包括下列至少之一:所述M个待混音声道的所述多个音频帧中,对应于同一混音声道的索引相同的至少一个音频帧的平均帧能量大于所述第一阈值的音频帧为所述高能量音频帧;同一待混音声道的各音频帧中,与对应音频帧连续的至少两个音频帧的最大帧能量大于所述第二阈值的音频帧为所述高能量音频帧。5.根据权利要求4所述的多声道的混音方法,其特征在于,所述M个待混音声道的各所述音频帧的最大帧能量是根据与各所述音频帧对应于同一混音声道且索引相同的音频帧中的帧能量最大的音频帧的帧能量确定的。6.根据权利要求2所述的多声道的混音方法,其特征在于,对所述第一多声道音频数据中能量大于所述预设能量阈值的所述音频数据进行能量降幅处理,包括:确定所述高能量音频帧的目标增益,并根据所述目标增益确定所述高能量音频帧的帧增益;根据所述高能量音频帧的帧增益,确定能量降幅处理后所述高能量音频帧对应的目标
音频帧。7.根据权利要求6所述的多声道的混音方法,其特征在于,所述高能量音频帧的所述目标增益是根据所述预设能量阈值,以及与各所述高能量音频帧连续的至少两个音频帧的最大帧能量确定的。8.根据权利要求7所述的多声道的混音方法,其特征在于,所述帧增益是通过下列公式确定的:其中,α表示...

【专利技术属性】
技术研发人员:周永强
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1