三维音频信号编码方法、装置和编码器制造方法及图纸

技术编号:35670898 阅读:13 留言:0更新日期:2022-11-23 14:05
本申请公开了一种三维音频信号编码方法、装置和编码器,涉及多媒体领域。该方法包括:编码器获取到三维音频信号的当前帧的第四数量个系数,以及第四数量个系数的频域特征值后,根据第四数量个系数的频域特征值,从第四数量个系数中选取第三数量个代表系数,并根据第三数量个代表系数从候选虚拟扬声器集合中选取第二数量个当前帧的代表虚拟扬声器,进而,根据第二数量个当前帧的代表虚拟扬声器对当前帧进行编码,得到码流。由于编码器利用较少数量的代表系数代替全部系数从候选虚拟扬声器集合中选取代表虚拟扬声器,因此有效地降低了编码器搜索虚拟扬声器的计算复杂度,以及对三维音频信号进行压缩编码的计算复杂度,减轻了编码器的计算负担。编码器的计算负担。编码器的计算负担。

【技术实现步骤摘要】
三维音频信号编码方法、装置和编码器


[0001]本申请涉及多媒体领域,尤其涉及一种三维音频信号编码方法、装置和编码器。

技术介绍

[0002]随着高性能计算机和信号处理技术的飞速发展,收听者对语音、音频体验提出了越来越高的要求,浸入式音频能够满足人们在这方面的需求。例如,三维音频技术在无线通信(例如4G/5G等等)语音、虚拟现实/增强现实和媒体音频等方面得到了广泛应用。三维音频技术是对真实世界中的声音和三维声场信息进行获取、处理、传输和渲染回放的音频技术,使声音具有强烈的空间感、包围感及沉浸感,给收听者以“身临其境”的非凡听觉体验。
[0003]通常,采集设备(如:麦克风)采集大量的数据记录三维声场信息,向回放设备(例如扬声器,耳机等)传输三维音频信号,以便于回放设备播放三维音频。由于三维声场信息的数据量较大,导致需要大量的存储空间存储数据,以及传输三维音频信号的带宽需求较高。为了解决上述问题,可以对三维音频信号进行压缩,存储或传输压缩数据。目前,编码器可以采用预先配置的多个虚拟扬声器对三维音频信号进行压缩。但是,编码器对三维音频信号进行压缩编码的计算复杂度较高。因此,如何降低对三维音频信号进行压缩编码的计算复杂度是一个亟待解决的问题。

技术实现思路

[0004]本申请提供了三维音频信号编码方法、装置和编码器,由此可以降低对三维音频信号进行压缩编码的计算复杂度。
[0005]第一方面,本申请提供了一种三维音频信号编码方法,该方法可以由编码器执行,具体包括如下步骤:编码器获取到三维音频信号的当前帧的第四数量个系数,以及第四数量个系数的频域特征值后,根据第四数量个系数的频域特征值,从第四数量个系数中选取第三数量个代表系数,进而,根据第三数量个代表系数从候选虚拟扬声器集合中选取第二数量个当前帧的代表虚拟扬声器,以及,根据第二数量个当前帧的代表虚拟扬声器对当前帧进行编码,得到码流。其中,所述第四数量个系数包括第三数量个代表系数,第三数量小于第四数量,表示第三数量个代表系数是第四数量个系数中的部分系数。
[0006]其中,三维音频信号的当前帧为高阶立体混响(higher order ambisonics,HOA)信号;系数的频域特征值是依据HOA信号的系数确定的。
[0007]如此,由于编码器从当前帧的全部系数中选取部分系数作为代表系数,利用较少数量的代表系数代替当前帧的全部系数从候选虚拟扬声器集合中选取代表虚拟扬声器,因此有效地降低了编码器搜索虚拟扬声器的计算复杂度,从而降低了对三维音频信号进行压缩编码的计算复杂度以及减轻了编码器的计算负担。
[0008]另外,编码器根据第二数量个当前帧的代表虚拟扬声器对当前帧进行编码,得到码流包括:编码器根据第二数量个当前帧的代表虚拟扬声器和当前帧生成虚拟扬声器信号;对虚拟扬声器信号进行编码得到码流。
[0009]由于当前帧的系数的频域特征值表征了三维音频信号的声场特性,编码器依据当前帧的系数的频域特征值选取当前帧的具有代表性声场成分的代表系数,利用代表系数从候选虚拟扬声器集合中选取的当前帧的代表虚拟扬声器能够充分地表征三维音频信号的声场特性,从而进一步地提高了编码器利用当前帧的代表虚拟扬声器对待编码的三维音频信号进行压缩编码时生成虚拟扬声器信号的准确性,以便于提升对三维音频信号进行压缩编码的压缩率,降低编码器传输码流所占用的带宽。
[0010]在一种可能的实现方式中,根据第四数量个系数的频域特征值,从第四数量个系数中选取第三数量个代表系数,包括:编码器根据第四数量个系数的频域特征值,从第四数量个系数指示的频谱范围包含的至少一个子带选取代表系数,以得到第三数量个代表系数。
[0011]例如,根据第四数量个系数的频域特征值,从第四数量个系数指示的频谱范围包含的至少一个子带选取代表系数,以得到第三数量个代表系数包括:编码器根据至少一个子带中每个子带中系数的频域特征值,从每个子带中分别选取Z个代表系数,以得到第三数量个代表系数,Z为正整数。由于编码器在当前帧的全部系数指示的频谱范围内,根据系数的频域特征值选取代表系数,从而确保每个子带均有代表系数被选中,提高了编码器在当前帧的全部系数指示的频谱范围内选取代表系数的均衡性。
[0012]又如,当至少一个子带包括至少两个子带时,根据第四数量个系数的频域特征值,从第四数量个系数指示的频谱范围包含的至少一个子带选取代表系数,以得到第三数量个代表系数包括:编码器根据至少两个子带中每个子带内的第一候选系数的频域特征值确定每个子带的权重;根据每个子带各自的权重分别调整每个子带内的第二候选系数的频域特征值,得到每个子带内的第二候选系数的调整后频域特征值,第一候选系数和第二候选系数为子带内的部分系数;根据至少两个子带内的第二候选系数的调整后频域特征值,以及至少两个子带内除第二候选系数之外的系数的频域特征值,确定第三数量个代表系数。如此,编码器根据子带的权重调整该子带内的系数被选中的机率,进一步地提高了编码器选取的代表系数从声场分布和音频特性上代表了全子带系数的准确性。
[0013]其中,编码器可以不等分划分频谱范围得到至少两个子带,则至少两个子带包含的系数的数量不同;或者,编码器也可以等分划分频谱范围得到至少两个子带,则至少两个子带中每个子带包含的系数的数量相同。
[0014]在另一种可能的实现方式中,根据第三数量个代表系数从候选虚拟扬声器集合中选取第二数量个当前帧的代表虚拟扬声器包括:编码器根据当前帧的第三数量个代表系数、候选虚拟扬声器集合和投票轮数确定第一数量个虚拟扬声器和第一数量个投票值,根据第一数量个投票值,从第一数量个虚拟扬声器中选取第二数量个当前帧的代表虚拟扬声器,第二数量小于第一数量,表示第二数量个当前帧的代表虚拟扬声器是候选虚拟扬声器集合中的部分虚拟扬声器。可理解的,虚拟扬声器与投票值一一对应。例如,第一数量个虚拟扬声器包括第一虚拟扬声器,第一数量个投票值包括第一虚拟扬声器的投票值,第一虚拟扬声器与第一虚拟扬声器的投票值对应。第一虚拟扬声器的投票值用于表征第一虚拟扬声器的优先级。候选虚拟扬声器集合包括第五数量个虚拟扬声器,第五数量个虚拟扬声器包括第一数量个虚拟扬声器,第一数量小于或等于第五数量,投票轮数为大于或等于1的整数,且投票轮数小于或等于第五数量。第二数量是预设的,或者,第二数量是根据当前帧确
定的。
[0015]目前,在虚拟扬声器搜索过程中,编码器依据待编码的三维音频信号和虚拟扬声器之间的相关计算的结果作为虚拟扬声器的选择衡量指标。而且,若编码器对每一个系数传输一个虚拟扬声器,则无法达到高效数据压缩的目的,会对编码器造成沉重的计算负担。本申请实施例提供的选择虚拟扬声器的方法,编码器利用较少数量的代表系数代替当前帧的全部系数对候选虚拟扬声器集合中每个虚拟扬声器进行投票,依据投票值选取当前帧的代表虚拟扬声器。进而,编码器利用当前帧的代表虚拟扬声器对待编码的三维音频信号进行压缩编码,不仅有效地提升了对三维音频信号进行压缩编码的压缩率,而且降低了编码器搜索虚拟扬本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三维音频信号编码方法,其特征在于,包括:获取三维音频信号的当前帧的第四数量个系数,以及所述第四数量个系数的频域特征值;根据所述第四数量个系数的频域特征值,从所述第四数量个系数中选取第三数量个代表系数,所述第三数量小于所述第四数量;根据所述第三数量个代表系数从候选虚拟扬声器集合中选取第二数量个当前帧的代表虚拟扬声器;根据所述第二数量个当前帧的代表虚拟扬声器对所述当前帧进行编码,得到码流。2.根据权利要求1所述的方法,其特征在于,所述根据所述第四数量个系数的频域特征值,从所述第四数量个系数中选取第三数量个代表系数包括:根据所述第四数量个系数的频域特征值,从所述第四数量个系数指示的频谱范围包含的至少一个子带选取代表系数,以得到所述第三数量个代表系数。3.根据权利要求2所述的方法,其特征在于,所述根据所述第四数量个系数的频域特征值,从所述第四数量个系数指示的频谱范围包含的至少一个子带选取代表系数,以得到所述第三数量个代表系数包括:根据所述至少一个子带中每个子带中系数的频域特征值,从所述每个子带中分别选取Z个代表系数,以得到所述第三数量个代表系数,Z为正整数。4.根据权利要求2所述的方法,其特征在于,当所述至少一个子带包括至少两个子带时,所述根据所述第四数量个系数的频域特征值,从所述第四数量个系数指示的频谱范围包含的至少一个子带选取代表系数,以得到所述第三数量个代表系数包括:根据所述至少两个子带中每个子带内的第一候选系数的频域特征值确定所述每个子带各自的权重;根据所述每个子带各自的权重分别调整所述每个子带内的第二候选系数的频域特征值,得到所述每个子带内的第二候选系数的调整后频域特征值,所述第一候选系数和所述第二候选系数为所述子带内的部分系数;根据所述至少两个子带内的第二候选系数的调整后频域特征值,以及所述至少两个子带内除第二候选系数之外的系数的频域特征值,确定所述第三数量个代表系数。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述根据所述第三数量个代表系数从候选虚拟扬声器集合中选取第二数量个当前帧的代表虚拟扬声器包括:根据所述当前帧的第三数量个代表系数、所述候选虚拟扬声器集合和投票轮数确定第一数量个虚拟扬声器和第一数量个投票值,所述虚拟扬声器与所述投票值一一对应,所述第一数量个虚拟扬声器包括第一虚拟扬声器,所述第一虚拟扬声器的投票值用于表征所述第一虚拟扬声器的优先级,所述候选虚拟扬声器集合包括第五数量个虚拟扬声器,所述第五数量个虚拟扬声器包括所述第一数量个虚拟扬声器,所述第一数量小于或等于所述第五数量,所述投票轮数为大于或等于1的整数,且所述投票轮数小于或等于所述第五数量;根据所述第一数量个投票值,从所述第一数量个虚拟扬声器中选取所述第二数量个当前帧的代表虚拟扬声器,所述第二数量小于所述第一数量。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一数量个投票值,从所述第一数量个虚拟扬声器中选取所述第二数量个当前帧的代表虚拟扬声器包括:
根据所述第一数量个投票值,以及第六数量个在先帧最终投票值,获取第七数量个虚拟扬声器与所述当前帧对应的第七数量个当前帧最终投票值,所述第七数量个虚拟扬声器包括所述第一数量个虚拟扬声器,且所述第七数量个虚拟扬声器包括所述第六数量个虚拟扬声器,在先帧的代表虚拟扬声器集合包含的第六数量个虚拟扬声器与所述第六数量个在先帧最终投票值一一对应,所述第六数量个虚拟扬声器是用于对所述三维音频信号的在先帧进行编码时使用的虚拟扬声器;根据所述第七数量个当前帧最终投票值,从所述第七数量个虚拟扬声器中选取所述第二数量个当前帧的代表虚拟扬声器,所述第二数量小于所述第七数量。7.根据权利要求1

6中任一项所述的方法,其特征在于,所述方法还包括:获取所述当前帧与在先帧的代表虚拟扬声器集合的第一相关度,所述在先帧的代表虚拟扬声器集合包括第六数量个虚拟扬声器,所述第六数量个虚拟扬声器包含的虚拟扬声器为对所述三维音频信号的在先帧进行编码所使用的在先帧的代表虚拟扬声器,所述第一相关度用于确定对所述当前帧进行编码时是否复用所述在先帧的代表虚拟扬声器集合;若所述第一相关度不满足复用条件,获取所述三维音频信号的当前帧的第四数量个系数,以及所述第四数量个系数的频域特征值。8.根据权利要求1

7中任一项所述的方法,其特征在于,所述三维音频信号的当前帧为高阶立体混响HOA信号;所述系数的频域特征值是依据HOA信号的系数确定的。9.一种三维音频信号编码装置,其特征在于,包括:系数选择模块,用于获取三维音频信号的当前帧的第四数量个系数,以及所述第四数量个系数的频域特征值;所述系数选择模块,还用于根据所述第四数量个系数的频域特征值,从所述第四数量个系数中选取第三数量个代表系数,所述第三数量小于所述第四数量;虚拟扬声器选择模块,用于根据所述第三数量个代表系数从候选虚拟扬声器集合中选取第二数量个当前帧的代表虚拟扬声器;编码模块,用于根据所述第二数量个当前帧的代表虚拟扬声器对所述当前帧进行编码,得到码流。10.根据权利要求9所述的装置,其特征在于,所述系数选择模块根据所述第四数量个系数的频域特征值,从所述第四数...

【专利技术属性】
技术研发人员:高原刘帅王宾王喆
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1