用于对沉浸式音频信号进行编码及/或解码的方法及装置制造方法及图纸

技术编号:26045296 阅读:50 留言:0更新日期:2020-10-23 21:25
本文件描述一种用于对多声道输入信号(201)进行编码的方法(700)。所述方法(700)包括从所述多声道输入信号(201)确定(701)多个降混声道信号(203)及对所述多个降混声道信号(203)实行(702)能量压缩以提供多个经压缩声道信号(404)。此外,所述方法(700)包括基于所述多个经压缩声道信号(404)且基于所述多声道输入信号(201)确定(703)联合译码元数据(205),其中所述联合译码元数据(205)使得其允许将所述多个经压缩声道信号(404)升混成所述多声道输入信号(201)的近似值。另外,所述方法(700)包括对所述多个经压缩声道信号(404)及所述联合译码元数据(205)进行编码(704)。

【技术实现步骤摘要】
【国外来华专利技术】用于对沉浸式音频信号进行编码及/或解码的方法及装置相关申请案的交叉参考本申请案主张2018年7月2日提出申请的美国临时专利申请案第62/693,246号的优先权权益,所述美国临时专利申请案特此并入供参考。
本文件涉及可包括声场表示信号的沉浸式音频信号,确切来说涉及高保真度体声立复制信号。确切来说,本文件涉及提供使得能够位速率高效方式及/或以高感知质量传输及/或存储沉浸式音频信号的编码器及对应解码器。
技术介绍
可使用高保真度立体声响复制信号描述处于收听位置的收听者的收听环境内的声音或声场。高保真度立体声响复制信号可被视为多声道音频信号,其中每一声道对应于收听者的收听位置处的声场的特定方向性图案。可使用三维(3D)笛卡儿坐标系描述高保真度立体声响复制信号,其中坐标系的原点对应于收听位置,x轴指向前,y轴指向左且z轴指向上。通过增加音频信号或声道的数目且通过增加对应方向性图案(及对应平移函数)的数目,可增大描述声场的精确性。举例来说,一阶高保真度立体声响复制信号包括4个声道或波形,即:W声道,其指示声场的全向分量;X声道,其描述具有与x轴对应的偶极方向性图案的声场;Y声道,其描述具有与y轴对应的偶极方向性图案的声场;及Z声道,其描述具有与z轴对应的偶极方向性图案的声场。二阶高保真度立体声响复制信号包括9个声道,所述9个声道包含一阶高保真度立体声响复制信号(也被称为B格式)的4个声道加上不同方向性图案的5个额外声道。一般来说,L阶高保真度立体声响复制信号包括(L+1)2个声道,所述(L+1)2个声道包含(L-1)阶高保真度立体声响复制信号的L2个声道加上额外方向性图案的[(L+1)2-L2]个额外声道(当使用3D高保真度立体声响复制格式时)。在L>1情况下的L阶高保真度立体声响复制信号可被称为高阶高保真度立体声响复制(HOA)信号。HOA信号可用于独立于用于呈现HOA信号的扬声器的布置而描述3D声场。扬声器的实例性布置包括耳机或扩音器一或多种布置或者虚拟现实呈现环境。因此,将HOA信号提供到音频呈现器以允许音频呈现器灵活地适应扬声器的不同布置可以是有益的。声场表示(SR)信号(例如高保真度立体声响复制信号)可与音频对象及/或多声道(试验台)信号互补以提供沉浸式音频(IA)信号。本文件解决以带宽高效方式在高感知质量下传输及/或存储IA信号的技术问题。通过独立技术方案解决技术问题。所附权利要求书中描述优选实例。
技术实现思路
根据一方面,描述一种对多声道输入信号进行编码的方法。所述多声道输入信号可以是沉浸式音频(IA)信号的一部分。所述多声道输入信号可包括声场表示(SR)信号,确切来说一阶或高阶高保真度立体声响复制信号。所述方法包括从所述多声道输入信号确定多个降混声道信号。此外,所述方法包括对所述多个降混声道信号实行能量压缩以提供多个经压缩声道信号。另外,所述方法包括基于所述多个经压缩声道信号且基于多声道输入信号确定联合译码元数据(确切来说,空间音频分辨率重构SPAR元数据),其中联合译码元数据使得其允许将所述多个经压缩声道信号升混成多声道输入信号的近似值。所述方法进一步包括对所述多个经压缩声道信号及所述联合译码元数据进行编码。根据另一方面,描述一种从指示多个经重构声道信号的经译码音频数据且从指示联合译码元数据的经译码元数据确定经重构多声道信号的方法。所述方法包括对所述经译码音频数据进行解码以提供所述多个经重构声道信号且对所述经译码元数据进行解码以提供所述联合译码元数据。此外,所述方法包括使用所述联合译码元数据从所述多个经重构声道信号确定所述经重构多声道信号。根据另一方面,描述一种软件程序。所述软件程序可适于在处理器上执行且当在处理器上施行时实行本文件中所概述的方法步骤。根据另一方面,描述一种存储媒体。所述存储媒体可包括适于在处理器上执行的软件程序及当在所述处理器上施行时实行本文件中所概述的方法步骤。根据另一方面,描述一种计算机程序产品。所述计算机程序可包括当在计算机上执行时实行本文件中所概述的方法步骤的可执行指令。根据另一方面,描述一种用于对多声道输入信号及/或沉浸式音频(IA)信号进行编码的编码单元或编码装置。所述编码单元经配置以从多声道输入信号确定多个降混声道信号。此外,所述编码单元经配置以对所述多个降混声道信号实行能量压缩以提供多个经压缩声道信号。另外,所述编码单元经配置以基于所述多个经压缩声道信号且基于多声道输入信号确定联合译码元数据,其中所述联合译码元数据使得允许将所述多个经压缩声道信号升混成多声道输入信号的近似值。所述编码单元进一步经配置以对所述多个经压缩声道信号及所述联合译码元数据进行编码。根据另一方面,描述一种用于从指示多个经重构声道信号的经译码音频数据且从指示联合译码元数据的经译码元数据确定重构多声道信号的解码单元或解码装置。所述解码单元经配置以对经译码音频数据进行解码以提供所述多个经重构声道信号且对所述经译码元数据进行解码以提供所述联合译码元数据。此外,所述解码单元经配置以使用所述联合译码元数据从所述多个经重构声道信号确定所述经重构多声道信号。应注意,本专利申请案中所概述的方法、装置及系统(包含其优选实施例)可单独使用,或者与本文件中所揭示的其它方法、装置及系统组合使用。此外,可任意地组合本专利申请案中所概述的方法、装置及系统的所有方面。确切来说,技术方案的特征可彼此任意地组合。附图说明下文参考附图示范性地阐释本专利技术,其中图1展示实例性译码系统;图2展示用于对沉浸式音频信号进行编码的实例性编码单元;图3展示用于对沉浸式音频信号进行解码的另一实例性解码单元;图4展示用于对沉浸式音频信号进行编码及解码的实例性编码单元及解码单元;图5展示具有模式切换的实例性编码单元及解码单元;图6展示实例性重构模块;图7展示用于对沉浸式音频信号进行编码的实例性方法的流程图;且图8展示用于对指示沉浸式音频信号的数据进行解码的实例性方法的流程图。具体实施方式如上文所概述,本文件涉及对沉浸式音频(IA)信号(例如,一阶高保真度立体声响复制(FOA)或HOA信号、多声道及/或对象音频信号)进行高效译码,其中尤其地FOA或HOA信号在本文中更常被称为声场表示(SR)信号。如介绍性章节中所概述,SR信号可包括相对高数目个声道或波形,其中不同的声道与不同的平移函数及/或不同的方向性图案有关。举例来说,L阶3DFOA或HOA信号包括(L+1)2个声道。SR信号可以各种不同的格式表示。声场可被视为由从收听位置周围的任意方向发出的一或多个声波事件组成。因此,一或多个声波事件的位点可界定在球体的表面上(其中收听位置或参考位置在球体的中心处)。声场格式(例如,FOA或高阶高保真度立体声响复制(HOA))经定义以允许经由任意扬声器布置(即任意呈现系统)呈现所述声场。然而,呈现系统(例如,杜比全景声系统)通常在扬声器的可能海拔高度固本文档来自技高网
...

【技术保护点】
1.一种用于对多声道输入信号(201)进行编码的方法(700),其中所述方法(700)包括,/n-从所述多声道输入信号(201)确定(701)多个降混声道信号(203);/n-对所述多个降混声道信号(203)实行(702)能量压缩以提供多个经压缩声道信号(404);/n-基于所述多个经压缩声道信号(404)且基于所述多声道输入信号(201)确定(703)联合译码元数据(205);其中所述联合译码元数据(205)使得其允许将所述多个经压缩声道信号(404)升混成所述多声道输入信号(201)的近似值;及/n-对所述多个经压缩声道信号(404)及所述联合译码元数据(205)进行编码(704)。/n

【技术特征摘要】
【国外来华专利技术】20180702 US 62/693,2461.一种用于对多声道输入信号(201)进行编码的方法(700),其中所述方法(700)包括,
-从所述多声道输入信号(201)确定(701)多个降混声道信号(203);
-对所述多个降混声道信号(203)实行(702)能量压缩以提供多个经压缩声道信号(404);
-基于所述多个经压缩声道信号(404)且基于所述多声道输入信号(201)确定(703)联合译码元数据(205);其中所述联合译码元数据(205)使得其允许将所述多个经压缩声道信号(404)升混成所述多声道输入信号(201)的近似值;及
-对所述多个经压缩声道信号(404)及所述联合译码元数据(205)进行编码(704)。


2.根据权利要求1所述的方法(700),其中实行能量压缩使得经压缩声道信号(404)的能量低于对应降混声道信号(203)的能量。


3.根据前述权利要求中任一权利要求所述的方法(700),其中实行(702)能量压缩包括
-从第二降混声道信号(203)预测第一降混声道信号(203),以提供第一经预测声道信号;及
-从所述第一降混声道信号(203)减去所述第一经预测声道信号以提供第一经压缩声道信号(404)。


4.根据权利要求3所述的方法(700),其中
-从第二降混声道信号(203)预测第一降混声道信号(203)包括确定用于缩放所述第二降混声道信号(203)的缩放因数;及
-所述第一经预测声道信号对应于根据所述缩放因数被缩放的所述第二降混声道信号(203)。


5.根据权利要求4所述的方法(700),其中所述缩放因数经确定使得
-与所述第一降混声道信号(203)的能量相比,所述第一经压缩声道信号(404)的能量被减小;及/或
-所述第一经压缩声道信号(404)的能量被最小化。


6.根据权利要求3到5中任一权利要求所述的方法(700),其中实行(702)能量压缩包括
-基于从所述第二降混声道信号(203)进行的预测确定数个经压缩声道信号(404);及
-对所述数个经压缩声道信号(404)应用卡洛变换、主成分分析变换及/或奇异值分解变换。


7.根据前述权利要求中任一权利要求所述的方法(700),其中
-所述多个降混声道信号(203)是一阶高保真度立体声响复制信号,尤其呈B格式或呈A格式;及/或
-所述多个经压缩声道信号(404)是以一阶高保真度立体声响复制信号格式表示,尤其以B格式或以A格式表示。


8.根据权利要求7所述的方法(700),其中实行(702)能量压缩包括
-从所述多个降混声道信号(203)的W声道信号预测X声道信号、Y声道信号及Z声道信号,以提供经预测X声道信号、经预测Y声道信号及经预测Z声道信号;
-从所述X声道信号减去所述经预测X声道信号以确定X’声道信号;
-从所述Y声道信号减去所述经预测Y声道信号以确定Y’声道信号;
-从所述Z声道信号减去所述经预测Z声道信号以确定Z’声道信号;及
-基于所述W声道信号、所述X’声道信号、所述Y’声道信号及所述Z’声道信号确定所述多个经压缩声道信号(404)。


9.根据权利要求8所述的方法(700),其中实行(702)能量压缩包括
-对所述X’声道信号、所述Y’声道信号及所述Z’声道信号应用卡洛变换、主成分分析变换及/或奇异值分解变换以提供X”声道信号、Y”声道信号及Z”声道信号;及
-基于所述W声道信号、所述X”声道信号、所述Y”声道信号及所述Z”声道信号确定所述多个经压缩声道信号(404)。


10.根据前述权利要求中任一权利要求所述的方法(700),其中实行(702)能量压缩包括对所述多个降混声道信号(203)中的至少一些降混声道信号应用卡洛变换、主成分分析变换及/或奇异值分解变换。


11.根据前述权利要求中任一权利要求所述的方法(700),其中所述联合译码元数据(205)包括
-升混数据,尤其是升混矩阵,其使得能够所述将所述多个经压缩声道信号(404)升混成所述多声道输入信号(201)的近似值,从而包括与所述多声道输入信号(201)相同的声道数目;及/或
-解相关数据,其使得能够重构所述多声道输入信号(201)的协方差。


12.根据前述权利要求中任一权利要求所述的方法(700),其中针对所述多声道输入信号(201)的多个不同子带确定所述联合译码元数据(205)。


13.根据前述权利要求中任一权利要求所述的方法(700),其中对所述多个经压缩声道信号(404)进行编码(704)包括对所述多个经压缩声道信号(404)中的每一者实行波形编码,尤其使用单声道编码器对每一经压缩声道信号(404)实行波形编码。


14.根据前述权利要求中任一权利要求所述的方法(700),其中使用熵编码器对所述联合译码元数据(205)进行编码。


15.根据前述权利要求中任一权利要求所述的方法(700),其中
-所述多声道输入信号(201)包括一或多个音频对象(303)的一或多个对象信号;且
-所述方法(700)包括尤其使用熵编码器对所述一或多个音频对象(303)的对象元数据(202)进行编码。


16.根据前述权利要求中任一权利要求所述的方法(700),其中
-所述多声道输入信号(201)包括:声场表示信号,被称为SR信号,尤其是L阶高保真度立体声响复制信号,其中L≥1;以及一或多个音频对象(303)的一或多个对象信号;且
-通过将所述多声道输入信号(201)降混成SR信号,尤其降混成K阶高保真度立体声响复制信号来确定所述多个降混声道信号(203),其中L≥K。


17.根据权利要求16所述的方法(700),其中
-确定(701)所述多个降混声道信号(203)包括依据一或多个音频对象(303)的对象元数据(202)将所述一或多个音频对象(303)的所述一或多个对象信号混合到所述多声道输入信号(201)的所述SR信号;及
-音频对象(303)的所述对象元数据(202)指示所述音频对象(303)的空间位置。


18.根据前述权利要求中任一权利要求所述的方法(700),其中
-所述方法(700)包括确定将使用第二模式对所述多声道输入信号(201)进行编码;且
-在所述第二模式中,基于所述多个经压缩声道信号(404)且基于所述多个降混声道信号(203)确定所述联合译码元数据(205),使得所述联合译码元数据(205)允许从所述多个经压缩声道信号(404)重构所述多个降混声道信号(203)。


19.根据权利要求18所述的方法(700),其中
-基于所述多个经压缩声道信号(404)且基于所述多声道输入信号(201)确定所述联合译码元数据(205)对...

【专利技术属性】
技术研发人员:D·S·麦格拉思M·埃克特H·普尔纳根S·布鲁恩
申请(专利权)人:杜比实验室特许公司杜比国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1