用于对沉浸式音频信号进行编码及/或解码的方法及装置制造方法及图纸

技术编号：26045296 阅读：50 留言：0更新日期：2020-10-23 21:25

本文件描述一种用于对多声道输入信号(201)进行编码的方法(700)。所述方法(700)包括从所述多声道输入信号(201)确定(701)多个降混声道信号(203)及对所述多个降混声道信号(203)实行(702)能量压缩以提供多个经压缩声道信号(404)。此外，所述方法(700)包括基于所述多个经压缩声道信号(404)且基于所述多声道输入信号(201)确定(703)联合译码元数据(205)，其中所述联合译码元数据(205)使得其允许将所述多个经压缩声道信号(404)升混成所述多声道输入信号(201)的近似值。另外，所述方法(700)包括对所述多个经压缩声道信号(404)及所述联合译码元数据(205)进行编码(704)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于对沉浸式音频信号进行编码及/或解码的方法及装置相关申请案的交叉参考本申请案主张2018年7月2日提出申请的美国临时专利申请案第62/693,246号的优先权权益，所述美国临时专利申请案特此并入供参考。
本文件涉及可包括声场表示信号的沉浸式音频信号，确切来说涉及高保真度体声立复制信号。确切来说，本文件涉及提供使得能够位速率高效方式及/或以高感知质量传输及/或存储沉浸式音频信号的编码器及对应解码器。
技术介绍
可使用高保真度立体声响复制信号描述处于收听位置的收听者的收听环境内的声音或声场。高保真度立体声响复制信号可被视为多声道音频信号，其中每一声道对应于收听者的收听位置处的声场的特定方向性图案。可使用三维(3D)笛卡儿坐标系描述高保真度立体声响复制信号，其中坐标系的原点对应于收听位置，x轴指向前，y轴指向左且z轴指向上。通过增加音频信号或声道的数目且通过增加对应方向性图案(及对应平移函数)的数目，可增大描述声场的精确性。举例来说，一阶高保真度立体声响复制信号包括4个声道或波形，即：W声道，其指示声场的全向分量；X声道，其描述具有与x轴对应的偶极方向性图案的声场；Y声道，其描述具有与y轴对应的偶极方向性图案的声场；及Z声道，其描述具有与z轴对应的偶极方向性图案的声场。二阶高保真度立体声响复制信号包括9个声道，所述9个声道包含一阶高保真度立体声响复制信号(也被称为B格式)的4个声道加上不同方向性图案的5个额外声道。一般来说，L阶高保真度立体声响复制信号包括(L+1)2个声道，所述(L+1)2个声道...

【技术保护点】
1.一种用于对多声道输入信号(201)进行编码的方法(700)，其中所述方法(700)包括，/n-从所述多声道输入信号(201)确定(701)多个降混声道信号(203)；/n-对所述多个降混声道信号(203)实行(702)能量压缩以提供多个经压缩声道信号(404)；/n-基于所述多个经压缩声道信号(404)且基于所述多声道输入信号(201)确定(703)联合译码元数据(205)；其中所述联合译码元数据(205)使得其允许将所述多个经压缩声道信号(404)升混成所述多声道输入信号(201)的近似值；及/n-对所述多个经压缩声道信号(404)及所述联合译码元数据(205)进行编码(704)。/n

【技术特征摘要】
【国外来华专利技术】20180702 US 62/693,2461.一种用于对多声道输入信号(201)进行编码的方法(700)，其中所述方法(700)包括，
-从所述多声道输入信号(201)确定(701)多个降混声道信号(203)；
-对所述多个降混声道信号(203)实行(702)能量压缩以提供多个经压缩声道信号(404)；
-基于所述多个经压缩声道信号(404)且基于所述多声道输入信号(201)确定(703)联合译码元数据(205)；其中所述联合译码元数据(205)使得其允许将所述多个经压缩声道信号(404)升混成所述多声道输入信号(201)的近似值；及
-对所述多个经压缩声道信号(404)及所述联合译码元数据(205)进行编码(704)。

2.根据权利要求1所述的方法(700)，其中实行能量压缩使得经压缩声道信号(404)的能量低于对应降混声道信号(203)的能量。

3.根据前述权利要求中任一权利要求所述的方法(700)，其中实行(702)能量压缩包括
-从第二降混声道信号(203)预测第一降混声道信号(203)，以提供第一经预测声道信号；及
-从所述第一降混声道信号(203)减去所述第一经预测声道信号以提供第一经压缩声道信号(404)。

4.根据权利要求3所述的方法(700)，其中
-从第二降混声道信号(203)预测第一降混声道信号(203)包括确定用于缩放所述第二降混声道信号(203)的缩放因数；及
-所述第一经预测声道信号对应于根据所述缩放因数被缩放的所述第二降混声道信号(203)。

5.根据权利要求4所述的方法(700)，其中所述缩放因数经确定使得
-与所述第一降混声道信号(203)的能量相比，所述第一经压缩声道信号(404)的能量被减小；及/或
-所述第一经压缩声道信号(404)的能量被最小化。

6.根据权利要求3到5中任一权利要求所述的方法(700)，其中实行(702)能量压缩包括
-基于从所述第二降混声道信号(203)进行的预测确定数个经压缩声道信号(404)；及
-对所述数个经压缩声道信号(404)应用卡洛变换、主成分分析变换及/或奇异值分解变换。

7.根据前述权利要求中任一权利要求所述的方法(700)，其中
-所述多个降混声道信号(203)是一阶高保真度立体声响复制信号，尤其呈B格式或呈A格式；及/或
-所述多个经压缩声道信号(404)是以一阶高保真度立体声响复制信号格式表示，尤其以B格式或以A格式表示。

8.根据权利要求7所述的方法(700)，其中实行(702)能量压缩包括
-从所述多个降混声道信号(203)的W声道信号预测X声道信号、Y声道信号及Z声道信号，以提供经预测X声道信号、经预测Y声道信号及经预测Z声道信号；
-从所述X声道信号减去所述经预测X声道信号以确定X’声道信号；
-从所述Y声道信号减去所述经预测Y声道信号以确定Y’声道信号；
-从所述Z声道信号减去所述经预测Z声道信号以确定Z’声道信号；及
-基于所述W声道信号、所述X’声道信号、所述Y’声道信号及所述Z’声道信号确定所述多个经压缩声道信号(404)。

9.根据权利要求8所述的方法(700)，其中实行(702)能量压缩包括
-对所述X’声道信号、所述Y’声道信号及所述Z’声道信号应用卡洛变换、主成分分析变换及/或奇异值分解变换以提供X”声道信号、Y”声道信号及Z”声道信号；及
-基于所述W声道信号、所述X”声道信号、所述Y”声道信号及所述Z”声道信号确定所述多个经压缩声道信号(404)。

10.根据前述权利要求中任一权利要求所述的方法(700)，其中实行(702)能量压缩包括对所述多个降混声道信号(203)中的至少一些降混声道信号应用卡洛变换、主成分分析变换及/或奇异值分解变换。

11.根据前述权利要求中任一权利要求所述的方法(700)，其中所述联合译码元数据(205)包括
-升混数据，尤其是升混矩阵，其使得能够所述将所述多个经压缩声道信号(404)升混成所述多声道输入信号(201)的近似值，从而包括与所述多声道输入信号(201)相同的声道数目；及/或
-解相关数据，其使得能够重构所述多声道输入信号(201)的协方差。

12.根据前述权利要求中任一权利要求所述的方法(700)，其中针对所述多声道输入信号(201)的多个不同子带确定所述联合译码元数据(205)。

13.根据前述权利要求中任一权利要求所述的方法(700)，其中对所述多个经压缩声道信号(404)进行编码(704)包括对所述多个经压缩声道信号(404)中的每一者实行波形编码，尤其使用单声道编码器对每一经压缩声道信号(404)实行波形编码。

14.根据前述权利要求中任一权利要求所述的方法(700)，其中使用熵编码器对所述联合译码元数据(205)进行编码。

15.根据前述权利要求中任一权利要求所述的方法(700)，其中
-所述多声道输入信号(201)包括一或多个音频对象(303)的一或多个对象信号；且
-所述方法(700)包括尤其使用熵编码器对所述一或多个音频对象(303)的对象元数据(202)进行编码。

16.根据前述权利要求中任一权利要求所述的方法(700)，其中
-所述多声道输入信号(201)包括：声场表示信号，被称为SR信号，尤其是L阶高保真度立体声响复制信号，其中L≥1；以及一或多个音频对象(303)的一或多个对象信号；且
-通过将所述多声道输入信号(201)降混成SR信号，尤其降混成K阶高保真度立体声响复制信号来确定所述多个降混声道信号(203)，其中L≥K。

17.根据权利要求16所述的方法(700)，其中
-确定(701)所述多个降混声道信号(203)包括依据一或多个音频对象(303)的对象元数据(202)将所述一或多个音频对象(303)的所述一或多个对象信号混合到所述多声道输入信号(201)的所述SR信号；及
-音频对象(303)的所述对象元数据(202)指示所述音频对象(303)的空间位置。

18.根据前述权利要求中任一权利要求所述的方法(700)，其中
-所述方法(700)包括确定将使用第二模式对所述多声道输入信号(201)进行编码；且
-在所述第二模式中，基于所述多个经压缩声道信号(404)且基于所述多个降混声道信号(203)确定所述联合译码元数据(205)，使得所述联合译码元数据(205)允许从所述多个经压缩声道信号(404)重构所述多个降混声道信号(203)。

19.根据权利要求18所述的方法(700)，其中
-基于所述多个经压缩声道信号(404)且基于所述多声道输入信号(201)确定所述联合译码元数据(205)对...

【专利技术属性】
技术研发人员：D·S·麦格拉思，M·埃克特，H·普尔纳根，S·布鲁恩，
申请(专利权)人：杜比实验室特许公司，杜比国际公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人