用于译码声场表示信号的方法和装置制造方法及图纸

技术编号：25532116 阅读：48 留言：0更新日期：2020-09-04 17:19

本文档描述了一种用于对描述参考位置处的声场的声场表示SR输入信号(101，301)进行编码的方法(400)；其中所述SR输入信号(101，301)包括所述参考位置处的所述声场的多个不同指向性图案的多个声道。所述方法(400)包括从所述SR输入信号(101，301)提取(401)一或多个音频对象(103，303)。此外，所述方法(400)包括基于所述SR输入信号(101，301)并基于所述一或多个音频对象(103，303)来确定(402)残差信号(102，302)。所述方法(400)还包括进行所述一或多个音频对象(103，303)和/或所述残差信号(102，302)的联合译码。另外，所述方法(400)包括基于在所述一或多个音频对象(103，303)和/或所述残差信号(102，302)的联合译码的背景下生成的数据来生成(403)位流(701)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于译码声场表示信号的方法和装置相关申请的交叉引用本专利申请要求于2018年1月18日提交的美国临时专利申请第62/618,991号的优先权权益，其整体通过引用并入。
本文档涉及声场表示信号，尤其是高保真度立体声响复制(ambisonics)信号。特别地，本文档涉及使用基于对象的音频译码方案(例如，AC-4)对声场表示信号的译码。
技术介绍
可以使用高保真度立体声响复制信号来描述放置在收听位置处的收听者的收听环境内的声音或声场。高保真度立体声响复制信号可以被视为多声道音频信号，其中每个声道对应于收听者的收听位置处的声场的特定指向性图案。可以使用三维(3D)笛卡尔坐标系来描述高保真度立体声响复制信号，其中坐标系的原点对应于收听位置，x轴指向前方，y轴指向左侧，并且Z轴指向上方。通过增加音频信号或声道的数量以及通过增加相对应的指向性图案(和相对应的平移功能)的数量，可以提高描述声场的精度。举例来说，一阶高保真度立体声响复制信号包括4个声道或波形，即指示声场的全向分量的W声道、描述具有对应于x轴的偶极指向性...

【技术保护点】
1.一种用于对描述参考位置处的声场的声场表示SR输入信号(101，301)进行编码的方法(400)；其中所述SR输入信号(101，301)包括所述参考位置处的所述声场的多个不同指向性图案的多个声道；其中所述方法(400)包括，/n-从所述SR输入信号(101，301)提取(401)一或多个音频对象(103，303)；其中音频对象(103，303)包括对象信号(601)和指示所述音频对象(103，303)的位置的对象元数据(602)；/n-基于所述SR输入信号(101，301)并基于所述一或多个音频对象(103，303)来确定(402)残差信号(102，302)；/n-进行所述一或多个音频对象(...

【技术特征摘要】
【国外来华专利技术】20180118 US 62/618,9911.一种用于对描述参考位置处的声场的声场表示SR输入信号(101，301)进行编码的方法(400)；其中所述SR输入信号(101，301)包括所述参考位置处的所述声场的多个不同指向性图案的多个声道；其中所述方法(400)包括，
-从所述SR输入信号(101，301)提取(401)一或多个音频对象(103，303)；其中音频对象(103，303)包括对象信号(601)和指示所述音频对象(103，303)的位置的对象元数据(602)；
-基于所述SR输入信号(101，301)并基于所述一或多个音频对象(103，303)来确定(402)残差信号(102，302)；
-进行所述一或多个音频对象(103，303)和/或所述残差信号(102，302)的联合译码；和
-基于在所述一或多个音频对象(103，303)和/或所述残差信号(102，302)的联合译码的背景下生成的数据来生成(403)位流(701)。

2.根据权利要求1所述的方法(400)，其中所述联合译码包括联合对象译码JOC。

3.根据任一前述权利要求所述的方法(400)，其中
-所述方法(400)包括基于所述SR输入信号(101，301)来提供下混信号(101，304)，尤其使得所述下混信号(101，304)的声道的数量小于所述SR输入信号(101，301)的声道的数量；
-所述方法(400)包括确定联合译码参数(105，305)，尤其是JOC参数，以实现将所述下混信号(101，304)上混为与所述一或多个音频对象(103，303)相对应的一或多个重构音频对象(206)和/或与所述残差信号(102，302)相对应的重构残差信号(205)；并且
-基于所述下混信号(101，304)并基于所述联合译码参数(105，305)来生成所述位流(701)。

4.根据权利要求3所述的方法(400)，其中
-所述方法(400)包括所述下混信号(101，304)的波形译码以提供下混数据；并且
-基于所述下混数据来生成所述位流(701)。

5.根据权利要求3到4中任一权利要求所述的方法(400)，其中所述联合译码参数(105，305)，尤其是所述JOC参数，包括
-上混数据，尤其是上混矩阵，其实现将所述下混信号(101，304)上混为所述一或多个重构音频对象(206)和/或所述重构残差信号(205)；和/或
-解相关数据，其实现所述一或多个音频对象(103，303)和/或所述残差信号(102，302)的协方差的重构。

6.根据权利要求3到5中任一权利要求所述的方法(400)，其中所述方法(400)包括
-将所述一或多个音频对象(103，303)的对象信号(601)变换到子带域中，尤其变换到QMF域或基于FFT的变换域中，以为每个对象信号(601)提供多个子带信号；和
-基于所述多个对象信号(601)的所述子带信号来确定所述联合译码参数(105，305)，尤其是JOC参数。

7.根据任一前述权利要求所述的方法(400)，其中
-所述残差信号(102，302)包括多声道音频信号和/或音频信号床；和/或
-所述残差信号(102，302)包括固定对象位置处的多个音频对象；和/或
-所述残差信号(102，302)包括SR信号，尤其是一阶高保真度立体声响复制信号。

8.根据任一前述权利要求所述的方法(400)，其中所述方法(400)包括
-将所述SR输入信号(101，301)变换到子带域中，尤其是QMF域或基于FFT的变换域中，以为多个不同子带提供多个SR子带信号；
-确定所述相对应的多个SR子带信号的多个主要到达方向；
-将所述多个主要到达方向聚类为n个聚类到达方向，其中n>0；和
-基于所述n个聚类到达方向来提取n个音频对象(103，303)。

9.根据权利要求8所述的方法(400)，其中所述方法(400)包括
-将所述SR输入信号(101，301)映射到所述n个聚类到达方向上，以确定所述n个音频对象(103，303)的所述对象信号(601)；和/或
-使用所述n个聚类到达方向来确定所述n个音频对象(103，303)的所述对象元数据(602)。

10.根据权利要求8到9中任一权利要求所述的方法(400)，其中所述方法(400)包括
-在所述多个子带中的每个子带中，从所述SR子带信号减去所述n个音频对象(103，303)的所述对象信号(601)的子带信号，以为所述多个子带提供多个残差子带信号；和
-基于所述多个残差子带信号来确定所述残差信号(102，302)。

11.根据任一前述权利要求所述的方法(400)，其中
-所述方法(400)包括将所述SR输入信号(301)下混为SR下混信号(304)；并且
-基于所述SR下混信号(304)来生成所述位流(701)。

12.根据权利要求11所述的方法(400)，其中
-下混所述SR输入信号(301)包括为所述SR下混信号(304)选择所述SR输入信号(301)的所述多个声道的子集；和/或
-所述SR输入信号(301)是L阶高保真度立体声响复制信号，其中L>1，并且所述SR下混信号(304)是低于L阶的高保真度立体声响复制信号。

13.根据任一前述权利要求所述的方法(400)，其中
-所述SR输入信号(101，303)的所述多个声道的所述多个不同指向性图案被布置在围绕所述参考位置的球体的多个不同的环中；
-所述不同的环表现出不同的仰角；
-同一环上的不同到达方向表现出不同的方位角；和/或
-同一环上的不同到达方向均匀地分布在所述环上。

14.根据任一前述权利要求所述的方...

【专利技术属性】
技术研发人员：K·克乔埃尔林，D·S·麦格拉思，H·普尔纳根，M·R·P·托马斯，
申请(专利权)人：杜比实验室特许公司，杜比国际公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人