用于多声道编码中的立体声填充的装置和方法制造方法及图纸

技术编号:39589554 阅读:9 留言:0更新日期:2023-12-03 19:41
提出一种用于对当前帧的编码的多声道信号进行解码以获得三个或更多个当前音频输出声道的装置

【技术实现步骤摘要】
用于多声道编码中的立体声填充的装置和方法
[0001]本申请是申请日为
2017

02

14
日且题为“用于多声道编码中的立体声填充的装置和方法”的国际申请
PCT/EP2017/053272
所对应的中国国家申请
(
申请号:
201780023524.4
,进入中国国家阶段日期:
2018

10

12

)
的分案申请



[0002]本专利技术涉及音频信号编码,具体而言,涉及用于多声道编码中的立体声填充的装置和方法


技术介绍

[0003]音频编码属于压缩领域,涉及利用音频信号中的冗余和不相关性

[0004]在
MPEG USAC

(
参见例如
[3])
,使用复数预测
、MPS2
‑1‑2或具有频带受限或全频带残余信号的统一立体声来执行两个声道的联合立体声编码
。MPEG
环绕
(
参见例如
[4])
分层地组合一对二
(OTT)
和二对三
(TTT)
框,用于多声道音频的联合编码,而无论有或没有残差信号的传输

[0005]在
MPEG

H
中,四声道元素分层地应用
MPS2/>‑1‑2立体声框,然后是复数预测
/MS
立体声框,构建固定的4×4再混合树
(
参见例如
[1])。
[0006]AC4(
参见例如
[6])
引入了新的3声道元素
、4
声道元素和5声道元素,其允许仅有发送的混合矩阵和随后的联合立体声编码信息来重新混合所发送的声道

此外,先前公开文献提出使用诸如
Karhunen

Loeve
变换
(KLT)
之类的正交变换用于增强型多声道音频编码
(
参见例如
[7])。
[0007]例如,在
3D
音频情况下,扬声器声道分布在若干高度层,结果产生水平和垂直声道对

如在
USAC
中定义,仅两个声道的联合编码不足以考虑声道之间的空间和感知关系

在附加前处理
/
后处理步骤中应用
MPEG
环绕,在不可能进行联合立体声编码的情况下个体地发送残差信号,例如以利用左垂直残差信号和右垂直残差信号之间的相依性


AC
‑4中引入了专用
N

声道元素,其允许联合编码参数的有效编码,但未能用于针对新的沈浸式回放情境
(7.1+4、22.2)
所提出的具有较多声道的一般性扬声器设置
。MPEG

H
四声道元素也限于仅4个声道并且无法动态地应用于任意声道,而仅应用于预先配置且固定数量的声道

[0008]MPEG

H
多声道编码工具允许产生离散编码立体声框子
(
亦即联合编码声道对
)
的任意树,参考
[2]。
[0009]音频信号编码中常见的问题是因量化
(
例如,频谱量化
)
而引起的

量化可能导致频谱空穴

例如,在特定频带中的所有频谱值可以在编码器侧被设置为零,作为量化结果

例如,这种谱线的确切值在量化之前可以相当低并且然后量化可能会导致如下情况,其中例如特定频带内的所有谱线的频谱值已被设置为零

当解码时,在解码器侧,这可能导致非期望的频谱空穴

[0010]现代频域语音
/
音频编码系统
(
例如,
IETF

Opus/Celt
编解码器
[9]、MPEG

4(HE

)AAC[10]、
或特别地
MPEG

D xHE

AAC(USAC)[11])
提供了取决于信号的时间稳定性而使用一
个长变换

长区块

或八个顺序短变换

短区块

来编码音频帧的手段

此外,对于低比特率编码,这些方案提供了使用相同声道的伪随机噪声或低频系数来重构声道的频率系数的工具


xHE

AAC
中,这些工具分别称作噪声填充和频谱带复制

[0011]然而,对于非常有音调或瞬时的立体声输入,单独噪声填充和
/
或频谱带复制限制了在极低比特率下可以达到的编码质量,这主要是因为需要明确地发送两个声道的许多频谱系数

[0012]MPEG

H
立体声填充是参数工具,其通过使用先前帧的降混以改善在频域中因量化引起的频谱空穴的填充

类似噪声填充,立体声填充直接在
MPEG

H
核心编码器的
MDCT
域中操作,参考
[1]、[5]、[8]。
[0013]然而,在
MPEG

H
中使用
MPEG
环绕和立体声填充受限于固定的声道对元素,因此无法利用时变声道间相依性

[0014]MPEG

H
中的多声道编码工具
(MCT)
允许适应各种声道间相依性,但由于典型操作配置中使用单个声道元素,因此不允许立体声填充

现有技术并未公开感知优化的方法以在时变的任意联合编码声道对的情况下生成先前帧的降混

组合
MCT
使用噪声填充作为立体声填充的替代以填充频谱空穴将导致噪声伪影,特别是对于调性信号尤为如此


技术实现思路

[0015]本专利技术的目的是提出改善的音频编码构思

由根据本申请示例实施例的用于解码的装置

由根据本申请示例实施例的用于编码的装置

由根据本申请示例实施例的用于解码的方法

由根据本申请示例实施例的用于编码的方法

由根据本申请示例实施例的计算机程序并通过根据本申请示例实施例的编码的多声道信号来实现本专利技术的目的

[本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种用于对先前帧的先前编码的多声道信号进行解码以获得三个或更多个先前音频输出声道并且用于对当前帧的当前编码的多声道信号
(107)
进行解码以获得三个或更多个当前音频输出声道的装置
(201)
,其中,所述装置
(201)
包括接口
(212)、
声道解码器
(202)、
用于生成所述三个或更多个当前音频输出声道的多声道处理器
(204)、
以及噪声填充模块
(220)
,其中,所述接口
(212)
适于接收所述当前编码的多声道信号
(107)
,并且适于接收包括第一多声道参数
(MCH_PAR2)
的辅助信息,其中,所述声道解码器
(202)
适于对所述当前帧的所述当前编码的多声道信号进行解码以获得所述当前帧的三个或更多个解码的声道
(D1、D2、D3)
的集合,其中,所述多声道处理器
(204)
适于根据所述第一多声道参数
(MCH_PAR2)
从所述三个或更多个解码的声道
(D1、D2、D3)
的集合中选择两个解码的声道
(D1、D2)
的第一所选对,其中,所述多声道处理器
(204)
适于基于所述两个解码的声道
(D1、D2)
的第一所选对生成第一组两个或更多个处理的声道
(P1*、P2*)
,以获得更新后的三个或更多个解码的声道
(D3、P1*、P2*)
的集合,其中,在所述多声道处理器
(204)
基于所述两个解码的声道
(D1、D2)
的第一所选对生成所述两个或更多个处理的声道
(P1*、P2*)
的第一对声道之前,所述噪声填充模块
(220)
适于针对所述两个解码的声道
(D1、D2)
的第一所选对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带,并且适于使用所述三个或更多个先前音频输出声道中的两个或更多个但非所有声道来生成混合声道,并且适于以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个频带的谱线,其中,所述噪声填充模块
(220)
适于根据所述辅助信息从所述三个或更多个先前音频输出声道中选择用于生成所述混合声道的两个或更多个先前音频输出声道
。2.
根据权利要求1所述的装置
(201)
,其中,所述噪声填充模块
(220)
适于使用所述三个或更多个先前音频输出声道中的恰好两个先前音频输出声道作为所述三个或更多个先前音频输出声道中的所述二个或更多个先前音频输出声道来生成所述混合声道;其中,所述噪声填充模块
(220)
适于根据所述辅助信息从所述三个或更多个先前音频输出声道中选择所述恰好两个先前音频输出声道
。3.
根据权利要求2所述的装置
(201)
,其中,所述噪声填充模块
(220)
适于基于以下等式或基于以下等式使用恰好两个先前音频输出声道生成所述混合声道,其中,
D
ch
是所述混合声道,其中,是所述恰好两个先前音频输出声道中的第一声道,其中,是所述恰好两个先前音频输出声道中的第二声道,所述第二声道与所述恰好两个先前音频输出声道中的所述第一声道不同,并且
其中,
d
是实数正标量
。4.
根据权利要求2所述的装置
(201)
,其中,所述噪声填充模块
(220)
适于基于以下等式或基于以下等式使用恰好两个先前音频输出声道来生成所述混合声道,其中,是所述混合声道,其中,是所述恰好两个先前音频输出声道中的第一声道,其中,是所述恰好两个先前音频输出声道中的第二声道,所述第二声道与所述恰好两个先前音频输出声道中的所述第一声道不同,并且其中,
α
是旋转角度
。5.
根据权利要求4所述的装置
(201)
,其中,所述辅助信息为被分配给所述当前帧的当前辅助信息,其中,所述接口
(212)
适于接收被分配给先前帧的先前辅助信息,其中,所述先前辅助信息包括先前角度,其中,所述接口
(212)
适于接收包括当前角度的所述当前辅助信息,并且其中,所述噪声填充模块
(220)
适于使用所述当前辅助信息的所述当前角度作为所述旋转角度
α
,并且适于不使用所述先前辅助信息的所述先前角度作为所述旋转角度
α
。6.
根据权利要求2至5中任一项所述的装置
(201)
,其中,所述噪声填充模块
(220)
适于根据所述第一多声道参数
(MCH_PAR2)
从所述三个或更多个先前音频输出声道中选择所述恰好两个先前音频输出声道
。7.
根据权利要求2‑6中任一项所述的装置
(201)
,其中,所述接口
(212)
适于接收所述当前编码的多声道信号
(107)
,并且适于接收包括所述第一多声道参数
(MCH_PAR2)
和第二多声道参数
(MCH_PAR1)
的所述辅助信息,其中,所述多声道处理器
(204)
适于根据所述第二多声道参数
(MCH_PAR1)
从所述更新后的三个或更多个解码的声道
(D3、P1*、P2*)
的集合中选择两个解码的声道
(P1*、D3)
的第二所选对,所述两个解码的声道
(P1*、D3)
的第二所选对中的至少一个声道
(P1*)
是所述两个或更多个处理的声道
(P1*、P2*)
的第一对声道中的一个声道,并且其中,所述多声道处理器
(204)
适于基于所述两个解码的声道
(P1*、D3)
的第二所选对生成第二组两个或更多个处理的声道
(P3*、P4*)
,以进一步更新所述更新后的三个或更多个解码的声道的集合
。8.
根据权利要求7所述的装置
(201)
,其中,所述多声道处理器
(204)
适于通过基于所述两个解码的声道
(D1、D2)
的第一所选对生成第一组恰好两个处理的声道
(P1*、P2*)
来生成所述第一组两个或更多个处理的声道
(P1*、P2*)
;其中,所述多声道处理器
(204)
适于用所述第一组恰好两个处理的声道
(P1*、P2*)
替换所述三个或更多个解码的声道
(D1、D2、D3)
的集合中的所述两个解码的声道
(D1、D2)
的第一
所选对,以获得所述更新后的三个或更多个解码的声道
(D3、P1*、P2*)
的集合;其中,所述多声道处理器
(204)
适于通过基于所述两个解码的声道
(P1*、D3)
的第二所选对生成第二组恰好两个处理的声道
(P3*、P4*)
来生成所述第二组两个或更多个处理的声道
(P3*、P4*)
,并且其中,所述多声道处理器
(204)
适于用所述第二组恰好两个处理的声道
(P3*、P4*)
替换所述更新后的三个或更多个解码的声道
(D3、P1*、P2*)
的集合中的所述两个解码的声道
(P1*、D3)
的第二所选对,以进一步更新所述更新后的三个或更多个解码的声道的集合
。9.
根据权利要求8所述的装置
(201)
,其中,所述第一多声道参数
(MCH_PAR2)
指示所述三个或更多个解码的声道的集合中的两个解码的声道
(D1、D2)
;其中,所述多声道处理器
(204)
适于通过选择由所述第一多声道参数
(MCH_PAR2)
指示的所述两个解码的声道
(D1、D2)
来从所述三个或更多个解码的声道
(D1、D2、D3)
的集合中选择所述两个解码的声道
(D1、D2)
的第一所选对;其中,所述第二多声道参数
(MCH_PAR1)
指示所述更新后的三个或更多个解码的声道的集合中的两个解码的声道
(P1*、D3)
;其中,所述多声道处理器
(204)
适于通过选择由所述第二多声道参数
(MCH_PAR1)
指示的所述两个解码的声道
(P1*、D3)
来从所述更新后的三个或更多个解码的声道
(D3、P1*、P2*)
的集合中选择所述两个解码的声道
(P1*、D3)
的第二所选对
。10.
根据权利要求9所述的装置
(201)
,其中,所述装置
(201)
适于向所述三个或更多个先前音频输出声道中的每个先前音频输出声道分配标识符集合中的标识符,使得所述三个或更多个先前音频输出声道中的每个先前音频输出声道被分配所述标识符集合中的恰好一个标识符,并且使得所述标识符集合中的每个标识符被分配给所述三个或更多个先前音频输出声道中的恰好一个先前音频输出声道,其中,所述装置
(201)
适于向所述三个或更多个解码的声道
(D1、D2、D3)
的集合中的每个声道分配所述标识符集合中的标识符,使得所述三个或更多个解码的声道集合中的每个声道被分配所述标识符集合中的恰好一个标识符,并且使得所述标识符集合中的每个标识符被分配给所述三个或更多个解码的声道
(D1、D2、D3)
的集合中的恰好一个声道,其中,所述第一多声道参数
(MCH_PAR2)
指示三个或更多个标识符的集合中的第一对两个标识符,其中,所述多声道处理器
(204)
适于通过选择被分配所述第一对两个标识符的两个标识符的两个解码的声道
(D1、D2)
来从所述三个或更多个解码的声道
(D1、D2、D3)
的集合中选择所述两个解码的声道
(D1、D2)
的第一所选对;其中,所述装置
(201)
适于向所述第一组恰好两个处理的声道
(P1*、P2*)
中的第一处理的声道分配所述第一对两个标识符的两个标识符中的第一标识符,并且其中,所述装置
(210)
适于向所述第一组恰好两个处理的声道
(P1*、P2*)
中的第二处理的声道分配所述第一对两个标识符的两个标识符中的第二标识符
。11.
根据权利要求
10
所述的装置
(201)
,其中,所述第二多声道参数
(MCH_PAR1)
指示所述三个或更多个标识符的集合中的第二
对两个标识符,其中,所述多声道处理器
(204)
适于通过选择被分配所述第二对两个标识符的两个标识符的两个解码的声道
(D3、P1*)
来从所述更新后的三个或更多个解码的声道
(D3、P1*、P2*)
的集合中选择所述两个解码的声道
(P1*、D3)
的第二所选对;其中,所述装置
(201)
适于向所述第二组恰好两个处理的声道
(P3*、P4*)
中的第一处理的声道分配所述第二对两个标识符的两个标识符中的第一标识符,并且其中,所述装置
(201)
适...

【专利技术属性】
技术研发人员:萨沙
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1