用于在参数化多声道操作与单独声道操作之间切换的多声道音频编码器、解码器、方法和计算机程序技术

技术编号:31669929 阅读:52 留言:0更新日期:2022-01-01 10:11
提供了一种用于基于输入音频表示(110)来提供经编码的音频表示(112)的多声道音频编码器(100)。所述多声道音频编码器(100)被配置为根据输入音频表示(110)的特性,在多个声道的参数化多声道编码(120)与多个声道的单独编码(130)之间进行切换(140)。(130)之间进行切换(140)。(130)之间进行切换(140)。

【技术实现步骤摘要】
【国外来华专利技术】用于在参数化多声道操作与单独声道操作之间切换的多声道音频编码器、解码器、方法和计算机程序


[0001]本申请涉及用于立体声、双声道或多于双声道应用的多声道音频编码和解码。更具体地,它涉及一般音频编码/解码、或语音编码/解码、或使用具有缩放因子的变换域编码/解码和/或基于线性预测系数的编码/解码的编码/解码。

技术介绍

[0002]为了传输以具有两个或更多个麦克风的麦克风布置(这些麦克风之间具有一定距离)捕获的立体声语音信号,在需要低比特率时,可以使用参数化立体声技术。[1]中描述了示例性参数化立体声技术。对于其中麦克风布置的周围存在两个或更多个讲话者并且在相同时间段内多于一个讲话者同时讲话的情况,参数化立体声系统可以在大多数情况下充分地执行。然而,存在一些情况,其中参数化模型可能无法重现立体声映像并且针对干扰讲话者场景传递了可理解的语音输出。例如,在两个或更多个讲话者中的每一个以不同的ITD(声道间时间差)捕获、ITD值较大(麦克风之间的距离较大)和/或讲话者正坐在麦克风布置轴周围的相反位置时,会发生这种情况。
[0003]此外,在如[1]中描述的参数化立体声方案中,提取一些参数以重现空间立体声场景,并将立体声信号推导为被进一步编码的单声道降混。在干扰讲话者的情况下,可以使用诸如[2]中描述的CELP之类的语音编码器对降混信号进行编码。然而,这样的编码方案是语音产生的源滤波器模型,被设计来表示单个讲话者语音。对于干扰讲话者,可能违反了核心编码模型,并且感知质量下降。
[0004]本专利技术的目的是至少部分地克服传统方法的缺点。

技术实现思路

[0005]该目的通过根据权利要求1的多声道音频编码器、根据权利要求26的多声道音频解码器、根据权利要求26的经编码的多声道音频表示、根据权利要求30的多声道音频编码的方法、根据权利要求31的多声道音频解码的方法和根据权利要求32的计算机程序来解决。
[0006]提供了一种多声道音频编码器。多声道音频编码器可以是立体声、或者双声道或多于双声道的音频编码器。音频编码器可以是一般音频编码器、或语音编码器、或在使用缩放因子的变换域编码与基于线性预测系数的编码之间进行切换的编码器。编码器被配置用于基于输入音频表示来提供经编码的音频表示。编码器被配置为根据输入音频表示的特性,在多个声道(例如输入音频表示的多个声道)的参数化多声道编码与多个声道(例如输入音频表示的多个声道)的单独编码之间进行切换。
[0007]参数化多声道编码可以对组合了多个声道信号的组合信号进行编码,并且以参数形式对两个或更多个声道之间的关系进行编码。参数可以包括声道间时间差参数、和/或声道间电平差参数、和/或声道间相位参数和/或声道间相关参数。
[0008]根据输入音频表示的特性,在参数化多声道编码与单独编码之间进行切换,有利地允许了使编码适于输入音频表示的特性。参数化多声道编码与单独编码之间的选择性切换,可以导致选择更适合对潜在的输入音频表示进行编码的编码,使得得到的经编码的音频表示可以具有关于例如感知性能的有利属性。
[0009]换言之,本专利技术涉及以下二者之间的权衡:获得输入音频表示的特性然后根据特性进行动作(例如切换)所付出的努力,以及通过使用例如就性能标准而言可能对某个输入音频表示(或其一部分)有利的编码对输入音频表示进行编码的益处。
[0010]根据实施例,多声道编码器可以被配置为确定输入音频表示是否满足参数化多声道编码下的模型的假设,并且根据该确定进行切换。假设可以包括:存在单个扬声器,例如,每个时频部分中存在单个显著声道间时间差/耳间时间差(ITD)。例如,输入音频表示的特性可以提供两个或更多个讲话者干扰的指示,因此可能违反了参数化多声道编码下的模型关于单个扬声器的假设。
[0011]根据实施例,多声道编码器可以被配置为:如果不满足参数化多声道编码下的模型的假设,则切换到单独编码。例如,对于一些输入音频表示,可能不满足参数化多声道编码下的模型关于扬声器数量和这些扬声器的ITD/多个ITD的假设。然而,可以满足单独编码下的模型的假设。因此,切换到单独编码可以导致有利的性能。
[0012]根据实施例,多声道编码器可以被配置为确定输入音频表示是否与主导源(例如单个主导源)相对应。在这种情况下,其他源(例如所有其他源)可能较弱,例如至少相差预定强度差。编码器可以被配置为根据该确定进行切换。主导源存在或不存在可以提供关于参数化编码还是单独编码可能在性能方面有利的指示。
[0013]根据实施例,多声道编码器可以被配置为确定在多个时频部分中是否存在单个主导源,和/或确定在给定时频部分中是否存在两个或更多个源,两个或更多个源的多声道编码参数至少相差预定偏差或相差超过预定偏差。多声道编码器可以被配置为根据该确定进行切换。多个时频部分可以备选地包括所有时频部分。两个或更多个源可以满足源的显著性条件,例如,是处于不同位置的相关和/或显著和/或值得注意的源。多声道编码参数可以是ITD。确定单个源可以允许选择编码,该编码下的模型适合处理单个源,例如,参数化编码。确定一个或多个时频部分中的单个源可以允许针对满足编码下的模型(例如参数化模型)的假设的一个或多个部分,选择编码。确定给定时频部分中的两个或更多个源可以指示具有基于单个源的潜在模型的编码可能无法提供给定时频部分期望的性能,因此切换给定部分的编码可以导致有利的性能。确定多声道参数是否至少相差预定偏差(或超过预定偏差)可以允许确定两个或更多个源是否可能导致编码下的模型的假设被违反,因此可以是切换到不同编码的指示。
[0014]在实施例中,多声道编码器可以被配置为确定参数化多声道编码下的模型的参数,并且根据模型的参数进行切换。例如,模型的参数可以是声道间时间差、耳间时间差ITD。参数可以描述输入音频表示的两个或更多个声道之间的关系。确定参数化多声道编码下的模型的参数,可以允许对参数化模型针对输入音频表示的两个或更多个声道之间的给定关系传递期望性能的能力进行评估,并且执行切换,以便实现有利的性能。
[0015]在实施例中,多声道编码器可以被配置为确定定义输入音频表示的声道之间的关系的特性是允许多声道编码参数的明确确定,还是指示多声道编码参数的两个或更多个不
同的可能值,并且根据该确定进行切换。例如,定义声道之间的关系的特性可以是广义互相关相位变换(GCC

PHAT)在滞后参数上的演变,或者两个或多个声道之间的互相关函数在滞后参数上的演变。多声道编码参数可以是ITD。两个或更多个不同的可能(例如有意义的)值可以至少相差预定值,并且可以与本底噪声区分开。特性可以包括关于它们的显著性至多相差一(预定的或信号自适应的)差异(例如值)的两个或更多个值(例如峰值、或满足显著性条件的值),或者特性仅包括满足显著性条件的单个值。通过使用广义互相关相位变换的演变或互相关函数的演变来确定输入音频表示的声道之间的关系,可以允许对声道之间的关系进行量化,以获得特性。确定多声道编码参数的两个或更多个不同值是否本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种多声道音频编码器(100、500、800),用于基于输入音频表示(110、510a、510b、810)来提供经编码的音频表示(112、552、562、812),其中,所述多声道音频编码器(100、500、800)被配置为根据所述输入音频表示(110、510a、510b、810)的特性,在多个声道的参数化多声道编码(120、550、830)与多个声道的单独编码(130、560、834)之间进行切换。2.根据权利要求1所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述输入音频表示(110、510a、510b、810)是否满足所述参数化多声道编码(120、550、830)下的模型的假设,并且根据所述确定进行切换。3.根据权利要求2所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为如果不满足所述参数化多声道编码(120、550、830)下的模型的假设,则切换到所述单独编码(130、560、834)。4.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述输入音频表示(110、510a、510b、810)是否与主导源相对应,并且根据所述确定进行切换。5.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定在多个时频部分中是否存在单个主导源,和/或确定在给定时频部分中是否存在两个或更多个源,并且根据所述确定进行切换,所述两个或更多个源的多声道编码参数至少相差预定偏差或者相差超过预定偏差。6.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述参数化多声道编码(120、550、830)下的模型的参数,并且根据所述模型的参数进行切换。7.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定定义所述输入音频表示(110、510a、510b、810)的声道之间的关系的特性是允许多声道编码参数的明确确定,还是指示多声道编码参数的两个或更多个不同的可能值,并且根据所述确定进行切换。8.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定定义所述输入音频表示(110、510a、510b、810)的声道之间的关系的特性是否仅包括满足显著性条件的单个显著值,或者定义所述输入音频表示(110、510a、510b、810)的声道之间的关系的特性是否包括满足所述显著性条件的两个或更多个显著值,并且根据所述确定进行切换。9.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定先前帧的参数,并且根据所述先前帧的参数进行切换。10.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述输入音频表示(110、510a、510b、810)中是否存在干扰源,并且根据所述确定进行切换。11.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定是否存在描述所述输入音频表示
(110、510a、510b、810)的两个或更多个声道之间的关系的两个或更多个值,并且根据所述确定进行切换,所述两个或更多个值满足显著性条件且与单个时频部分相关联。12.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述输入音频表示的两个或更多个声道之间的互相关中是否存在两个或更多个峰(610、615、620、625、710、720),并且根据所述确定进行切换。13.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)包括估计器(530、840),所述估计器(530、840)被配置为基于互相关来估计所述输入音频表示(110、510a、510b、810)的两个或更多个声道之间的关系,以及所述多声道编码器(100、500、800)被配置为确定与不同的互相关滞后相关联的两个峰值(610、615、620、625、710、720)之间的差是否大于一个值,并且根据所述确定进行切换。14.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定描述所述输入音频表示(110、510a、510b、810)的两个或更多个声道之间的关系的两个或更多个值之间的距离是否大于一个值,并且根据所述确定进行切换,所述两个或更多个值满足显著性条件且与相同的时频部分相关联。15.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为基于互相关的演变来确定第一特性值,并且根据所述确定进行切换。16.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为基于互相关的演变来确定一个或多个从属特性值,并且根据所述确定进行切换,和/或其中,所述多声道编码器(100、500、800)被配置为基于所述互相关的演变来确定是否存在一个或多个从属特性值,并且根据所述确定进行切换。17.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定主峰(610、620、710)与一个或多个从属峰(615、625、720)是否满足显著性条件,并且根据所述确定进行切换,和/或其中,所述多声道编码器(100、500、800)被配置为确定互相关中是否存在满足相关性标准的一个或多个从属峰(615、625、720),并且根据所述确定进行切换。18.根据前述权利要求之一所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为如果在给定帧之前的一个或多个帧中存在一个或多个对应的从属峰(615、625、720),则选择性地考虑所述输入音频表示的所述给定帧中的从属峰(615、625、720)。19.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定描述所述输入音频表示(110、510a、510b、810)的两个或更多个声道之间的关系的一个或多个特性值是否满足稳定性条件,并且根据所述确定进行切换。20.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,
所述多声道编码器(100、500、800)被配置为针对多个帧,确定是否满足噪声条件,并且如果满足所述噪声条件,则选择性地避免切换。21.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为针对多个帧,确定是否满足特性值的显著性条件和/或稳定性条件,并且根据所述确定进行切换。22.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述一个或多个从属峰(615、625、720)的距离是否在预定范围内,并且根据所述确定进行切换和/或者选择性地避免切换。23.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为在所述输入音频表示的非活动帧之后的第一帧处或者在所述第一帧处之后,选择性地避免切换,和/或所述多声道编码器(100、500、800)被配置为确定帧中的给定标志是否已经相对于一个或多个先前帧改变,并且根据所述确定选择性地避免切换。24.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为响应于检测到所述输入音频表示(110、510a、510b)的特性的改变大于阈值,选择性地切换到所述单独编码(130、560、834)。25.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定描述声源的方向的参数是否已经改变了至少一个值,并且根据所述确定进行切换。26.一种多声道音频解码器(200),用于基于经编码的音频表示(210)来提供经解码的音频表示(212),其中,所述多声道音频解码器(200)被配置为在多个声道的参数化多声道解码(220)与多个声道的单独解码(230)之间进行切换。27.根据权利要求26所述的多声道音频解码器(200),其中,所述多声道音频解码器被配置为根据包括在所述经编码的音频表示(210)中的信令,在所述参数化多声道解码(220)与所述单独解码(230)之间进行切换。28.一种经编码的多声道音频表示,包括:多个声道的经编码的参数化多声道表示;以及多个声道的经编码的单独表示。29.根据权利要求28所述的经编码的多声道音频表示,还包括:指示在所述参数化多声道表示与所述单独表示之间进行切换的信令。30.一种多声道音频编码的方法(300),用于基于输入音频表示来提供(320)经编码的音频表示,所述方法包括:根据所述输入音频表示的特性,在多个声道的参数化多声道编码与多个声道的单独编码之间进行切换(310)。31.一种多声道音频解码的方法(400),用于基于经编...

【专利技术属性】
技术研发人员:以马利
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1