【技术实现步骤摘要】
【国外来华专利技术】用于在参数化多声道操作与单独声道操作之间切换的多声道音频编码器、解码器、方法和计算机程序
[0001]本申请涉及用于立体声、双声道或多于双声道应用的多声道音频编码和解码。更具体地,它涉及一般音频编码/解码、或语音编码/解码、或使用具有缩放因子的变换域编码/解码和/或基于线性预测系数的编码/解码的编码/解码。
技术介绍
[0002]为了传输以具有两个或更多个麦克风的麦克风布置(这些麦克风之间具有一定距离)捕获的立体声语音信号,在需要低比特率时,可以使用参数化立体声技术。[1]中描述了示例性参数化立体声技术。对于其中麦克风布置的周围存在两个或更多个讲话者并且在相同时间段内多于一个讲话者同时讲话的情况,参数化立体声系统可以在大多数情况下充分地执行。然而,存在一些情况,其中参数化模型可能无法重现立体声映像并且针对干扰讲话者场景传递了可理解的语音输出。例如,在两个或更多个讲话者中的每一个以不同的ITD(声道间时间差)捕获、ITD值较大(麦克风之间的距离较大)和/或讲话者正坐在麦克风布置轴周围的相反位置时,会发生这种情况。
[0003]此外,在如[1]中描述的参数化立体声方案中,提取一些参数以重现空间立体声场景,并将立体声信号推导为被进一步编码的单声道降混。在干扰讲话者的情况下,可以使用诸如[2]中描述的CELP之类的语音编码器对降混信号进行编码。然而,这样的编码方案是语音产生的源滤波器模型,被设计来表示单个讲话者语音。对于干扰讲话者,可能违反了核心编码模型,并且感知质量下降。
[0004]本专利技术的目的是至少 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种多声道音频编码器(100、500、800),用于基于输入音频表示(110、510a、510b、810)来提供经编码的音频表示(112、552、562、812),其中,所述多声道音频编码器(100、500、800)被配置为根据所述输入音频表示(110、510a、510b、810)的特性,在多个声道的参数化多声道编码(120、550、830)与多个声道的单独编码(130、560、834)之间进行切换。2.根据权利要求1所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述输入音频表示(110、510a、510b、810)是否满足所述参数化多声道编码(120、550、830)下的模型的假设,并且根据所述确定进行切换。3.根据权利要求2所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为如果不满足所述参数化多声道编码(120、550、830)下的模型的假设,则切换到所述单独编码(130、560、834)。4.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述输入音频表示(110、510a、510b、810)是否与主导源相对应,并且根据所述确定进行切换。5.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定在多个时频部分中是否存在单个主导源,和/或确定在给定时频部分中是否存在两个或更多个源,并且根据所述确定进行切换,所述两个或更多个源的多声道编码参数至少相差预定偏差或者相差超过预定偏差。6.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述参数化多声道编码(120、550、830)下的模型的参数,并且根据所述模型的参数进行切换。7.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定定义所述输入音频表示(110、510a、510b、810)的声道之间的关系的特性是允许多声道编码参数的明确确定,还是指示多声道编码参数的两个或更多个不同的可能值,并且根据所述确定进行切换。8.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定定义所述输入音频表示(110、510a、510b、810)的声道之间的关系的特性是否仅包括满足显著性条件的单个显著值,或者定义所述输入音频表示(110、510a、510b、810)的声道之间的关系的特性是否包括满足所述显著性条件的两个或更多个显著值,并且根据所述确定进行切换。9.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定先前帧的参数,并且根据所述先前帧的参数进行切换。10.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述输入音频表示(110、510a、510b、810)中是否存在干扰源,并且根据所述确定进行切换。11.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定是否存在描述所述输入音频表示
(110、510a、510b、810)的两个或更多个声道之间的关系的两个或更多个值,并且根据所述确定进行切换,所述两个或更多个值满足显著性条件且与单个时频部分相关联。12.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述输入音频表示的两个或更多个声道之间的互相关中是否存在两个或更多个峰(610、615、620、625、710、720),并且根据所述确定进行切换。13.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)包括估计器(530、840),所述估计器(530、840)被配置为基于互相关来估计所述输入音频表示(110、510a、510b、810)的两个或更多个声道之间的关系,以及所述多声道编码器(100、500、800)被配置为确定与不同的互相关滞后相关联的两个峰值(610、615、620、625、710、720)之间的差是否大于一个值,并且根据所述确定进行切换。14.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定描述所述输入音频表示(110、510a、510b、810)的两个或更多个声道之间的关系的两个或更多个值之间的距离是否大于一个值,并且根据所述确定进行切换,所述两个或更多个值满足显著性条件且与相同的时频部分相关联。15.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为基于互相关的演变来确定第一特性值,并且根据所述确定进行切换。16.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为基于互相关的演变来确定一个或多个从属特性值,并且根据所述确定进行切换,和/或其中,所述多声道编码器(100、500、800)被配置为基于所述互相关的演变来确定是否存在一个或多个从属特性值,并且根据所述确定进行切换。17.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定主峰(610、620、710)与一个或多个从属峰(615、625、720)是否满足显著性条件,并且根据所述确定进行切换,和/或其中,所述多声道编码器(100、500、800)被配置为确定互相关中是否存在满足相关性标准的一个或多个从属峰(615、625、720),并且根据所述确定进行切换。18.根据前述权利要求之一所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为如果在给定帧之前的一个或多个帧中存在一个或多个对应的从属峰(615、625、720),则选择性地考虑所述输入音频表示的所述给定帧中的从属峰(615、625、720)。19.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定描述所述输入音频表示(110、510a、510b、810)的两个或更多个声道之间的关系的一个或多个特性值是否满足稳定性条件,并且根据所述确定进行切换。20.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,
所述多声道编码器(100、500、800)被配置为针对多个帧,确定是否满足噪声条件,并且如果满足所述噪声条件,则选择性地避免切换。21.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为针对多个帧,确定是否满足特性值的显著性条件和/或稳定性条件,并且根据所述确定进行切换。22.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定所述一个或多个从属峰(615、625、720)的距离是否在预定范围内,并且根据所述确定进行切换和/或者选择性地避免切换。23.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为在所述输入音频表示的非活动帧之后的第一帧处或者在所述第一帧处之后,选择性地避免切换,和/或所述多声道编码器(100、500、800)被配置为确定帧中的给定标志是否已经相对于一个或多个先前帧改变,并且根据所述确定选择性地避免切换。24.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为响应于检测到所述输入音频表示(110、510a、510b)的特性的改变大于阈值,选择性地切换到所述单独编码(130、560、834)。25.根据前述权利要求中任一项所述的多声道编码器(100、500、800),其中,所述多声道编码器(100、500、800)被配置为确定描述声源的方向的参数是否已经改变了至少一个值,并且根据所述确定进行切换。26.一种多声道音频解码器(200),用于基于经编码的音频表示(210)来提供经解码的音频表示(212),其中,所述多声道音频解码器(200)被配置为在多个声道的参数化多声道解码(220)与多个声道的单独解码(230)之间进行切换。27.根据权利要求26所述的多声道音频解码器(200),其中,所述多声道音频解码器被配置为根据包括在所述经编码的音频表示(210)中的信令,在所述参数化多声道解码(220)与所述单独解码(230)之间进行切换。28.一种经编码的多声道音频表示,包括:多个声道的经编码的参数化多声道表示;以及多个声道的经编码的单独表示。29.根据权利要求28所述的经编码的多声道音频表示,还包括:指示在所述参数化多声道表示与所述单独表示之间进行切换的信令。30.一种多声道音频编码的方法(300),用于基于输入音频表示来提供(320)经编码的音频表示,所述方法包括:根据所述输入音频表示的特性,在多个声道的参数化多声道编码与多个声道的单独编码之间进行切换(310)。31.一种多声道音频解码的方法(400),用于基于经编...
【专利技术属性】
技术研发人员:以马利,
申请(专利权)人:弗劳恩霍夫应用研究促进协会,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。