【技术实现步骤摘要】
【国外来华专利技术】用于编解码音频流中的元数据及用于灵活对象内和对象间比特率适配的方法和系统
[0001]本公开涉及声音编解码(code),更具体地,涉及用于对基于对象的音频(例如语音、音乐或一般音频声音)进行数字编解码的技术。具体地,本公开涉及用于响应于具有相关联的元数据的音频流对包括音频对象的基于对象的音频信号进行编解码的系统和方法以及进行解码的系统和方法。
[0002]在本公开和所附权利要求中:
[0003](a)术语“基于对象的音频”旨在将复杂的音频听觉场景表示为单独的元素的集合,也称为音频对象。此外,如上所述,“基于对象的音频”可以包括例如语音、音乐或一般音频声音。
[0004](b)术语“音频对象”旨在表示具有相关联的元数据的音频流。例如,在本公开中,“音频对象”被称为具有元数据的独立音频流(independent audio stream with metadata,ISm)。
[0005](c)术语“音频流”旨在表示比特流中的音频波形,例如语音、音乐或一般音频声音,并且可以包括一个信道(mono),也可以考虑包括 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于响应于具有相关联的元数据的音频流对包括音频对象的基于对象的音频信号进行编解码的系统,包括:音频流处理器,用于分析音频流;元数据处理器,响应于来自音频流处理器的分析的、关于音频流的信息,以对元数据进行编解码,其中元数据处理器使用用于控制元数据编解码比特预算的逻辑;和编码器,用于对音频流进行编解码。2.根据权利要求1所述的系统,其中元数据处理器使用对象内元数据编解码逻辑来限制基于对象的音频信号的帧之间的元数据编解码比特预算波动的范围,并避免对音频流进行编解码留下过低的比特预算。3.根据权利要求2所述的系统,其中元数据处理器使用对象内元数据编解码逻辑,将给定帧中的绝对编解码限制为一个元数据参数或数量尽可能少的元数据参数。4.根据权利要求2或3所述的系统,其中,元数据处理器使用对象内元数据编解码逻辑在以下情况下避免在同一帧中对第一元数据参数进行绝对编解码:如果已经使用绝对编解码对第二元数据参数进行了编解码。5.根据权利要求2至4中任一项所述的系统,其中对象内元数据编解码逻辑是比特率相关的,以便如果比特率足够大,则能够对同一帧中的多个元数据参数进行绝对编解码。6.根据权利要求1所述的系统,其中元数据处理器将对象间元数据编解码逻辑应用于不同音频对象的元数据编解码,以在当前帧中最小化使用绝对编解码所编解码的不同音频对象的元数据参数的数量。7.根据权利要求6所述的系统,其中元数据处理器使用对象间元数据编解码逻辑,控制使用绝对编解码所编解码的元数据参数的帧计数器。8.根据权利要求6或7所述的系统,其中元数据处理器使用对象间元数据编解码逻辑,按帧来对一个音频对象元数据参数进行编解码。9.根据权利要求6至8中任一项所述的系统,其中当音频对象的元数据参数缓慢且平滑地演变时,元数据处理器使用对象间元数据编解码逻辑:(a)在帧M中使用绝对编解码对第一音频对象的第一元数据参数进行编解码,(b)在帧M+1中使用绝对编解码对第一音频对象的第二元数据参数进行编解码,(c)在帧M+2中使用绝对编解码对第二音频对象的第一元数据参数进行编解码,以及(d)在帧M+3中使用绝对编解码对第二音频对象的第二元数据参数进行编解码。10.根据权利要求6至9中任一项所述的系统,其中对象间元数据编解码逻辑是比特率相关的,以便如果比特率足够大,则能够对同一帧中的音频对象的多个元数据参数进行绝对编解码。11.根据权利要求1至10中任一项所述的系统,包括用于缓冲多个音频对象的输入缓冲器,每个音频对象包括具有相关联的元数据的音频流中的一个。12.根据权利要求1至11中任一项所述的系统,其中:
‑
音频流处理器分析音频流以检测语音活动性;
‑
元数据处理器包括使用来自音频流处理器的、语音活动性检测的每个音频对象的元数据的分析器,以确定当前帧相对于音频对象是非活动的还是活动的;
‑
在非活动帧中,元数据处理器不对与音频对象相关的元数据进行编解码;和
‑
在活动帧中,元数据处理器对音频对象的元数据进行编解码。13.根据权利要求1至12中任一项所述的设备,其中元数据处理器利用音频对象的量化和音频对象的元数据参数之间的相关性,在循环中顺序地对元数据进行编解码。14.根据权利要求1至13中任一项所述的系统,其中为了量化音频对象的元数据参数,元数据处理器包括使用量化步长的元数据参数索引的量化器。15.根据权利要求1至14中任一项所述的系统,其中:每个音频对象的元数据包括方位角参数和仰角参数;和为了量化方位角和仰角参数,元数据处理器包括使用量化步长的方位角索引的和使用量化步长的仰角参数索引的量化器。16.根据权利要求14或15所述的系统,其中用于对元数据进行编解码的总元数据比特预算和用于量化元数据参数索引的量化比特总数取决于编解码器总比特率、元数据总比特率或与一个音频对象相关的元数据比特预算和核心编码器比特预算的总和。17.根据权利要求1至16中任一项所述的系统,其中:每个音频对象的元数据包括多个元数据参数;元数据处理器将多个元数据参数表示为一个参数;和元数据处理器包括所述一个参数的索引的量化器。18.根据权利要求14至16中任一项所述的系统,其中元数据处理器包括元数据编码器,用于使用绝对编解码或差分编解码对元数据参数索引进行编解码。19.根据权利要求18所述的系统,其中如果与使用绝对编解码相比,参数索引的当前值和先前值之间的差值导致使用差分编解码的比特的数量更高或相等,则元数据编码器使用绝对编解码来对元数据参数索引进行编解码。20.根据权利要求18或19所述的系统,其中如果在先前帧中不存在元数据,则元数据编码器处理器使用绝对编解码来对元数据参数索引进行编解码。21.根据权利要求18至20中任一项所述的系统,其中当使用差分编解码的连续帧的数量高于使用差分编解码所编解码的最大连续帧的数量时,元数据编码器使用绝对编解码来对元数据参数索引进行编解码。22.根据权利要求18至21中任一项所述的系统,其中当使用绝对编解码对元数据参数索引进行编解码时,元数据编码器产生区分绝对编解码和差分编解码的绝对编解码标志,并且之后是使用绝对编解码进行编解码的元数据参数索引。23.根据权利要求22所述的系统,其中,当使用差分编解码对元数据参数索引进行编码时,元数据编码器将绝对编解码标志设置为0,并在绝对编解码标志之后产生零编解码标志,以信令通知当前帧中的元数据参数索引和先前帧中的元数据参数索引之间的差值等于0。24.根据权利要求23所述的系统,其中,如果当前帧中的元数据参数索引和先前帧中的元数据参数索引之间的差值不等于0,则元数据编码器产生指示差值的加号或减号的符号标志,之后是指示差值的值的差值索引。25.根据权利要求1至24中任一项所述的系统,其中元数据处理器输出关于用于对音频对象的元数据进行编解码的比特预算的信息,并且其中系统还包括比特预算分配器,其响应于来自元数据处理器的关于用于对音频对象的元数据进行编解码的比特预算的信息,以
分配用于对音频流进行编解码的比特率。26.根据权利要求25所述的系统,其中比特预算分配器对用于对音频对象的元数据进行编解码的比特预算进行求和,并将比特预算的总和添加到信令比特预算,以在音频流之间执行比特率分配。27.根据权利要求25或26所述的系统,包括预处理器,用于在比特预算分配器在音频流之间完成比特率分配时,进一步处理音频流。28.根据权利要求27所述的系统,其中预处理器执行音频流的进一步分类、核心编码器选择和重采样中的至少一个。29.根据权利要求1至28中任一项所述的系统,其中音频流的编码器包括用于对音频流进行编解码的多个核心编码器。30.根据权利要求29所述的系统,其中核心编码器是对音频流顺序地编解码的波动比特率核心编码器。31.一种用于编解码包括基于场景的音频、多信道和基于对象的音频信号的复杂音频...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。