使用参数转换来处理编码音频场景的装置、方法或计算机程序制造方法及图纸

技术编号:38394105 阅读:20 留言:0更新日期:2023-08-05 17:47
一种用于处理表示与虚拟听者位置相关的声场的编码音频场景(130)的装置,该编码音频场景包括关于传输信号(122)的信息和与虚拟听者位置相关的第一参数集(112),所述装置包括:参数转换器(110),用于将第一参数集(112)转换为第二参数集(114),该第二参数集(114)与包括两个或更多个声道的声道表示相关,用于在预定义空间位置处再现两个或更多个声道;以及输出接口(120),用于使用第二参数集和关于传输信号(122)的信息来生成经处理的音频场景(124)。号(122)的信息来生成经处理的音频场景(124)。号(122)的信息来生成经处理的音频场景(124)。

【技术实现步骤摘要】
【国外来华专利技术】使用参数转换来处理编码音频场景的装置、方法或计算机程序


[0001]本专利技术涉及音频处理,具体涉及对编码音频场景进行的处理以便生成经处理的音频场景用于渲染、传输或存储。

技术介绍

[0002]传统上,提供用于用户通信(如电话或电话会议)手段的音频应用已经主要局限于单声道录制和回放。然而,近年来,新的沉浸式VR/AR技术的出现已经引发了人们对通信场景的空间渲染的兴趣。为了满足这种兴趣,当前正在开发被称为沉浸式语音和音频服务(IVAS)的新3GPP音频标准。基于最近发布的增强型语音服务(EVS)标准,IVAS提供能够渲染沉浸式音频场景的多声道和VR扩展,用于例如空间电话会议,同时仍然满足流畅音频通信的低延迟要求。这种在不牺牲回放质量的情况下将编解码器的总延迟保持在最低水平的持续需求为下文中所述的工作提供了动力。
[0003]使用在低比特率(例如,32kbps及以下)下使用参数音频编码(如定向音频编码(DirAC)[1][2])的系统对基于场景的音频(SBA)材料(如三阶环绕声内容)进行编码仅允许直接编码单个(传输)声道,同时经由滤波器组域中的解码器处的侧边参数恢复空间信息。在解码器处的扬声器设置仅能够进行立体声回放的情况下,不需要3D音频场景的完全恢复。由于对两个或更多个传输声道的较高比特率编码是可能的,因此在这些情况下,可以直接提取并回放场景的立体声再现,而无需任何参数空间上混(完全跳过空间渲染器)和伴随它而来的额外延迟(例如由于附加的滤波器组分析/合成,如复数值低延迟滤波器组(CLDFB))。然而,在仅一个传输声道的低速率情况下,这是不可能的。因此,在DirAC的情况下,直到现在为止,立体声输出需要具有后续L/R转换的FOA(一阶环绕声)上混。这是有问题的,因为这种情况现在比系统中其他可能的立体声输出配置具有更高的总延迟,并且将期望所有立体声输出配置的对齐。
[0004]具有高延迟的DirAC立体声渲染的示例
[0005]图12示出了用于具有高延迟的DirAC立体声上混的常规解码器处理的框图示例。
[0006]例如,在未描绘的编码器处,单个下混声道经由DirAC编码器处理中的空间下混来导出,并且随后使用核心编码器(如增强型语音服务(EVS))来编码[3]。
[0007]在解码器处,例如,使用图12中描绘的常规DirAC上混过程,将首先通过使用单声道或IVAS单声道解码器1210从比特流1212中解码一个可用传输声道,从而生成可以被看作是原始音频场景的解码单声道下混1214的时域信号。
[0008]解码单声道信号1214被输入到CLDFB 1220,用于分析引起延迟的信号1214(将信号转换到频域中)。显著延迟的输出信号1222进入DirAC渲染器1230。DirAC渲染器1230处理延迟的输出信号1222,并且发送的侧边信息(即,DirAC侧边参数1213)用于将信号1222变换为FOA表示(即,原始场景的FOA上混1232,其具有从DirAC侧边参数1213恢复的空间信息)。
[0009]所发送的参数1213可以包括方向角(例如,针对水平面的一个方位角值和针对竖
直平面的一个仰角)和每个频带的一个扩散值,以感知地描述整个3D音频场景。由于DirAC立体声上混的按频带处理,参数1213每帧发送多次,即针对每个频带一组。此外,每个组包括(例如,20ms长度的)整个帧内针对各个子帧的多个方向参数,用于提高时间分辨率。
[0010]DirAC渲染器1230的结果可以是例如FOA格式的全3D场景(即,FOA上混1232),现在可以使用矩阵变换1240将该全3D场景转换为适合于在立体声扬声器设置上进行回放的L/R信号1242。换言之,L/R信号1242可以被输入到立体声扬声器或者可以被输入到使用预定义声道权重的CLDFB合成1250。CLDFB合成1250将频域中所输入的两个输出声道(L/R信号1242)转换到时域中,从而生成准备好立体声回放的输出信号1252。
[0011]备选地,可以使用相同的DirAC立体声上混来直接生成针对立体声输出配置的渲染,这避免生成FOA信号的中间步骤。这将降低框架的潜在复杂化的算法复杂度。然而,两种方法都需要在核心编码之后使用附加的滤波器组,这会导致附加的5ms延迟。可以在[2]中找到DirAC渲染的其他示例。
[0012]DirAC立体声上混方法在延迟方面和复杂度方面都是相当次优的。由于CLDFB滤波器组的使用,输出显著被延迟(在DirAC示例中延迟附加的5ms),因此具有与完整SBA上混相同的总延迟(与其中不需要渲染的附加步骤的立体声输出配置的延迟相比)。这也是合理的假设,即就系统复杂度而言,进行完整SBA上混以生成立体声信号并不理想。
[0013]本专利技术的目的是提供一种用于处理编码音频场景的改进构思。
[0014]该目的通过权利要求1的用于处理编码音频场景的装置、权利要求32的处理编码音频场景的方法或权利要求33的计算机程序来实现。
[0015]本专利技术基于以下发现:根据与参数转换相关的第一方面,通过将与虚拟听者位置相关的编码音频场景中的给定参数转换为与给定输出格式的声道表示相关的转换参数来获得用于处理编码音频场景的改进构思。该过程在基于声道的环境中处理并最终渲染经处理的音频场景时提供了高度的灵活性。
[0016]根据本专利技术的第一方面的实施例包括一种用于处理表示与虚拟听者位置相关的声场的编码音频场景的装置,该编码音频场景包括关于传输信号的信息(例如,核心编码音频信号)和与虚拟听者位置相关的第一参数集。该装置包括:参数转换器,用于将第一参数集(例如,B格式或一阶环绕声(FOA)格式的定向音频编码(DirAC)侧边参数)转换为与包括两个或更多个声道的声道表示相关的第二参数(例如,立体声参数)集,用于在预定义的空间位置处再现该两个或更多个声道;以及输出接口,用于使用第二参数集和关于传输信号的信息来生成经处理的音频场景。
[0017]在实施例中,短时傅立叶变换(STFT)滤波器组用于上混,而不是定向音频编码(DirAC)渲染器。因此,可以将一个下混声道(包括在比特流中)上混为立体声输出,而无需任何附加的总延迟。通过在解码器处使用具有非常短重叠的窗口进行分析,该上混允许保持在通信编解码器或即将到来的沉浸式语音和音频服务(IVAS)所需的总延迟内。该值例如可以是32毫秒。在这种实施例中,可以避免以带宽扩展为目的的任何后处理,因为这种处理可以与参数转换或参数映射并行进行。
[0018]通过将针对低频带(LB)信号的特定于听者的参数映射到针对低频带的特定于声道的立体声参数集中,可以实现DFT域内针对低频带的低延迟上混。对于高频带,单个立体声参数集允许在时域中执行高频带的上混,优选地与针对低频带的频谱分析、频谱上混和
频谱合成并行执行。
[0019]示例性地,参数转换器被配置为使用用于平移的单侧边增益参数、以及与立体声宽度密切相关且还与定向音频编码(DirAC)中使用的扩散参数密切相关的残本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于处理表示与虚拟听者位置相关的声场的编码音频场景(130)的装置,所述编码音频场景(130)包括关于传输信号(122)的信息和与所述虚拟听者位置相关的第一参数集(112),所述装置包括:参数转换器(110),用于将所述第一参数集(112)转换为第二参数集(114),所述第二参数集(114)与包括两个或更多个声道的声道表示相关,用于在预定义空间位置处再现所述两个或更多个声道;以及输出接口(120),用于使用所述第二参数集(114)和关于所述传输信号(122)的信息来生成经处理的音频场景(124)。2.根据权利要求1所述的装置,其中,所述输出接口(120)被配置用于使用所述第二参数集(114)将所述传输信号(122)上混为包括所述两个或更多个声道的上混信号。3.根据权利要求1所述的装置,其中,所述输出接口(120)被配置为通过如下方式生成所述经处理的音频场景(124):将所述传输信号(122)或关于所述传输信号(122)的信息与所述第二参数集(114)进行组合,以获得经转码的音频场景作为所述经处理的音频场景(124)。4.根据前述权利要求之一所述的装置,其中,对于多个输入时间帧中的每个输入时间帧(210)以及对于多个输入频带(230)中的每个输入频带(231),所述第一参数集(112)包括至少一个DirAC参数,其中,所述参数转换器(110)被配置为计算所述第二参数集(114)作为参数立体声或多声道参数。5.根据权利要求4所述的装置,其中,所述至少一个参数包括到达方向参数、扩散参数、与以虚拟收听位置作为球体原点的球体相关的方向信息参数、以及距离参数中的至少一个,以及其中,所述参数立体声或多声道参数包括侧边增益参数(455)、残差预测增益参数(456)、声道间电平差参数、声道间时间差参数、声道间相位差参数和声道间相干性参数中的至少一个。6.根据前述权利要求之一所述的装置,其中,与所述第一参数集(112)相关的输入时间帧(210)包括两个或更多个输入时间子帧,并且其中,与所述第二参数集(114)相关的输出时间帧(220)小于所述输入时间帧(210)且长于所述两个或更多个输入时间子帧中的输入时间子帧,以及其中,所述参数转换器(110)被配置为:计算在时间上相继的所述两个或更多个输入时间子帧中的每个输入时间子帧的第二参数集(114)的原始参数(252),并且组合至少两个原始参数以导出所述第二参数集(114)中与输出子帧相关的参数。7.根据权利要求6所述的装置,其中,所述参数转换器(110)被配置为执行所述至少两个原始参数的加权组合,其中,针对所述加权组合的加权因子基于所述传输信号(122)在对应输入时间子帧中的幅度相关测量(320)来导出。8.根据权利要求7所述的装置,其中,所述参数转换器(110)被配置为使用能量或功率作为所述幅度相关测量(320),并且其中,与针对所述传输信号(122)在所述对应输入时间子帧中的能量或功率较低的输入子帧的加权因子相比,在所述传输信号(122)在所述对应
输入时间子帧中的能量或功率较高的情况下,针对所述输入子帧的加权因子更大。9.根据前述权利要求之一所述的装置,其中,所述参数转换器(110)被配置为使用针对所述输入时间帧(210)的所述第一参数集(112)中的至少一个参数来计算针对每个输出时间帧(220)的至少一个原始参数(252),其中,所述参数转换器(110)被配置为根据平滑规则来计算针对每个原始参数(252)的平滑因子(512;522),以及其中,所述参数转换器(110)被配置为将对应平滑因子(512;522)应用于对应原始参数(252),以导出针对所述输出时间帧(220)的所述第二参数集(114)中的所述参数。10.根据权利要求9所述的装置,其中,所述参数转换器(110)被配置为:对所述传输信号(122)的第一时间部分的幅度相关测量(320)计算长期平均值(332),以及对所述传输信号(122)的第二时间部分的幅度相关测量(320)计算短期平均值(331),其中,所述第二时间部分短于所述第一时间部分,以及基于所述长期平均值(332)和所述短期平均值(331)之间的比率来计算平滑因子(512;522)。11.根据权利要求9或10所述的装置,其中,所述参数转换器(110)被配置为使用压缩函数(540)来计算频带的平滑因子(512;522),所述压缩函数对于不同的频带是不同的,并且其中,所述压缩函数对于较低频带的压缩强度强于所述压缩函数对于较高频带的压缩强度。12.根据权利要求9至11之一所述的装置,其中,所述参数转换器(110)被配置为使用针对不同频带的不同最大界限来计算所述平滑因子(512;522),其中,针对较低频带的最大界限高于针对较高频带的最大界限。13.根据权利要求9至12之一所述的装置,其中,所述参数转换器(110)被配置为对时间相继的输出时间帧应用递归平滑规则(710)作为所述平滑规则,使得针对当前输出时间帧(220)的平滑参数通过将针对由第一加权值加权的前一输出时间帧(220)的所述参数和针对由第二加权值加权的当前输出时间帧(220)的原始参数(252)进行组合来计算,其中,所述第一加权值和所述第二加权值是从针对所述当前时间帧的平滑因子(512;522)导出的。14.根据前述权利要求之一所述的装置,其中,所述输出接口(120)被配置为:执行从所述传输信号(122)对应于输出时间帧(220)的时间部分到频谱表示的转换,其中,所述部分短于输入时间帧(210),在所述输入时间帧(210)中组织了所述第一参数集(112)中的所述参数,使用所述第二参数集(114)来执行所述频谱表示的上混操作,以获得所述频谱表示中的所述两个或更多个声道;以及将所述频谱表示中的所述两个或更多个声道中的每个声道转换为时间表示。15.根据权利要求14所述的装置,其中,所述输出接口(120)被配置为:转换为复数离散傅立叶变换域,在所述复数离散傅立叶变换域中执行所述上混操作,以及执行从所述复数离散傅立叶变换域到实数值时域表示的转换。16.根据权利要求14或15所述的装置,其中,所述输出接口(120)被配置为基于以下等
式执行所述上混操作:以及其中,是针对帧t和频率区间k的传输信号(122),其中,是针对所述帧t和子带b的侧边增益,其中,是针对所述帧t和所述子带b的残差预测增益,其中,g
norm
是可有可无的能量调整因子,以及其中,是针对所述帧t和所述频率区间k的原始残差信号。17.根据前述权利要求之一所述的装置,其中,所述第一参数集(112)是针对输入频带(231)的到达方向参数,并且其中,所述第二参数集(114)包括针对每个输入频带(231)的侧边增益参数(455),以及其中,所述参数转换器(110)被配置为使用以下等式来计算针对输出频带(241)的侧边参数:其中,b是所述输出频带(241),其中,sidegain是所述侧边增益参数(455...

【专利技术属性】
技术研发人员:弗伦茨
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1