使用参数转换来处理编码音频场景的装置、方法或计算机程序制造方法及图纸

技术编号：38394105 阅读：20 留言：0更新日期：2023-08-05 17:47

一种用于处理表示与虚拟听者位置相关的声场的编码音频场景(130)的装置，该编码音频场景包括关于传输信号(122)的信息和与虚拟听者位置相关的第一参数集(112)，所述装置包括：参数转换器(110)，用于将第一参数集(112)转换为第二参数集(114)，该第二参数集(114)与包括两个或更多个声道的声道表示相关，用于在预定义空间位置处再现两个或更多个声道；以及输出接口(120)，用于使用第二参数集和关于传输信号(122)的信息来生成经处理的音频场景(124)。号(122)的信息来生成经处理的音频场景(124)。号(122)的信息来生成经处理的音频场景(124)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用参数转换来处理编码音频场景的装置、方法或计算机程序

[0001]本专利技术涉及音频处理，具体涉及对编码音频场景进行的处理以便生成经处理的音频场景用于渲染、传输或存储。

技术介绍

[0002]传统上，提供用于用户通信(如电话或电话会议)手段的音频应用已经主要局限于单声道录制和回放。然而，近年来，新的沉浸式VR/AR技术的出现已经引发了人们对通信场景的空间渲染的兴趣。为了满足这种兴趣，当前正在开发被称为沉浸式语音和音频服务(IVAS)的新3GPP音频标准。基于最近发布的增强型语音服务(EVS)标准，IVAS提供能够渲染沉浸式音频场景的多声道和VR扩展，用于例如空间电话会议，同时仍然满足流畅音频通信的低延迟要求。这种在不牺牲回放质量的情况下将编解码器的总延迟保持在最低水平的持续需求为下文中所述的工作提供了动力。
[0003]使用在低比特率(例如，32kbps及以下)下使用参数音频编码(如定向音频编码(DirAC)[1][2])的系统对基于场景的音频(SBA)材料(如三阶环绕声内容)进行编码仅允许直接编码单个(传输)声道，同时经由滤波器组域中的解码器处的侧边参数恢复空间信息。在解码器处的扬声器设置仅能够进行立体声回放的情况下，不需要3D音频场景的完全恢复。由于对两个或更多个传输声道的较高比特率编码是可能的，因此在这些情况下，可以直接提取并回放场景的立体声再现，而无需任何参数空间上混(完全跳过空间渲染器)和伴随它而来的额外延迟(例如由于附加的滤波器组分析/合成，如复数值低延迟滤波器组(CLDFB))。然而，在仅一个...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于处理表示与虚拟听者位置相关的声场的编码音频场景(130)的装置，所述编码音频场景(130)包括关于传输信号(122)的信息和与所述虚拟听者位置相关的第一参数集(112)，所述装置包括：参数转换器(110)，用于将所述第一参数集(112)转换为第二参数集(114)，所述第二参数集(114)与包括两个或更多个声道的声道表示相关，用于在预定义空间位置处再现所述两个或更多个声道；以及输出接口(120)，用于使用所述第二参数集(114)和关于所述传输信号(122)的信息来生成经处理的音频场景(124)。2.根据权利要求1所述的装置，其中，所述输出接口(120)被配置用于使用所述第二参数集(114)将所述传输信号(122)上混为包括所述两个或更多个声道的上混信号。3.根据权利要求1所述的装置，其中，所述输出接口(120)被配置为通过如下方式生成所述经处理的音频场景(124)：将所述传输信号(122)或关于所述传输信号(122)的信息与所述第二参数集(114)进行组合，以获得经转码的音频场景作为所述经处理的音频场景(124)。4.根据前述权利要求之一所述的装置，其中，对于多个输入时间帧中的每个输入时间帧(210)以及对于多个输入频带(230)中的每个输入频带(231)，所述第一参数集(112)包括至少一个DirAC参数，其中，所述参数转换器(110)被配置为计算所述第二参数集(114)作为参数立体声或多声道参数。5.根据权利要求4所述的装置，其中，所述至少一个参数包括到达方向参数、扩散参数、与以虚拟收听位置作为球体原点的球体相关的方向信息参数、以及距离参数中的至少一个，以及其中，所述参数立体声或多声道参数包括侧边增益参数(455)、残差预测增益参数(456)、声道间电平差参数、声道间时间差参数、声道间相位差参数和声道间相干性参数中的至少一个。6.根据前述权利要求之一所述的装置，其中，与所述第一参数集(112)相关的输入时间帧(210)包括两个或更多个输入时间子帧，并且其中，与所述第二参数集(114)相关的输出时间帧(220)小于所述输入时间帧(210)且长于所述两个或更多个输入时间子帧中的输入时间子帧，以及其中，所述参数转换器(110)被配置为：计算在时间上相继的所述两个或更多个输入时间子帧中的每个输入时间子帧的第二参数集(114)的原始参数(252)，并且组合至少两个原始参数以导出所述第二参数集(114)中与输出子帧相关的参数。7.根据权利要求6所述的装置，其中，所述参数转换器(110)被配置为执行所述至少两个原始参数的加权组合，其中，针对所述加权组合的加权因子基于所述传输信号(122)在对应输入时间子帧中的幅度相关测量(320)来导出。8.根据权利要求7所述的装置，其中，所述参数转换器(110)被配置为使用能量或功率作为所述幅度相关测量(320)，并且其中，与针对所述传输信号(122)在所述对应输入时间子帧中的能量或功率较低的输入子帧的加权因子相比，在所述传输信号(122)在所述对应
输入时间子帧中的能量或功率较高的情况下，针对所述输入子帧的加权因子更大。9.根据前述权利要求之一所述的装置，其中，所述参数转换器(110)被配置为使用针对所述输入时间帧(210)的所述第一参数集(112)中的至少一个参数来计算针对每个输出时间帧(220)的至少一个原始参数(252)，其中，所述参数转换器(110)被配置为根据平滑规则来计算针对每个原始参数(252)的平滑因子(512；522)，以及其中，所述参数转换器(110)被配置为将对应平滑因子(512；522)应用于对应原始参数(252)，以导出针对所述输出时间帧(220)的所述第二参数集(114)中的所述参数。10.根据权利要求9所述的装置，其中，所述参数转换器(110)被配置为：对所述传输信号(122)的第一时间部分的幅度相关测量(320)计算长期平均值(332)，以及对所述传输信号(122)的第二时间部分的幅度相关测量(320)计算短期平均值(331)，其中，所述第二时间部分短于所述第一时间部分，以及基于所述长期平均值(332)和所述短期平均值(331)之间的比率来计算平滑因子(512；522)。11.根据权利要求9或10所述的装置，其中，所述参数转换器(110)被配置为使用压缩函数(540)来计算频带的平滑因子(512；522)，所述压缩函数对于不同的频带是不同的，并且其中，所述压缩函数对于较低频带的压缩强度强于所述压缩函数对于较高频带的压缩强度。12.根据权利要求9至11之一所述的装置，其中，所述参数转换器(110)被配置为使用针对不同频带的不同最大界限来计算所述平滑因子(512；522)，其中，针对较低频带的最大界限高于针对较高频带的最大界限。13.根据权利要求9至12之一所述的装置，其中，所述参数转换器(110)被配置为对时间相继的输出时间帧应用递归平滑规则(710)作为所述平滑规则，使得针对当前输出时间帧(220)的平滑参数通过将针对由第一加权值加权的前一输出时间帧(220)的所述参数和针对由第二加权值加权的当前输出时间帧(220)的原始参数(252)进行组合来计算，其中，所述第一加权值和所述第二加权值是从针对所述当前时间帧的平滑因子(512；522)导出的。14.根据前述权利要求之一所述的装置，其中，所述输出接口(120)被配置为：执行从所述传输信号(122)对应于输出时间帧(220)的时间部分到频谱表示的转换，其中，所述部分短于输入时间帧(210)，在所述输入时间帧(210)中组织了所述第一参数集(112)中的所述参数，使用所述第二参数集(114)来执行所述频谱表示的上混操作，以获得所述频谱表示中的所述两个或更多个声道；以及将所述频谱表示中的所述两个或更多个声道中的每个声道转换为时间表示。15.根据权利要求14所述的装置，其中，所述输出接口(120)被配置为：转换为复数离散傅立叶变换域，在所述复数离散傅立叶变换域中执行所述上混操作，以及执行从所述复数离散傅立叶变换域到实数值时域表示的转换。16.根据权利要求14或15所述的装置，其中，所述输出接口(120)被配置为基于以下等
式执行所述上混操作：以及其中，是针对帧t和频率区间k的传输信号(122)，其中，是针对所述帧t和子带b的侧边增益，其中，是针对所述帧t和所述子带b的残差预测增益，其中，g
norm
是可有可无的能量调整因子，以及其中，是针对所述帧t和所述频率区间k的原始残差信号。17.根据前述权利要求之一所述的装置，其中，所述第一参数集(112)是针对输入频带(231)的到达方向参数，并且其中，所述第二参数集(114)包括针对每个输入频带(231)的侧边增益参数(455)，以及其中，所述参数转换器(110)被配置为使用以下等式来计算针对输出频带(241)的侧边参数：其中，b是所述输出频带(241)，其中，sidegain是所述侧边增益参数(455...

【专利技术属性】
技术研发人员：弗伦茨，
申请(专利权)人：弗劳恩霍夫应用研究促进协会，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人