【技术实现步骤摘要】
【国外来华专利技术】用于编码、解码、场景处理和与基于DirAC的空间音频编码有关的其它过程的装置、方法和计算机程序
本专利技术涉及音频信号处理,尤其涉及音频场景的音频描述的音频信号处理。
技术介绍
在三个维度上传输音频场景需要应对多个声道,这通常会导致传输大量数据。此外,3D声音可以以不同的方式表示:传统的基于声道的声音,其中每个传输声道与扬声器位置相关联;通过音频对象传送的声音,可以独立于扬声器位置而在三个维度上被定位;以及基于场景的声音(或高保真度立体声响复制,Ambisonics),其中音频场景由一组系数信号表示,这些信号是空间正交基函数(例如,球谐函数)的线性权重。与基于声道的表示相比,基于场景的表示独立于特定的扬声器设置,并且可以在任何扬声器设置上进行再现,但会在解码器处产生额外的渲染过程。对于这些格式中的每一个,已经开发了专用编码方案,以有效地存储或以低比特率传输音频信号。例如,MPEG环绕是用于基于声道的环绕声的参数编码方案,而MPEG空间音频对象编码(SAOC)是专用于基于对象的音频的参数编码方法。在最近的标准M ...
【技术保护点】
1.一种用于生成组合的音频场景的描述的装置,包括:/n输入接口(100),用于接收第一格式的第一场景的第一描述和第二格式的第二场景的第二描述,其中所述第二格式不同于所述第一格式;/n格式转换器(120),用于将所述第一描述转换为通用格式,并当所述第二格式不同于所述通用格式时将所述第二描述转换为所述通用格式;以及/n格式组合器(140),用于组合所述通用格式的第一描述和所述通用格式的第二描述,以获得所述组合的音频场景。/n
【技术特征摘要】
【国外来华专利技术】20171004 EP 17194816.91.一种用于生成组合的音频场景的描述的装置,包括:
输入接口(100),用于接收第一格式的第一场景的第一描述和第二格式的第二场景的第二描述,其中所述第二格式不同于所述第一格式;
格式转换器(120),用于将所述第一描述转换为通用格式,并当所述第二格式不同于所述通用格式时将所述第二描述转换为所述通用格式;以及
格式组合器(140),用于组合所述通用格式的第一描述和所述通用格式的第二描述,以获得所述组合的音频场景。
2.根据权利要求1所述的装置,
其中,所述第一格式和所述第二格式是从包括一阶Ambisonics格式、高阶Ambisonics格式、通用格式、DirAC格式、音频对象格式和多声道格式的格式的组中选择的。
3.根据权利要求1或2所述的装置,
其中,所述格式转换器(120)被配置为将所述第一描述转换为第一B格式信号表示,并将所述第二描述转换为第二B格式信号表示;以及
其中,所述格式组合器(140)被配置为通过单独组合所述第一B格式信号表示和所述第二B格式信号表示的各个分量,来组合所述第一B格式信号表示和所述第二B格式信号表示。
4.根据前述权利要求之一所述的装置,
其中,所述格式转换器(120)被配置为将所述第一描述转换为第一压力/速度信号表示,并将所述第二描述转换为第二压力/速度信号表示;以及
其中,所述格式组合器(140)被配置为通过单独组合所述第一压力/速度信号表示和所述第二压力/速度信号表示的各个分量来组合所述压力/速度信号表示以获得组合的压力/速度信号表示。
5.根据前述权利要求之一所述的装置,
其中,所述格式转换器(120)被配置为将所述第一描述转换为第一DirAC参数表示,并当所述第二描述不同于DirAC参数表示时,将所述第二描述转换为第二DirAC参数表示;以及
其中,所述格式组合器(140)被配置为通过单独组合所述第一DirAC参数表示和所述第二DirAC参数表示的各个分量来组合所述第一DirAC参数表示和所述第二DirAC参数表示,以获得组合的音频场景的组合的DirAC参数表示。
6.根据权利要求5所述的装置,
其中,所述格式组合器(140)被配置为针对表示所述组合的音频场景的时频图块生成到达方向值,或针对所述时频图块生成到达方向值和扩散度值。
7.根据前述权利要求之一所述的装置,
还包括DirAC分析器(180),用于分析所述组合的音频场景以导出所述组合的音频场景的DirAC参数,
其中,所述DirAC参数包括针对表示所述组合的音频场景的时频图块的到达方向值,或针对所述时频图块的到达方向值和扩散度值。
8.根据前述权利要求之一所述的装置,
还包括传输声道发生器(160),用于从所述组合的音频场景或从所述第一场景和所述第二场景生成传输声道信号,以及
传输声道编码器(170),用于对传输声道信号进行核心编码,或者
其中所述传输声道发生器(160)被配置为使用指向左方位置或右方位置的波束形成器,来分别从一阶Ambisonics或更高阶Ambisonics格式的所述第一场景或所述第二场景生成立体声信号,或
其中所述传输声道发生器(160)被配置为通过对多声道表示中的三个或更多个声道进行下混频,来从多声道表示的所述第一场景或所述第二场景生成立体声信号,或者
其中所述传输声道发生器(160)被配置为通过使用对象的位置来平移每个对象,或通过使用指示哪个对象处于哪个立体声声道的信息来将对象下混频为立体声下混频,来从音频对象表示的所述第一场景或所述第二场景生成立体声信号;或者
其中所述传输声道发生器(160)被配置为仅将所述立体声信号的左声道添加到左下混频传输声道,并仅添加所述立体声信号的右声道以获得右传输声道,或者
其中所述通用格式是B格式,并且其中所述传输声道生成器(160)被配置为处理组合的B格式表示以导出传输声道信号,其中所述处理包括执行波束成形操作或提取B格式信号的分量子集(例如,全向分量)作为所述单声道传输声道,或者
其中所述处理包括使用所述全向信号和具有B格式的相反符号的Y分量进行波束成形,以计算左和右声道,或者
其中所述处理包括使用B格式的所述分量和给定的方位角和给定的仰角的波束成形操作,或者
其中所述传输声道发生器(160)被配置为向所述传输声道编码器提供所述组合的音频场景的B格式信号,其中所述格式组合器(140)输出的所述组合的音频场景中不包括任何空间元数据。
9.根据前述权利要求之一所述的装置,还包括:
元数据编码器(190),
用于对所述组合的音频场景中描述的DirAC元数据进行编码以获得编码的DirAC元数据,或者
用于对从所述第一场景导出的DirAC元数据进行编码以获得第一编码的DirAC元数据,并用于对从所述第二场景导出的DirAC元数据进行编码以获得第二编码的DirAC元数据。
10.根据前述权利要求之一所述的装置,还包括:
输出接口(200),用于产生表示所述组合的音频场景的编码的输出信号,该输出信号包括编码的DirAC元数据和一个或多个编码的传输声道。
11.根据前述权利要求之一所述的装置,
其中所述格式转换器(120)被配置为将高阶Ambisonics或一阶Ambisonics格式转换为所述B格式,其中所述高阶Ambisonics格式在被转换为所述B格式之前被截断,或者
其中所述格式转换器(120)被配置为将对象或声道投影在参考位置上的球谐函数上,以获得投影信号,并且其中所述格式组合器(140)被配置为组合所述投影信号以获得B格式系数,其中所述对象或所述声道位于空间中的指定位置处,并距参考位置具有可选的单独距离,或者
其中所述格式转换器(120)被配置为执行DirAC分析,所述DirAC分析包括对B格式分量的时频分析以及对压力和速度矢量的确定,并且其中所述格式组合器(140)被配置为组合不同的压力/速度矢量,并且其中所述格式组合器(140)还包括DirAC分析器,用于从组合的压力/速度数据中导出DirAC元数据,或者
其中所述格式转换器(120)被配置为从音频对象格式的对象元数据中提取DirAC参数作为所述第一格式或所述第二格式,其中所述压力矢量是所述对象波形信号且所述方向是从在空间中的所述对象位置导出的,或扩散度是直接在所述对象元数据中给出的或被设置为例如零值的默认值,或者
其中所述格式转换器(120)被配置为将从所述对象数据格式导出的DirAC参数转换为压力/速度数据,并且所述格式组合器(140)被配置为将所述压力/速度数据与从一个或多个不同音频对象的不同描述导出的压力/速度数据进行组合,或者
其中所述格式转换器(120)被配置为直接导出DirAC参数,并且其中所述格式组合器(140)被配置为组合DirAC参数以获得所述组合的音频场景。
12.根据前述权利要求之一所述的装置,其中所述格式转换器(120)包括:
DirAC分析器(180),用于一阶Ambisonics或高阶Ambisonics输入格式或多声道信号格式;
元数据转换器(150、125、126、148),用于将对象元数据转换为DirAC元数据,或将具有时不变位置的多声道信号转换为所述DirAC元数据;以及
元数据组合器(144),用于通过加权加法来组合各个DirAC元数据流或组合来自多个流的到达方向元数据,所述加权加法是根据关联的压力信号能量的能量来进行加权的;或者用于通过加权加法来组合来自若干流的扩散度元数据,所述加权加法是根据关联的压力信号能量的能量来进行加权的,或者
其中所述元数据组合器(144)被配置为针对第一场景的第一描述的时间/频率段计算能量值和到达方向值,并且针对第二场景的第二描述的时间/频率段计算能量值和到达方向值,并且其中所述格式组合器(140)被配置为将第一能量与第一到达方向值相乘并与第二能量值和第二到达方向值的乘积相加以获得所述组合的到达方向值,或者,备选地,从第一到达方向值和第二到达方向值中选择与较高能量相关联的到达方向值作为所述组合的到达方向值。
13.根据前述权利要求之一所述的装置,
还包括:输出接口(200,300)被配置为向所述组合的格式添加针对音频对象的单独的对象描述,其中所述对象描述包括方向、距离、扩散度或任何其他对象属性中的至少一个,其中所述对象在所有频段上具有单个方向,并且是静止的或比速度阈值移动得慢。
14.一种生成组合的音频场景的描述的方法,包括:
接收第一格式的第一场景的第一描述并接收第二格式的第二场景的第二描述,其中所述第二格式不同于所述第一格式;
将所述第一描述转换为所述通用格式,并当所述第二格式不同于所述通用格式时将所述第二描述转换为所述通用格式;以及
组合通用格式的第一描述和通用格式的第二描述,以获得所述组合的音频场景。
15.一种计算机程序,当运行在计算机或处理器上时,用于执行根据权利要求14所述的方法。
16.一种用于执行多个音频场景的合成的装置,包括:
输入接口(100),用于接收第一场景的第一DirAC描述并用于接收第二场景的第二DirAC描述及一个或多个传输声道;以及
DirAC合成器(220),用于在频谱域中合成所述多个音频场景,以获得代表所述多个音频场景的频谱域音频信号;以及
频谱域-时域转换器(240),用于将所述频谱域音频信号转换到时域。
17.根据权利要求16所述的装置,其中所述DirAC合成...
【专利技术属性】
技术研发人员:纪尧姆·福克斯,于尔根·赫勒,法比安·库奇,斯蒂芬·朵拉,马库斯·马特拉斯,奥利弗·迪尔加特,奥立弗·乌博尔特,弗罗林·吉多,斯特凡·拜尔,沃尔夫冈·杰格斯,
申请(专利权)人:弗劳恩霍夫应用研究促进协会,
类型:发明
国别省市:德国;DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。