用于在多声道音频格式之间进行转换的方法和设备技术

技术编号:4526204 阅读:279 留言:0更新日期:2012-04-11 18:40
将空间音频信号的输入多声道表示转换为不同的输出多声道表示,其中导出空间音频信号的中间表示,所述中间表示具有指示空间音频信号的部分的源点方向的方向参数;以及使用空间音频信号的中间表示来产生空间音频信号的输出多声道表示。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种关于如何以最大可能的质量在不同的多声道音频格式之间 进行转换的技术,而不限于特定的多声道表示。即本专利技术涉及一种允许在任意 多声道格式之间进行转换的技术。
技术介绍
通常,在多声道再现和收听中,收听者被多个扬声器环绕。存在捕获针对特定设置(set-up)的音频信号的各种方法。再现时的一个通常目标是再现原始 记录的声音事件的空间合成,即各个音频源的源点(origin),如管弦乐队内喇 叭的位置。多个扬声器设置是相当常见的,并且可以产生不同的空间感。不使 用特殊的后生产技术,通常己知的两声道立体声设置可以仅在两个扬声器之间 的线上重建听觉事件。这主要通过所谓的"振幅-移动(panning)"来实现,其中 取决于音频源相对于扬声器的位置,与一个音频源相关的信号的振幅分布在两 个扬声器之间。这通常在记录或后续的混音期间进行。即来自相对于收听位置 较远左侧的音频源将主要通过左扬声器再现,而在收听位置前面的音频源将通 过这两个扬声器以相同的振幅(电平)再现。然而,不能再现从其他方向发出 的声音。因此,通过使用分布在收听者周围的更多扬声器,可以覆盖更多方向,并 且可以产生更加自然的空间感。可能最公知的多声道扬声器布局是5.1标准 (ITU-R775-1),其包括5个扬声器,将这些扬声器相对于收听位置的方位角预 先确定为0°、 ±30°和±110°。这表示在记录或混音期间,将信'号调整为特定扬 声器配置,而且根据该标准的再现设置的偏差将导致再现质量降低。也提出了具有位于不同方向上的不同数目的扬声器的多个其他系统。专业 和专用系统(尤其在影院和声音装置中)也包括不同高度的扬声器。近年来提出了被称为DirAC的通用音频再现系统,其能够记录并再现针对5任意扬声器设置的声音。DirAC的目的是使用具有任意几何设置的多声道扬声 器系统,尽可能精确地再现现有声学环境的空间感。在记录环境中,以全向麦 克风(W)和允许测量声音到达方向以及声音扩散的麦克风组来测量环境的响 应(可以是连续记录的声音或脉冲响应)。在以下段落中以及在本申请中,术语 "扩散"应被理解为针对声音的非方向性测量。即,以相等的强度从所有方向 到达收听或记录位置的声音是最大扩散的。量化扩散的通常方式是使用来自区 间的扩散值,其中,值l埤述了最大扩散声音,而值O描述了理想定向 声音,即仅从一个可清晰辨识的方向发出的声音。 一个通常已知的测量声音到 达的方向的方法是应用与笛卡尔坐标轴对齐的3个八字(figure-of-eight)麦克 风(XYZ)。已设计出被称作"声场麦克风"的专用麦克风,该麦克风直接产生 所有期望的响应。然而,如以上所提及的,W、 X、 Y和Z信号也可以根据离 散全向麦克风组进行计算。近来,Goodwin和Jot提出了利用伴随的方向数据,将任意多个声道的音 频格式存储至音频的一个或两个下混音声道的方法。该格式可以应用于任意的 再现系统。使用"Gerzon矢量(包括速度矢量和能量矢量)"来计算定向数据(即, 具有与音频源的方向有关的信息的数据)。速度矢量是从收听位置指向扬声器的 矢量的加权和,其中每个权重是扬声器的给定时间/频率瓦(tile)处的频谱的幅 值。能量矢量是类似的加权矢量和。然而,权重是扬声器信号的短时能量估计, 即其描述了稍微平滑的信号或包含在有限长度时间间隔内的信号中的信号能量 的积分。具有充分根据的是,这些矢量共有的缺点是与实际的或感知的量不相 关。例如,没有适当地考虑扬声器相对于彼此的相对相位。例如,这表示,如 果将宽带信号馈入相反相位的收听位置之前的立体声设置的扬声器,则收听者 将感知到来自周围方向的声音,收听位置中的声场将具有从一侧到另一侧(例 如,从左侧到右侧)的声音能量振荡。在这种场景下,Gerzon矢量将会指向前 方,显然这并不表示实际的或感知的情况。 .自然地,市场上存在多个多声道格式或表示,存在能够在不同表示之间转 换的需求,从而可以利用最初针对可选的多声道表示而开发的设置来再现各个6表示。即例如,可能需要5.1声道与7.1或7.2声道之间的转换,以使用现有的 7.1或7.2声道回放设置来回放通常在DVD上使用的5.1多声道表示。多种音频 格式使音频内容生产变得困难,因为所有格式需要特定的混频和存储/传输格 式。因此,用于不同再现设置上的回放的不同记录格式之间的转换是必需的。提出了多种方法将特定音频格式的音频转换为另一音频格式。然而,总是 将这些方法调整为特定多声道格式或表示。即这些仅可应用于从一个特定的预 定多声道表示至另一特定的多声道表示的转换。通常,再现声道数量的减少(所谓"下混音(downmix)")比再现声道数 量的增加("上混音(upmix)")更易实现。针对一些标准的扬声器再现设置, 例如ITU提供了关于如何使用较少个数的再现声道下混音至再现设置的推荐。 在这些所谓的"ITU"下混音等式中,将输出信号导出为输入信号的简单静态线 性组合。通常,再现声道数量的减少导致所感知的空间图像的恶化,即空间音 频信号的再现质量发生恶化。为了从大量再现声道或再现扬声器中可能的获益,开发出用于特定类型转 换的上混音技术。通常研究的问题是如何转换2声道立体声音频以使用5声道 环绕扬声器系统进行再现。这种2至5上混音的一种方式或实现是使用所谓的 "矩阵"解码器。这种解码器普遍用于通过立体声传输结构(特别是早期的用 于电影和家庭影院的环绕声音)来提供或上混音5.1多声道声音。基本思想是 再现声音图像前的立体声信号中同相的声音分量,并将异相分量置入后扬声器。 可选的2至5上混音方法提出提取立体声信号的环境分量并经由5.1设置的后 扬声器再现这些分量。近来,C. Faller在"Parametric Multi-channel Audio Coding: Synthesis of Coherence Cues", IEEE Trans. On Speech and Audio Proc.vol.14, no.l,2006年1月中提出了遵循在更加合理的基础上使用数学上更好的实现的相 同基本思想的方式。近来公开的标准MPEG环绕执行从一个或两个下混音和传输的声道至用于 再现或回放的最终声道(通常是5.1)的上混音。这通过使用空间边信息(side information)(与BCC技术类似的边信息)或没有边信息,或通过使用立体声下混音的两声道之间的相位关系("非引导模式"或"增强矩阵模式")来实现。 在前面的段落中描述的用于格式转换的所有方法特别应用于源和目的地音 频再现格式的特定配置,因而并不通用。即,不能执行任意的输入多声道表示 至任意的输出多声道表示的转换。.即,现有的转换技术专门针对输入多声道音 频表示和输出多声道表示而关于扬声器数量及其精确位置做出调整。自然地,期望有一种针对可应用于输入和输出多声道表示的任意组合的多 声道转换的概念。
技术实现思路
根据本专利技术的一实施例, 一种用于将空间音频信号的输入多声道表示转换 为不同的输出多声道表示的设备包括分析器,用于导出空间音频信号的中间 表示,所述中间表示具有指示空间音频信号的部分的源点方向的方向参数;以 及信号编排器(composer),用于使用空间音频本文档来自技高网
...

【技术保护点】
一种用于将空间音频信号的输入多声道表示转换为不同的输出多声道表示的设备,包括: 分析器,用于导出空间音频信号的中间表示,所述中间表示具有指示空间音频信号的部分的源点方向的方向参数;以及 信号编排器,用于使用空间音频信号的所述中间 表示来产生空间音频信号的输出多声道表示。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:V普尔基J赫尔
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1