用于回放更高阶立体混响音频信号的方法和设备技术

技术编号:9174183 阅读:230 留言:0更新日期:2013-09-19 23:30
立体混响表示的优势在于声场的再现可以单独地适配于近乎任何给定的扬声器位置排列。虽然促进空间音频的灵活通用的表示非常独立于扬声器设置,与不同尺寸屏幕上的音频回放的组合可以变得分散,因为空间声音回放未被相应地适配。本发明专利技术允许面向空间声场音频的回放通过应用在EP11305845.7中公开的空间弯曲处理对其链接的可见对象的系统性适配。在内容再现中使用的屏幕的基准尺寸(或从基准聆听位置的观看角度)被编码并作为元数据与内容一起被传输,或者解码器知道目标屏幕相对于固定基准屏幕尺寸的实际尺寸。解码器以如下方式弯曲声场:根据目标屏幕的尺寸和基准屏幕的尺寸的比率,压缩或拉伸屏幕方向上的全部声音对象。

【技术实现步骤摘要】
用于回放更高阶立体混响音频信号的方法和设备
本专利技术涉及用于回放指定给视频信号的更高阶立体混响(Higher-OrderAmbisonics)音频信号的方法和设备,该视频信号是对原始和不同的屏幕而生成的但是将被呈现在当前屏幕上。
技术介绍
一种存储和处理球形麦克风阵列的三维声场的方式是更高阶立体混响(HOA)表示。立体混响使用标准正交球形函数用于描述位于原点或空间中基准点(也称为蜜点)及其附近的区域中的声场。如此描述的精度通过立体混响阶N来确定,其中,有限数的立体混响系数描述声场。球形阵列的最大立体混响阶通过麦克风精盒(microphonecapsule)的数量来限制,所述数量必须等于或大于立体混响系数的数量O=(N+1)2。这样的立体混响表示的优势在于声场的再现可以单独地适配于近乎任何给定扬声器位置排列。
技术实现思路
虽然促进空间音频的灵活通用的表示非常独立于扬声器设置,与不同尺寸屏幕上的音频回放的组合可以变得分散,因为空间声音回放未被相应地适配。立体和环绕声基于离散扬声器声道,并且涉及视频显示关于在哪里放置扬声器存在非常特定的规则。例如,在影院环境下,在屏幕的中央放置中央扬声器,而在屏幕的左侧和右侧放置左扬声器和右扬声器。因而,扬声器设置固有地随屏幕变动:对于小屏幕,扬声器彼此更接近,而对于巨屏,它们则远离。这样的优势是混音可以以非常连贯的方式完成:有关屏幕上的可视对象的声音对象可以可靠地放置在左声道、中央声道和右声道。因此,听众的体验在混音级上匹配声音艺术家的创造性意图。但是这样的优势同时也是基于声道系统的劣势:对于改变扬声器设置,灵活度非常有限。该劣势随着扬声器声道数量的增加而增加。例如,7.1和22.2格式要求各个扬声器的精确安装并且极其难以适配音频内容到次佳扬声器位置。基于声道系统的另一劣势是:优先效应限制了在左声道、中央声道和右声道之间摇移(pan)声音对象的能力,特别是对于类似影院环境下的大型聆听设置。对于偏心聆听位置,摇移的音频对象可以“落在”最靠近听众的扬声器上。因而,很多电影已经和重要的屏幕相关的声音混音,特别是排他地映射到中央声道上的对话,借此,获得屏幕上那些声音的非常稳定的定位,但是是以整体声音现场的次佳宽敞度为代价。通常对后置环绕声道选择类似的妥协:因为播放那些声道的扬声器的精确定位在制作时难以知晓,并且因为那些声道的密度相当低,通常仅环境声音和未校正项被混音到环绕声道。因而,环绕声道中的明显再现错误的概率可以降低,但是是以不能如实地在任何地点而是在屏幕上(或甚至在如上所述的中央声道上)放置离散声音对象为代价。如上所述,在不同尺寸屏幕上的空间音频和视频回放的组合可以变得分散,因为空间声音回放未被相应地适配。取决于实际屏幕尺寸是否匹配在再现中使用的尺寸,声音对象的方向可以偏离屏幕上可视对象的方向。例如,如果已经在小屏幕的环境中进行了混音,则耦合到屏幕对象的声音对象(例如,演员的发音)将被定位在从混音器的位置看去相对狭窄的锥体。如果此内容受控于基于声场的表示并且在具有大很多的屏幕的影院环境中回放,则在屏幕的宽视场与屏幕相关声音对象的窄锥体之间存在明显失配。对象的可视图像的位置和对应声音的位置之间的巨大失配会分散观众注意力并且因而严重地影响电影的感知。更近地,已经提出音频现场的参数表示或面向对象表示,其通过单独音频对象和参数及特性的集合的组合来描述音频现场。例如,主要对处理波场综合系统已经提出面向对象现场描述,例如,在SandraBrix、ThomasSporer、JanPlogsties于Proc.of110thAESConvention,Paper5314,2001年5月12-15日,在荷兰阿姆斯特丹发表的“CARROUSO–AnEuropeanApproachto3D-Audio”,以及在UlrichHorbach、EtienneCorteel、RenatoS.Pellegrini和EdoHulsebos于Proc.ofIEEEIntl.Conf.onMultimediaandExpo(ICME),pp.517-520,2002年8月,瑞士Lausanne,发表的“Real-TimeRenderingofDynamicScenesUsingWaveFieldSynthesis”中。EP1518443B1描述了应对使音频回放适配于可视屏幕尺寸的问题的两种不同途径。第一种途径对每一个声音对象取决于其对基准点方向和距离以及与相机和投影装备的孔径角(openingangle)和位置类似的参数,单独确定回放位置。实际上,在对象的可见性和相关混音之间的如此紧密的耦合不是典型的,相反,混音与相关可见对象的某些偏差可以实际上出于艺术原因而容忍。此外,区分直达声和环境声音是重要的。最后但不是最不重要的,物理相机和投影参数的合并相当复杂,并且这样的参数不总是可用。第二种途径(比较权利要求16)描述了根据以上步骤的声音对象的预计算,但是假设屏幕具有固定的基准尺寸。该方案要求全部位置参数(在笛卡尔坐标中)的线性缩放用于将屏幕适配到比基准屏幕大或小的屏幕上。然而,这意味着,适配到双倍尺寸屏幕也导致到声音对象的虚拟距离的翻倍。没有相对于基准座位(即,蜜点)中的听众的声音对象的角度位置中的任何改变,这只是听觉现场的“气息音”而已。对于角坐标中屏幕的相对尺寸(孔径角)的改变,不可能通过此途径产生可行的聆听结果。在EP1318502B1中描述面向对象声音现场描述格式的另一示例。这里,除了包括不同的声音对象及其特性之外,音频现场还包括关于要再现的房间的特性的信息以及关于基准屏幕的水平和垂直孔径角的信息。在解码器中,类似于EP1518443B1中的原理,确定实际可用屏幕的位置和尺寸,并且单独地最优化声音对象的回放以匹配基准屏幕。例如,在PCT/EP2011/068782中,已经对声场的通用空间表示提出了面向声场的类似更高阶立体混响HOA的音频格式,并且在记录和回放方面,面向声场的处理提供通用性和实践性之间极好的平衡,因为它可以缩放到实际上任意的空间分辨率,类似于面向对象格式的那样。另一方面,一些直接记录和再现技术存在,其对比对面向对象格式要求的完全合成的表示,允许得到真实声场的自然记录。显然,因为面向声场的音频内容不包括关于单独声音对象的任何信息,所以以上对使面向对象格式适配到不同屏幕尺寸而介绍的机制不能得以应用。如今,仅有少量描述用于控制在面向声场的音频现场中包含的单独声音对象的相对位置的装置的公开可用。例如在RichardSchultz-Amling、FabianKuech、OliverThiergart、MarkusKallinger于2010年5月22-25日在英国伦敦的“AcousticalZoomingBasedonaParametricSoundFieldRepresentation”,128thAESConvention,Paper8120中描述的一系列算法要求将声场分解为有限数量的离散声音对象。可以控制这些声音对象的位置参数。此途径具有如下劣势:音频现场分解易出错并且在确定音频对象时的任何错误将极可能导致声音重现的人为产物。很多出版物涉及将HOA内容的回复最优化到“灵活回放布局”,例本文档来自技高网...
用于回放更高阶立体混响音频信号的方法和设备

【技术保护点】
一种用于回放指定给视频信号的原始更高阶立体混响音频信号的方法,上述视频信号是对原始和不同的屏幕而生成的但是将被呈现在当前屏幕上,所述方法包括如下步骤:?解码所述更高阶立体混响音频信号以提供解码的音频信号;?接收或建立从所述原始屏幕和所述当前屏幕在它们的宽度并且可能在它们的高度并且可能在它们的弯曲度之间的差异得出的再现适配信息;?通过在空间域中弯曲它们来适配所述解码的音频信号,其中,所述再现适配信息控制所述弯曲,从而对于当前屏幕的观众和所述适配的解码的音频信号的听众,由所述适配的解码的音频信号表示的至少一个音频对象的感知位置匹配所述屏幕上的相关视频对象的感知位置;?对扬声器重现和输出适配的解码的音频信号。

【技术特征摘要】
2012.03.06 EP 12305271.41.一种用于回放被记为更高阶立体混响HOA并且被指定给视频信号的原始更高阶立体混响音频信号的方法,所述视频信号将被呈现在当前屏幕上但是是对原始屏幕生成的,该原始屏幕不同于该当前屏幕,所述方法包括如下步骤:-解码(83,93)更高阶立体混响信号的输入更高阶立体混响系数的输入向量Ain,以便使用更高阶立体混响模式矩阵ψ1的逆通过计算来提供针对规则布置的扬声器位置的空间域中的解码的音频信号sin;-接收或建立从所述原始屏幕和所述当前屏幕在它们的宽度并且可能在它们的高度并且可能在它们的弯曲度之间的差异得出的再现适配信息(90);-通过计算Aout=ψ2sin在空间域中将所述解码(93)的音频信号弯曲(94)并编码为适配的输出更高阶立体混响系数的输出向量Aout,来适配所述解码(93)的音频信号,其中根据弯曲函数相对于模式矩阵ψ1修改模式矩阵ψ2的模式向量,通过该弯曲函数,所述原始屏幕的原始扬声器位置的角度在更高阶立体混响系数输出向量Aout中被映射为当前屏幕的目标扬声器位置的目标角,并且原始扬声器位置的剩余的角被相应地移位,并且其中所述再现适配信息(90)控制所述弯曲函数;-对扬声器重现和输出(95)适配的更高阶立体混响信号(91),其中所述重现包括更高阶立体混响解码。2.如权利要求1的方法,其中,所述更高阶立体混响音频信号包含指定给对应视频对象的多个音频对象,并且其中,对于所述当前屏幕观众和听众,所述音频对象的角度或距离将分别不同于所述原始屏幕上的所述视频对象的角度或距离。3.如权利要求1或2的方法,其中,携带所述原始更高阶立体混响信号的位流也包括所述再现适配信息(90)。4.如权利要求1或2的方法,其中,除了所述弯曲之外,执行通过增益函数(g(φ))进行的加权,从而获得每个孔径角的结果的同类声音幅度。5.如权利要求1或2的方法,其中,解码(93)更高阶立体混响信号的两个完整系数集合,第一音频信号表示与可视对象相关的对象,第二音频信号表示独立或环境声音,其中,仅第一解码的音频信号经历通过弯曲的对实际屏幕布局的适配而第二解码的音频信号未被处理,且其中,在回放之前,所适配的第一解码的音频信号和未适配的第二解码的音频信号被组合。6.如权利要求5的方法,其中,所述第一和第二音频信号的更高阶立体混响阶不同。7.如权利要求1或2的方法,其中,动...

【专利技术属性】
技术研发人员:P贾克斯J贝姆WG雷德曼
申请(专利权)人:汤姆逊许可公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1