用于自适应音频信号产生、编码和呈现的系统和方法技术方案

技术编号:13382959 阅读:95 留言:0更新日期:2016-07-21 16:49
公开了用于自适应音频信号产生、编码和呈现的系统和方法。描述了处理包含许多独立的单声道音频流的音频数据的自适应音频系统。流具有与它关联的并指定流是基于声道的还是基于对象的元数据。基于声道的流具有利用声道名字编码的呈现信息;并且基于对象的流具有通过在关联的元数据中编码的位置表述编码的位置信息。编解码器将独立的音频流封装到包含所有音频数据的单个串行的比特流中。这个配置允许根据非自我中心的参考系呈现声音,在其中声音的呈现位置基于回放环境的特性以便对应于混合者的意图。对象位置元数据包含为使用房间中的可用的扬声器位置正确地播放声音所需的合适的非自我中心的参考系信息,该房间被设立来播放自适应的音频内容。

【技术实现步骤摘要】
用于自适应音频信号产生、编码和呈现的系统和方法本申请是申请号为201280032058.3,申请日为2012年6月27日,题为“用于自适应音频信号产生、编码和呈现的系统和方法”的中国专利技术专利申请的分案申请。相关申请的交叉引用本申请要求2011年7月1日提交的美国临时申请No.61/504,005和2012年4月20日提交的美国临时申请No.61/636,429的优先权,这两个申请出于所有目的整体通过参考被并入于此。
一个或更多个实现方式一般涉及音频信号处理,并且更具体地涉及供电影院、家庭和其它环境之用的混合对象和基于声道的音频处理。
技术介绍

技术介绍
部分中讨论的主题不应该仅仅由于它在
技术介绍
部分中被提到而被假设为现有技术。类似地,在
技术介绍
部分中提到或者与
技术介绍
部分的主题关联的问题不应该被假设为在现有技术中已经被先前认识到。在
技术介绍
部分中的主题仅仅代表不同的方法,在其中及其本身也可以是专利技术。自从将声音引入胶片(film)以来,已经存在用于捕获创作者的对于运动图像音轨的艺术意图并且在电影院环境中准确地再现它的技术的稳定的发展。电影声音的基本的作用是支持在屏幕上示出的故事。典型的电影音轨包括与屏幕上的图像和元素对应的许多不同的声音元素,从不同的屏幕上的元素发出的对话、噪声、以及声音效果,以及与背景音乐和环境效果结合以便创建整体观众体验。创作者和制作者的艺术意图代表他们的如下期望,即具有以尽可能紧密地对应于在屏幕上示出的东西的方式对于声源位置、强度、移动和其它类似参数再现的这些声音。当前电影创作、分发和回放遭受约束真实地沉浸和逼真的音频的创建的限制。传统的基于声道的音频系统将以扬声器供给形式的音频内容发送到回放环境中的单独的扬声器,诸如立体声和5.1系统。数字电影的引入已经创建了对于胶片上的声音的新标准,诸如音频的高达16声道的并入以便允许内容创作者有更大的创造力,以及对于观众的更包围的和现实的听觉体验。7.1环绕系统的引入已经提供通过将现有的左和右环绕声道分离成四个区域(zones)增大环绕声道的数量的新格式,因此对于声音设计者和混合者增大范围来控制剧场中的音频元素的定位。为了进一步改善收听者体验,虚拟三维环境中的声音的回放已经变为研究和开发增加的区域。声音的空间表现利用作为具有表观(apparent)源位置的关联参数源描述(例如,3D坐标)、表观源宽度和其它参数的音频信号的音频对象。基于对象的音频越来越被用于许多当前多媒体应用,诸如数字电影、视频游戏、模拟器和3D视频。扩展超出传统的扬声器供给和基于声道的音频作为用于分布空间音频的手段是关键的,并且对保持允许收听者/展出者自由选择适合他们的个人需要或者预算的回放配置并且具有对于他们选择的配置特定地呈现的音频的承诺的基于模式(model)的音频描述已经存在相当大的兴趣。在高水平处,目前存在四个主要的空间音频描述格式:其中音频被描述为意图用于标称扬声器位置处的扬声器的信号的扬声器供给;其中音频被描述为通过预定义的阵列中的虚拟或者实际麦克风捕获的信号的麦克风供给;其中依据在所描述的位置处音频事件的序列来描述音频的基于模式的描述;以及其中音频由到达收听者耳朵的信号描述的两路立体声(binaural)。这四个描述格式经常与将音频信号转换为扬声器供给的一个或更多个呈现技术关联。当前呈现技术包括:摇移,其中音频流通过使用一组摇摄规则和已知或假设的扬声器位置被转换为扬声器供给(典型地在分发之前被呈现);立体混响声(Ambisonics),其中麦克风信号被转换为用于扬声器的可缩放的(scalable)阵列的供给(典型地在分发之后被呈现);WFS(波场合成),其中声音事件被转换为适当的扬声器信号以便合成声场(典型地在分发之后被呈现);以及两路立体声,其中L/R(左/右)双声道的信号典型地使用头戴耳机(headphones)而且通过使用扬声器和串扰抵消被传送给L/R耳朵(在分发之前或者之后呈现)。在这些格式中,扬声器供给格式是最常见的,因为它是简单的和有效的。最好的声音结果(最准确的,最可靠的)通过直接混合/监视和分发给扬声器供给来实现,因为在内容创作者和收听者之间不存在处理。如果预先已知回放系统,则扬声器供给描述通常提供最高保真度。然而,在许多实际应用中,回放系统是未知的。基于模式的描述被认为适应性最强,因为它不进行关于呈现技术的假设并且因此最容易应用于任何呈现技术。虽然基于模式的描述有效地捕获空间信息,但是随着音频源的数量增大它变得非常低效。多年来电影系统已经特征化为具有左、中心、右以及偶尔‘左内(innerleft)’和‘右内(innerright)’声道的形式的离散的屏幕声道。这些离散的源通常具有足够的频率响应和功率处理(powerhandling)以便允许声音被准确地放置在屏幕的不同区域中,并且容许随着声音在位置之间被移动或摇移而音色匹配。在改善收听者体验方面的近期发展企图相对于收听者准确地再现声音的位置。在5.1设立中,环绕“区域”由扬声器的阵列组成,所有的扬声器在每个左环绕或右环绕区域内携带相同的音频信息。这种阵列在'环境'或者扩散环绕效果的情况下可以是有效的,然而,在日常生活中许多声音效果来源于随机放置的点源。例如,在餐厅中,环境音乐可以显然从四处都被播放,虽然细小但是离散的声音来源于特定的点:来自一个点的人聊天、来自另一个点的刀在盘子上的卡嗒声(clatter)。能够将这种声音离散地放置在观众席周围可以在没有引人注意地明显的情况下添加加强的逼真感。头上的声音也是环绕定义的重要成分。在实际世界中,声音来源于所有方向,而不是总是来自单个水平面。如果声音可以从头上被听到,换句话说从'上半球'被听到,增加的真实感可以被实现。然而当前系统不提供在各种不同的回放环境中对于不同音频类型的声音的真正准确的再现。使用现有的系统要求实际回放环境的大量处理、知识和配置以尝试位置特定的声音的准确的表示,因此呈现对于大多数应用不实际的当前系统。所需要的是,支持多个屏幕声道的系统,得到对于屏幕上的声音或者对话的增大的清晰度和改善的视听觉的相干性,以及能够在环绕区域中任何地方精确定位源以便改善从屏幕到房间的视听转变。例如,如果在屏幕上的角色在房间内看向声源,则声音工程师(“混合者”)应该具有精确定位声音使得它匹配角色的视线的能力并且效果将在所有观众中是一致的。然而,在传统的5.1或者7.1环绕声混合中,效果高度地依赖于收听者的座位位置,其对于大多数大规模的收听环境是不利的。增大的环绕分辨率创造了新的机会来以房间中心的方式利用声音,与传统方法相反,其中假设单个收听者在“最佳听音位置(sweetspot)”处来创建内容。除了空间问题以外,当前的多声道现有技术系统遭受关于音色的问题。例如,一些声音的音色质量,诸如从破了的管出去的蒸汽嘶嘶声(hissing),可以遭受由扬声器的阵列再现。将特定的声音引导到单个扬声器的能力给予混合者消除阵列再现的伪迹(artifacts)和向观众传递更现实的体验的机会。传统上,环绕扬声器不支持大屏幕声道支持的相同的全范围的音频频率和水平。历史上,这对于混合者已经引起问题,减少他们的从屏幕到房间自由地移动全范围声音的能力。结果,剧场拥有者没本文档来自技高网...

【技术保护点】
一种用于处理音频信号的系统,包含创作组件,该创作组件被配置为:接收多个音频信号;产生自适应音频混合,该自适应音频混合包含多个单声道音频流以及与音频流中的每个关联并且指示相应单声道音频流的回放位置的元数据,其中所述多个单声道音频流中的至少一些音频流被识别为基于声道的音频并且所述多个单声道音频流中的其它音频流被识别为基于对象的音频,并且其中基于声道的单声道音频流的回放位置包含扬声器阵列中的扬声器的指定,并且基于对象的单声道音频流的回放位置包含三维空间中的位置,并且其中每个基于对象的单声道音频流在扬声器阵列中的至少一个特定扬声器中呈现;以及将所述多个单声道音频流和元数据封装到比特流中供发送到呈现系统,该呈现系统被配置为将所述多个单声道音频流呈现于与回放环境中的扬声器对应的多个扬声器供给,其中扬声器阵列中的扬声器被放置在回放环境中的特定位置处,并且其中与每个相应的基于对象的单声道音频流关联的元数据元素指示一个或更多个声音成分是否被呈现给扬声器供给以便通过最接近声音成分的意图回放位置的扬声器回放,使得相应的基于对象的单声道音频流被最接近意图回放位置的扬声器有效地呈现。

【技术特征摘要】
2011.07.01 US 61/504,005;2012.04.20 US 61/636,4291.一种用于处理音频信号的系统,包含创作组件,该创作组件被配置为:接收多个音频信号;产生自适应音频混合,该自适应音频混合包含多个单声道音频流以及与单声道音频流中的每个关联并且指示相应单声道音频流的回放位置的元数据,其中所述多个单声道音频流中的至少一些单声道音频流被识别为基于声道的音频并且所述多个单声道音频流中的其它单声道音频流被识别为基于对象的音频,并且其中基于声道的单声道音频流的回放位置包含扬声器阵列中的扬声器的指定,并且基于对象的单声道音频流的回放位置包含三维空间中的位置,并且其中每个基于对象的单声道音频流在扬声器阵列中的至少一个特定扬声器中呈现;以及将所述多个单声道音频流和元数据封装到比特流中供发送到呈现系统,该呈现系统被配置为将所述多个单声道音频流呈现于与回放环境中的扬声器对应的多个扬声器供给,其中扬声器阵列中的扬声器被放置在回放环境中的特定位置处,并且其中与每个相应的基于对象的单声道音频流关联的元数据元素指示一个或更多个声音成分是否被呈现给扬声器供给以便通过最接近声音成分的意图回放位置的扬声器回放,使得相应的基于对象的单声道音频流被最接近意图回放位置的扬声器有效地呈现。2.如权利要求1所述的系统,其中,创作组件包括混合控制台,该混合控制台具有能由用户操作以便指示所述多个单声道音频流的回放水平的控件,并且其中与每个相应的基于对象的单声道音频流关联的元数据元素在用户向混合控制台的控件进行输入后被自动产生。3.如权利要求1或权利要求2所述的系统,还包含编码器,该编码器耦合到创作组件并且被配置为接收所述多个单声道音频流和元数据并且产生以有序方式包含所述多个单声道音频流的单个数字比特流。4.一种用于处理音频信号的系统,包含呈现系统,该呈现系统被配置为:接收封装自适应音频混合的比特流,该自适应音频混合包含多个单声道音频流以及与单声道音频流中的每个关联并且指示相应单声道音频流的回放位置的元数据,其中所述多个单声道音频流中的至少一些单声道音频流被识别为基于声道的音频并且所述多个单声道音频流中的其它单声道音频流被识别为基于对象的音频,并且其中基于声道的单声道音频流的回放位置包含扬声器阵列中的扬声器的指定,并且基于对象的单声道音频流的回放位置包含三维空间中的位置,并且其中每个基于对象的单声道音频流在扬声器阵列中的至少一个特定扬声器中呈现;以及将所述多个单声道音频流呈现于与回放环境中的扬声器对应的多个扬声器供给,其中扬声器阵列中的扬声器被放置在回放环境中的特定位置处,并且其中与每个相应的基于对象的单声道音频流关联的元数据元素指示一个或更多个声音成分是否被呈现给扬声器供给以便通过最接近声音成分的意图回放位置的扬声器回放,使得相应的基于对象的单声道音频流被最接近意图回放位置的扬声器有效地呈现。5.如权利要求4所述的系统,其中,与每个相应的基于对象的单声道音频流关联的元数据元素还指示空间失真阈值,并且其中如果由最接近意图回放位置的扬声器呈现相应的声音成分而引起的空间失真超过空间失真阈值,则指示是否由最接近意图回放位置的扬声器呈现相应的声音成分的元数据元素被忽略。6.如权利要求5所述的系统,其中,空间失真阈值包括方位角容限阈值和仰角容限阈值中的至少一个。7.如权利要求4所述的系统,其中,与每个相应的基于对象的单声道音频流关联的元数据元素还指示交叉衰落速率参数,并且其中当最接近声音成分的意图回放位置的扬声器从第一扬声器改变到第二扬声器时,声音成分从第一扬声器改变到第二扬声器的速率是响应于交叉衰落速率参数来控制的。8.如权利要求4-7中任一项所述的系统,其中,与每个基于对象的单声道音频流关联的元数据元素还指示控制相应的声音成分的回放的空间参数,该空间参数包含以下项中的一个或更多个:声音位置、声音宽度和声速。9.如权利要求4-7中任一项所述的系统,其中,所述多个基于对象的单声道音频流中的每个的回放位置包含相对于回放环境内的屏幕或者包围回放环境的表面的空间位置,并且其中该表面包含前面、后面、左面、右面、上面和下面。10.如权利要求4-7中任一项所述的系统,其中,呈现系统选择由呈现系统利用的呈现算法,呈现算法选自由以下项组成的组:两路立体声、立体声偶极、立体混响声、波场合成WFS、多声道摇移、具有位置元数据的原始主干、双平衡以及基于矢量的振幅摇移。11.如权利要求4-7中任一项所述的系统,其中,所述多个基于对象的单声道音频流中的每个的回放位置被相对于自我中心的参考系或者非自我中心的参考系独立地指定,其中关于回放环境中的收听者采取自我中心的参考系,并且其中关于回放环境的特性采取非自我中心的参考系。12.一种用于创作音频内容供呈现的方法,包括:接收多个音频信号;产生自适应音频混合,该自适应音频混合包含多个单声道音频流以及与单声道音频流中的每个关联并且指示相应单声道音频流的回放位...

【专利技术属性】
技术研发人员:C·Q·罗宾森N·R·特斯恩高斯C·查巴尼
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1