用于基于对象的音频的交互式渲染的方法和系统技术方案

技术编号:18169659 阅读:61 留言:0更新日期:2018-06-09 14:08
用于生成基于对象的音频节目的方法,其中所述基于对象的音频节目能以个性化的方式渲染,例如,以便提供对节目的音频内容的沉浸式感知。其它实施例包括传送(例如,广播)、解码和/或渲染这种节目的步骤。对由节目指示的音频对象的渲染可以提供沉浸式体验。节目的音频内容可以指示多个对象声道(例如,指示用户可选和用户可配置的对象的对象声道,并且通常还有要在不存在用户选择的情况下渲染的一组默认对象)和一床扬声器声道。另一方面是被配置为执行该方法的任何实施例或者包括存储有根据该方法的任何实施例生成的基于对象的音频节目(或者其比特流)的至少一帧(或其它片段)的缓冲存储器的音频处理单元(例如,编码器或解码器)。

【技术实现步骤摘要】
用于基于对象的音频的交互式渲染的方法和系统本申请是申请号为201480019107.9、申请日为2014年03月19日、专利技术名称为“用于基于对象的音频的交互式渲染的方法和系统”的专利技术专利申请的分案申请。对相关申请的交叉引用本申请要求2013年4月3日提交的美国临时专利申请No.61/807922和2013年6月7日提交的美国临时专利申请No.61/832397的申请日权益,这两个申请通过引用并入于此。
本专利技术涉及音频信号处理,并且更特别地,涉及包括音频内容(通常指示扬声器声道和至少一个可选的音频对象声道)和支持对音频内容的交互式渲染(interactiverendering)的元数据的音频数据比特流的编码、解码和交互式渲染。本专利技术的一些实施例以被称为杜比数字(DolbyDigital,AC-3)、杜比数字加(DolbyDigitalPlus,增强版AC-3或E-AC-3)或者杜比E(DolbyE)的格式之一来生成、解码和/或渲染音频数据。
技术介绍
杜比、杜比数字、杜比数字加以及杜比E是杜比实验室授权许可公司(DolbyLaboratoriesLicensingCorporation)的商标。杜比实验室提供分别被称为杜比数字和杜比数字加的AC-3和E-AC-3的专有实现。典型的音频数据流包括音频内容(例如,音频内容的一个或更多个声道)和指示音频内容的至少一个特性的元数据。例如,在AC-3比特流中,存在若干个专用于改变被传送给收听环境的节目的声音的音频元数据参数。其中一个元数据参数是DIALNORM参数,该参数意欲指示在音频节目中发生的对话的平均水平,并且被用来确定音频回放信号水平。虽然本专利技术不限于与AC-3比特流、E-AC-3比特流或者杜比E比特流一起使用,但是为了方便,在实施例中将描述本专利技术生成、解码或以其它方式处理这种包括响度处理状态元数据的比特流。AC-3编码比特流包括元数据和1至6个声道的音频内容。音频内容是已经利用感知音频编码压缩的音频数据。元数据包括若干个打算用于改变被传送到收听环境的节目的声音的音频元数据参数。AC-3(也称为杜比数字)编码的细节是众所周知的,并且在许多公开文献中得到阐述,包括在ATSC标准A52/A中:DigitalAudioCompressionStandard(AC-3),修订版A,先进电视系统委员会,2001年8月20日。杜比数字加(E-AC-3)编码的细节在下文中得到阐述:“IntroductiontoDolbyDigitalPlus,anEnhancementtotheDolbyDigitalCodingSystem”,AES会议论文6196,第117届AES会议,2004年10月28日。杜比E编码的细节在下文中得到阐述:“EfficientBitAllocation,Quantization,andCodinginanAudioDistributionSystem”,AES预印本5068,第107次AES会议,1999年8月;和“ProfessionalAudioCoderOptimizedforUsewithVideo”,AES预印本5033,第107次AES会议,1999年8月。AC-3编码音频比特流的每帧包含针对数字音频的1536个样本的音频内容和元数据。对于48kHz的采样速率,这代表32毫秒的数字音频或者音频的31.25帧/秒的速率。取决于帧分别包含1、2、3或6个音频数据块,E-AC-3编码音频比特流的每帧包含针对数字音频的256、512、768或1536个样本的音频内容和元数据。对于48kHz的采样速率,这分别代表5.333、10.667、16或32毫秒的数字音频或者音频的189.9、93.75、62.5或31.25帧/秒的速率。如在图1中所示,每个AC-3帧被分成部分(片段),包括:同步信息(SI)部分,该部分包含(如图2中所示)同步字(SW)和两个纠错字中的第一个(CRC1);比特流信息(BSI)部分,该部分包含大部分元数据;6个音频块(AB0至AB5),其包含经数据压缩的音频内容(并且也可以包括元数据);浪费比特(W),其包含在压缩音频内容之后剩余的任何未使用的比特;辅助(AUX)信息部分,该部分可以包含更多元数据;以及两个纠错字中的第二个(CRC2)。如图4中所示,每个E-AC-3帧被分成部分(片段),包括:同步信息(SI)部分,该部分包含(如图2中所示)同步字(SW);比特流信息(BSI)部分,该部分包含大部分元数据;1至6个之间的音频块(AB0至AB5),其包含经数据压缩的音频内容(并且也可以包括元数据);浪费比特(W),其包含在压缩音频内容之后剩余的任何未使用的比特;辅助(AUX)信息部分,该部分可以包含更多元数据;以及纠错字(CRC)。在AC-3(或E-AC-3)比特流中,存在若干个专用于改变被传送到收听环境的节目的声音的音频元数据参数。其中一个元数据参数是包括在BSI片段中的DIALNORM参数。如图3中所示,AC-3帧(或E-AC-3帧)的BSI片段包括指示该节目的DIALNORM值的5比特参数(“DIALNORM”)。如果AC-3帧的音频编码模式(“acmod”)是“0”,则包括指示在同一AC-3帧中携带的第二音频节目的DIALNORM值的5比特参数(“DIALNORM2”),以指示正在使用双单声道或“1+1”声道配置。BSI片段还包括指示紧跟在“addbsie”比特之后的附加比特流信息的存在(或不存在)的标志(“addbsie”)、指示紧跟在“addbsil”值之后的任何附加比特流信息的长度的参数(“addbsil”)、以及紧跟在“addbsil”值之后的至多64比特的附加比特流信息(“addbsi”)。BSI片段包括未在图3中具体示出的其它元数据值。已经提出在音频比特流中包括其它类型的元数据。例如,在国际申请日为2011年12月1日且被转让给本申请的受让人的PCT国际申请公开号WO2012/075246A2中,描述了用于生成、解码和处理包括指示音频内容的特性(例如,响度)和处理状态(例如,响度处理状态)的元数据的音频比特流的方法和系统。该参考文献还描述了利用元数据对比特流的音频内容的自适应处理,以及利用元数据对比特流的音频内容的响度处理状态和响度的有效性验证。还已知用于生成和渲染基于对象的音频节目的方法。在这种节目的生成过程中,通常假设要用于渲染的扬声器位于回放环境中的任意位置;不一定在(标称)水平面内或者在节目生成时已知的任何其它预定布置中。典型地,节目中所包括的元数据指示用于例如使用扬声器的三维阵列来在明显空间位置或者沿着轨迹(三维空间中)渲染节目的至少一个对象的渲染参数。例如,节目的对象声道可以具有相应的元数据,指示要渲染(由对象声道指示的)对象的明显空间位置的三维轨迹。轨迹可以包括一系列“地板”位置(在被假设位于回放环境的地板上或在另一水平面内的扬声器子集的平面内)、以及一系列“地板上方”位置(各自通过驱动被假设位于回放环境的至少一个其它水平面内的扬声器子集来确定)。例如,在2011年9月29日以国际公开No.WO2011/119401A2公开且被转让给本申请的受让人的PCT国际申请No.PC本文档来自技高网...
用于基于对象的音频的交互式渲染的方法和系统

【技术保护点】
一种渲染由基于对象的音频节目确定的音频内容的方法,其中该节目指示至少一床扬声器声道、一组对象声道和对象相关元数据,所述方法包括以下步骤:(a)确定所述一组对象声道的选定子集;及(b)渲染由所述基于对象的音频节目确定的音频内容,包括通过确定由一床扬声器声道指示的第一音频内容和由所述一组对象声道的选定子集指示的第二音频内容的混合。

【技术特征摘要】
2013.04.03 US 61/807,922;2013.06.07 US 61/832,3971.一种渲染由基于对象的音频节目确定的音频内容的方法,其中该节目指示至少一床扬声器声道、一组对象声道和对象相关元数据,所述方法包括以下步骤:(a)确定所述一组对象声道的选定子集;及(b)渲染由所述基于对象的音频节目确定的音频内容,包括通过确定由一床扬声器声道指示的第一音频内容和由所述一组对象声道的选定子集指示的第二音频内容的混合。2.如权利要求1所述的方法,其中步骤(a)包括以下步骤:提供音频内容的可选混合的菜单,每个可选混合指示一床扬声器声道的音频内容与所述一组对象声道的子集的音频内容的不同混合,其中对象相关元数据的至少一部分指示关于在菜单中包括哪些可选混合的至少一个约束或条件;及从菜单中选择一个可选混合,由此确定所述一组对象声道的选定子集。3.如权利要求2所述的方法,其中对象相关元数据的至少一部分指示每个对象声道的标识符以及每个对象声道之间的关系,并且对象相关元数据的所述至少一部分确定关于在菜单中包括哪些可选混合的至少一个约束或条件。4.如权利要求1所述的方法,其中所述方法由回放系统执行,并且步骤(a)包括以下步骤:提供音频内容的可选混合的菜单,每个可选混合指示所述一床扬声器声道的音频内容与所述一组对象声道的子集的音频内容的不同混合,其中回放系统的预配置确定关于在菜单中包括哪些可选混合的至少一个约束或条件;及从菜单中选择一个可选混合,由此确定所述一组对象声道的选定子集。5.如权利要求1所述的方法,其中所述基于对象的音频节目是包括帧的编码比特流,该编码比特流是AC-3比特流或E-AC-3比特流,该编码比特流的每一帧指示至少一个数据结构,该数据结构是包括对象声道的一些内容和对象相关元数据中的一些的容器,并且至少一个所述容器被包括在每个所述帧的auxdata字段中。6.如权利要求1所述的方法,其中所述基于对象的音频节目是包括帧的编码比特流,该编码比特流是AC-3比特流或E-AC-3比特流,该编码比特流的每一帧指示至少一个数据结构,该数据结构是包括对象声道的一些内容和所述对象相关元数据中的一些的容器,并且至少一个所述容器被包括在每个所述帧的addbsi字段中。7.如权利要求1所述的方法,其中所述基于对象的音频节目是包括一系列突发以及突发对之间的保护带的杜比E比特流,每个所述保护带由一系列片段组成,并且至少一些所述保护带中的每一个的前X个片段中的每一个片段包括对象声道的一些内容和所述对象相关元数据中的一些对象相关元数据,其中X是数字。8.一种用于渲染由基于对象的音频节目确定的音频内容的系统,其中所述节目指示至少一床扬声...

【专利技术属性】
技术研发人员:R·A·弗朗斯T·齐埃格勒S·S·梅塔A·J·道尔P·桑索姆布恩M·D·德怀尔F·法拉哈尼N·R·茨恩高斯F·桑切斯
申请(专利权)人:杜比实验室特许公司杜比国际公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1