用于生成和渲染具有条件渲染元数据的基于对象的音频的方法和系统技术方案

技术编号:12350375 阅读:109 留言:0更新日期:2015-11-19 01:27
用于生成基于对象的音频节目的方法和音频处理单元,所述基于对象的音频节目包括与该节目的至少一个对象声道对应的条件渲染元数据,其中条件渲染元数据指示适用于每个相应对象声道的基于回放扬声器阵列配置的至少一个渲染约束;以及用于渲染由这种节目指示的音频内容的方法,包括通过响应于至少一些条件渲染元数据来以符合每个可应用渲染约束的方式渲染该节目的至少一个音频声道的内容。对节目内容的选定混合的渲染可以提供沉浸式体验。

【技术实现步骤摘要】
【国外来华专利技术】用于生成和渲染具有条件渲染元数据的基于对象的音频的方法和系统对相关申请的交叉引用本申请要求2013年4月3日提交的美国临时专利申请No.61/807922和2013年6月7日提交的美国临时专利申请No.61/832397的申请日权益。
本专利技术涉及音频信号处理,并且更特别地,涉及包括音频内容(指示至少一个扬声器声道和至少一个音频对象声道)和支持以依赖于回放有事情配置的方式对音频内容的条件渲染(conditionalrendering)的元数据的音频数据比特流的编码、解码和交互式渲染。本专利技术的一些实施例以被称为杜比数字(DolbyDigital,AC-3)、杜比数字加(DolbyDigitalPlus,增强版AC-3或E-AC-3)或者杜比E(DolbyE)的格式之一来生成、解码和/或渲染音频数据。
技术介绍
杜比、杜比数字、杜比数字加以及杜比E是杜比实验室授权许可公司(DolbyLaboratoriesLicensingCorporation)的商标。杜比实验室提供分别被称为杜比数字和杜比数字加的AC-3和E-AC-3的专有实现。尽管本专利技术不限于在根据E-AC-3(或者AC-3或杜比E)格式对音频数据进行编码时或者在传送、解码或渲染E-AC-3、AC-3或杜比E编码数据时使用,但是为了方便,在实施例中将描述本专利技术根据E-AC-3、AC-3或杜比E格式对音频比特流进行编码并且传送、解码和渲染这种比特流典型的音频数据流包括音频内容(例如,音频内容的一个或更多个声道)和指示音频内容的至少一个特性的元数据。例如,在AC-3比特流中,存在若干个专用于改变被传送给收听环境的节目的声音的音频元数据参数。AC-3或E-AC-3编码比特流包括元数据,并且可以包括1至6个声道的音频内容。音频内容是已经利用感知音频编码压缩的音频数据。AC-3(也称为杜比数字)编码的细节是众所周知的,并且在许多公开文献中得到阐述,公开文献包括:ATSC标准A52/A:DigitalAudioCompressionStandard(AC-3),修订版A,先进电视系统委员会,2001年8月20日;及美国专利5583962、5632005、5633981、5727119以及6021386杜比数字加(E-AC-3)编码的细节例如在下文中得到阐述:“IntroductiontoDolbyDigitalPlus,anEnhancementtotheDolbyDigitalCodingSystem”,AES会议论文6196,第117届AES会议,2004年10月28日。杜比E编码的细节在下文中得到阐述:“EfficientBitAllocation,Quantization,andCodinginanAudioDistributionSystem”,AES预印本5068,第107次AES会议,1999年8月;和“ProfessionalAudioCoderOptimizedforUsewithVideo”,AES预印本5033,第107次AES会议,1999年8月。AC-3编码音频比特流的每帧包含针对数字音频的1536个样本的音频内容和元数据。对于48kHz的采样速率,这代表32毫秒的数字音频或者音频的31.25帧/秒的速率。取决于帧分别包含1、2、3或6个音频数据块,E-AC-3编码音频比特流的每帧包含针对数字音频的256、512、768或1536个样本的音频内容和元数据。对于48kHz的采样速率,这分别代表5.333、10.667、16或32毫秒的数字音频或者音频的189.9、93.75、62.5或31.25帧/秒的速率。如在图1中所示,每个AC-3帧被分成部分(片段),包括:同步信息(SI)部分,该部分包含(如图2中所示)同步字(SW)和两个纠错字中的第一个(CRC1);比特流信息(BSI)部分,该部分包含大部分元数据;6个音频块(AB0至AB5),其包含经数据压缩的音频内容(并且也可以包括元数据);浪费比特(W),其包含在压缩音频内容之后剩余的任何未使用的比特;辅助(AUX)信息部分,该部分可以包含更多元数据;以及两个纠错字中的第二个(CRC2)。如图4中所示,每个E-AC-3帧被分成部分(片段),包括:同步信息(SI)部分,该部分包含(如图2中所示)同步字(SW);比特流信息(BSI)部分,该部分包含大部分元数据;1至6个之间的音频块(AB0至AB5),其包含经数据压缩的音频内容(并且也可以包括元数据);浪费比特(W),其包含在压缩音频内容之后剩余的任何未使用的比特;辅助(AUX)信息部分,该部分可以包含更多元数据;以及纠错字(CRC)。在AC-3(或E-AC-3)比特流中,存在若干个专用于改变被传送到收听环境的节目的声音的音频元数据参数。其中一个元数据参数是包括在BSI片段中的DIALNORM参数。如图3中所示,AC-3帧(或E-AC-3帧)的BSI片段包括指示该节目的DIALNORM值的5比特参数(“DIALNORM”)。如果AC-3帧的音频编码模式(“acmod”)是“0”,则包括指示在同一AC-3帧中携带的第二音频节目的DIALNORM值的5比特参数(“DIALNORM2”),以指示正在使用双单声道或“1+1”声道配置。BSI片段还包括指示紧跟在“addbsie”比特之后的附加比特流信息的存在(或不存在)的标志(“addbsie”)、指示紧跟在“addbsil”值之后的任何附加比特流信息的长度的参数(“addbsil”)、以及紧跟在“addbsil”值之后的至多64比特的附加比特流信息(“addbsi”)。BSI片段包括未在图3中具体示出的其它元数据值。已经提出在音频比特流中包括其它类型的元数据。例如,在国际申请日为2011年12月1日且被转让给本申请的受让人的PCT国际申请公开号WO2012/075246A2中,描述了用于生成、解码和处理包括指示音频内容的特性(例如,响度)和处理状态(例如,响度处理状态)的元数据的音频比特流的方法和系统。该参考文献还描述了利用元数据对比特流的音频内容的自适应处理,以及利用元数据对比特流的音频内容的响度处理状态和响度的有效性验证。还已知用于生成和渲染基于对象的音频节目的方法。在这种节目的生成过程中,可以假设要用于渲染的扬声器位于回放环境中的任意位置(或者扬声器在单位圆的对称配置中);不需要假设扬声器在(标称)水平面内或者在节目生成时已知的任何其它预定布置中。典型地,节目中所包括的元数据指示用于例如使用扬声器的三维阵列来在明显空间位置或者沿着轨迹(三维空间中)渲染节目的至少一个对象的渲染参数。例如,节目的对象声道可以具有相应的元数据,指示要渲染(由对象声道指示的)对象的明显空间位置的三维轨迹。轨迹可以包括一系列“地板”位置(在被假设位于回放环境的地板上或在另一水平面内的扬声器子集的平面内)、以及一系列“地板上方”位置(各自通过驱动被假设位于回放环境的至少一个其它水平面内的扬声器子集来确定)。例如,在2011年9月29日以国际公开No.WO2011/119401A2公开且被转让给本申请的受让人的PCT国际申请No.PCT/US2001/028783中,描述了对基于对象的音频节目的渲染的示例。本文档来自技高网...
用于生成和渲染具有条件渲染元数据的基于对象的音频的方法和系统

【技术保护点】
一种用于生成基于对象的音频节目的方法,所述方法包括以下步骤:生成与至少一个对象声道对应的条件渲染元数据,使得所述条件渲染元数据指示适用于所述至少一个对象声道的基于回放扬声器阵列配置的至少一个渲染约束;确定包括所述至少一个对象声道的一组音频声道;以及生成基于对象的音频节目,使得所述基于对象的音频节目指示所述一组音频声道和条件渲染元数据,并且使得该节目的至少一个音频声道的内容能够由回放系统响应于所述条件渲染元数据中的至少一些来以符合所述至少一个渲染约束的方式渲染。

【技术特征摘要】
【国外来华专利技术】2013.04.03 US 61/807,922;2013.06.07 US 61/832,3971.一种用于生成基于对象的音频节目的方法,所述方法包括以下步骤:生成与至少一个对象声道对应的条件渲染元数据,使得所述条件渲染元数据指示适用于所述至少一个对象声道的基于回放扬声器阵列配置的至少一个渲染约束,其中所述条件渲染元数据还指示用于渲染所述节目的音频声道的基于回放扬声器阵列配置的至少一个渲染规则,所述至少一个渲染规则至少包括以下:如果所述回放扬声器阵列包括至少一个地板上方扬声器,则第一类型的每个对象声道应该被下混成由用户选定的或默认的任何节目内容混合指定的任何扬声器声道,以及如果所述回放扬声器阵列不包括至少一个地板上方扬声器,则所述第一类型的每个对象声道不应该被包括在任何下混中;确定包括所述至少一个对象声道的一组音频声道;以及生成基于对象的音频节目,使得所述基于对象的音频节目指示所述一组音频声道和所述条件渲染元数据,并且使得该节目的至少一个音频声道的内容能够由回放系统响应于所述条件渲染元数据中的至少一些条件渲染元数据来以符合所述至少一个渲染约束的方式渲染。2.如权利要求1所述的方法,其中所述一组音频声道包括至少一个扬声器声道,并且所述一组音频声道中的至少一个扬声器声道的音频内容指示在观赏型赛事捕捉的声音,并且由所述一组音频声道中的至少一个对象声道指示的音频内容指示对该观赏型赛事的现场解说。3.如权利要求1所述的方法,其中所述基于对象的音频节目是包括帧的编码比特流,所述编码比特流是AC-3比特流或E-AC-3比特流,所述编码比特流的每个帧指示至少一个数据结构,所述数据结构是包括所述至少一个对象声道的一些内容和所述条件渲染元数据中的一些条件渲染元数据的容器,并且至少一个所述容器被包括在每个所述帧的auxdata字段或addbsi字段中。4.如权利要求1所述的方法,其中所述基于对象的音频节目是包括一系列突发以及突发对之间的保护带的杜比E比特流。5.如权利要求1所述的方法,其中所述基于对象的音频节目是指示节目的音频内容和元数据的未编码表示,并且所述未编码表示是以非暂态方式存储在存储器中的比特流或至少一个数据文件。6.一种渲染由基于对象的音频节目确定的音频内容的方法,其中所述节目指示与至少一个对象声道对应的条件渲染元数据以及包括所述至少一个对象声道的一组音频声道,并且其中所述条件渲染元数据指示适用于所述至少一个对象声道的基于回放扬声器阵列配置的至少一个渲染约束,其中所述条件渲染元数据还指示用于渲染所述节目的音频声道的基于回放扬声器阵列配置的至少一个渲染规则,所述方法包括以下步骤:(a)将所述基于对象的音频节目提供给音频处理单元;以及(b)在音频处理单元中,解析所述条件渲染元数据以及所述一组音频声道,并且响应于所述条件渲染元数据中的至少一些条件渲染元数据来以符合所述至少一个渲染约束和所述至少一个渲染规则的方式渲染所述一组音频声道中的至少一个音频声道的内容,其中所述至少一个渲染规则包括以下:如果所述回放扬声器阵列包括至少一个地板上方扬声器,则第一类型的每个对象声道应该被下混成由用户选定的或默认的任何节目内容混合指定的任何扬声器声道,以及如果所述回放扬声器阵列不包括至少一个地板上方扬声器,则所述第一类型的每个对象声道不应该被包括在任何下混中。7.如权利要求6所述的方法,其中所述一组音频声道包括至少一个扬声器声道,并且步骤(b)包括...

【专利技术属性】
技术研发人员:S·S·麦塔T·齐埃格勒S·默里
申请(专利权)人:杜比实验室特许公司杜比国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1