利用响度处理状态元数据的音频编码器和解码器制造技术

技术编号:17035008 阅读:45 留言:0更新日期:2018-01-13 20:37
本发明专利技术公开了利用响度处理状态元数据的音频编码器和解码器。具体公开了一种设备和方法,用于生成编码音频比特流,通过在比特流的帧的至少一个分段中包括响度处理状态元数据(LPSM)并且在该帧的至少一个其他分段中包括音频数据来在编码音频比特流中包括响度处理状态元数据和音频数据,并且用于通过提取LPSM来解码包括LPSM的这样的比特流,并且通常还使用LPSM执行对音频数据的自适应响度处理或者对LPSM和/或音频数据的认证和/或验证中的至少一个。另一方面是一种音频处理单元(如编码器、解码器或后处理器),其被配置(如编程)来执行上述方法的任意实施例或者其包括存储缓冲器,存储缓冲器存储根据上述方法的任意实施例生成的音频比特流的至少一个帧。

【技术实现步骤摘要】
利用响度处理状态元数据的音频编码器和解码器本申请为2013年1月29日提交的申请号为201310034592.4、专利技术名称为“利用响度处理状态元数据的音频编码器和解码器”的专利技术专利申请的分案申请。相关申请的交叉引用本申请要求于2013年1月21日提交的、题为“利用响度处理状态元数据的音频编码器和解码器”、专利技术人为MichaelWard和JeffreyRiedmiller的美国临时专利申请No.61/754,882的优先权。
本专利技术涉及音频信号处理,更具体地,本专利技术涉及使用表示音频内容的响度处理状态的元数据对音频数据比特流进行编码和解码。本专利技术的一些实施例生成或解码作为“杜比数字(DolbyDigital)(AC-3)”、“杜比数字+(DolbyDigitalPlus)(增强型AC-3或E-AC-3)”或者“杜比E(DolbyE)”已知的格式之一的音频数据。
技术介绍
“杜比”、“杜比数字”、“杜比数字+”和“杜比E”是杜比实验室特许公司的商标。杜比实验室提供分别作为“杜比数字”和“杜比数字+”已知的AC-3和E-AC-3的专有实施。音频数据处理单元通常以盲目的方式来操作,并且不注意在数据被接收之前出现的音频数据的处理历史。这可能在以下处理框架内起作用:其中,单个实体进行各种各样的目标媒体渲染装置的所有的音频数据处理和编码,同时,目标媒体渲染装置进行对编码音频数据的所有的解码和渲染。然而,该盲目的处理在以下情况下不能很好地起作用(或者一点都不起作用):其中,多个音频处理单元散布在多种多样的网络上或者串联放置(即,链式放置)并被期望最优地执行它们各自类型的音频处理。例如,某些音频数据可以被编码以用于高性能的媒体系统并且可能必须沿着媒体处理链被转换成适合移动装置的缩减形式。因而,音频处理单元可能不必对已经被执行了某种类型的处理的音频数据执行该类型的音频处理。例如,音量调节(volumeleveling)单元可以对输入音频剪辑执行处理,而不管是否之前已经对输入音频剪辑执行了相同的或类似的音量调节。因此,音量调节单元可能在不需要时执行调节。该非必要的处理还可能引起在对音频数据的内容进行渲染时的特定特征的去除和/或降级。音频数据的典型的流包括音频内容(如,音频内容的一个或更多个通道)和表示音频内容的至少一个特征的元数据二者。例如,在AC-3比特流中,存在若干音频元数据参数,这些音频元数据参数具体地意在用于改变被递送到倾听环境的节目的声音。元数据参数之一是“DIALNORM”参数,其意在表示出现音频节目的会话的平均电平,并且用于确定音频回放信号电平。在包括不同的音频节目分段(每个音频节目分段具有不同的DIALNORM参数)序列的比特流的回放期间,AC-3解码器使用每个分段的DIALNORM参数来执行某种类型的响度处理,其中,其修改回放电平或响度,使得分段序列的会话的感知响度处于恒定的电平。编码音频项的序列中的每个编码音频分段(项)会(通常)具有不同的DIALNORM参数,并且解码器可以对其中每个项的电平进行缩放,使得每个项的会话的回放电平或响度相同或者非常类似,虽然这可能需要在回放期间将不同量的增益应用于不同的项。DIALNORM通常由用户来设置,并且不是自动生成的,虽然如果用户没有设置任何值时则存在默认的DIALNORM值。例如,内容产生器可以用AC-3编码器外部的装置来进行响度测量,并且接着将(表示音频节目的口语会话的响度的)结果传输给编码器以设置DIALNORM值。因此,存在为了正确地设置DIALNORM参数而对内容产生器的依赖。AC-3比特流中的DIALNORM参数可能不正确的原因有若干不同的原因。首先,如果内容产生器没有设置DIALNORM值,则每个AC-3编码器具有在比特流的生成期间使用的默认的DIALNORM值。该默认值可能与音频的实际会话响度电平相当不同。第二,即使内容产生器测量响度并且相应地设置DIALNORM值,也可能使用不遵守推荐的AC-3响度测量方法的响度测量算法或仪表,从而导致错误的DIALNORM值。第三,即使已经利用内容产生器正确地测量的并且设置的DIALNORM值产生了AC-3比特流,其可能在比特流的传输和/或存储期间已经被改为错误的值。例如,在电视广播应用中,使用错误的DIALNORM元数据信息来对AC-3比特流进行解码、修改和接着重新编码不是不常见。因此,AC-3比特流中所包括的DIALNORM值可能是不正确的或者不准确的,因此可能对于倾听体验的质量有负面影响。此外,DIALNORM参数不指示相应的音频数据的响度处理状态(如,已经对音频数据执行了什么类型的响度处理)。在本专利技术之前,音频比特流一直没有以本公开中描述的类型的格式包括元数据,所述元数据表示音频比特流的音频内容的响度处理状态(如,所应用的响度处理的类型)、或者比特流的音频内容的响度处理状态和响度。这样的格式的响度处理状态元数据用于以特别有效的方式便利对音频比特流的自适应响度处理和/或音频内容的响度处理状态和响度的有效性的验证。国际提交日为2011年12月1日并且被受让给本申请的受让人的公开号为WO2012/075246A2的PCT国际申请公开了用于生成、解码和处理包括表示音频内容的处理状态(如,响度处理状态)和特性(如,响度)的元数据在内的音频比特流的方法和系统。该参考文献还描述了使用元数据执行的对比特流的音频内容的自适应处理、以及使用元数据执行的对比特流的音频内容的响度处理状态和响度的有效性的验证。然而,该参考文献没有描述以本公开内容中描述的类型的格式在音频比特流中包括表示音频内容的响度处理状态和响度的元数据(LPSM)。如所注意到的,这样的格式的LPSM用于以特别有效的方式便利对流的自适应响度处理和/或音频内容的响度处理状态和响度的有效性的验证。虽然本专利技术不限于与AC-3比特流、E-AC-3比特流或者杜比E比特流一起使用,然而,为了方便,将在实施例中对其进行描述,在实施例中,其生成、解码或者处理这样的包括响度处理状态元数据在内的比特流。AC-3编码比特流包括元数据以及音频内容的一至六个通道。音频内容是已经使用感知音频编码被压缩的音频数据。元数据包括意在用于改变被递送给倾听环境的节目的声音的若干音频元数据参数。AC-3(也称为杜比数字)编码的细节是公知的,并且在很多公开参考文献中被阐明,这些公开的参考文献包括:ATSCStandardA52/A:DigitalAudioCompressionStandard(AC-3),RevisionA,AdvancedTelevisionSystemsCommittee,20Aug.2001;以及美国专利5,583,962、5,632,005、5,633,981、5,727,119和6,021,386。“IntroductiontoDolbyDigitalPlus,anEnhancementtotheDolbyDigitalCodingSystem”,AESConventionPaper6191,117thAESConvention,October28,2004中阐明了杜比数字+(E-AC-3)编码的细节。“EfficientBitAllocation,Quant本文档来自技高网...
利用响度处理状态元数据的音频编码器和解码器

【技术保护点】
一种用于对编码音频比特流进行解码的音频处理设备,所述音频处理设备包括:输入缓冲器,所述输入缓冲器存储所述编码音频比特流中的至少一部分,所述编码音频比特流包括音频数据和元数据容器;比特流解析器,所述比特流解析器解析所述音频数据;以及解码器,所述解码器解码所述音频数据,其中,所述编码音频比特流被分段成一个或更多个帧,每个帧包括:同步信息分段,所述同步信息分段包括帧同步字;跟随所述同步信息分段的比特流信息分段,所述比特流信息包括音频元数据;附加比特流信息分段,所述附加比特流信息分段位于所述比特流信息分段的端部处;跟随所述比特流信息分段的高达六个的音频数据块;跟随所述高达六个的音频数据块的辅助信息分段;跟随所述辅助信息分段的纠错字;以及一个或更多个可选的skip域,所述skip域包含保留在所述帧中的任何未使用空间,其中,所述一个或更多个帧中的至少一个包括所述元数据容器,所述元数据容器位于选自所述一个或更多个skip域、所述附加比特流信息分段、所述辅助信息分段或其组合的保留数据空间中,其中,所述元数据容器包括:识别所述元数据容器的开始的首部,所述首部包括同步字、同步字之后跟随的指定所述元数据容器的长度的长度域;跟随所述首部的格式版本域,所述格式版本域指定所述元数据容器的格式版本;跟随所述格式版本域的一个或更多个元数据有效载荷,每个元数据有效载荷包括唯一识别所述元数据有效载荷的标识符、标识符之后跟随的所述元数据有效载荷的元数据;以及跟随所述一个或更多个元数据有效载荷的保护数据,所述保护数据用于认证或验证所述元数据容器或者所述元数据容器内的所述一个或更多个元数据有效载荷。...

【技术特征摘要】
2013.01.21 US 61/754,8821.一种用于对编码音频比特流进行解码的音频处理设备,所述音频处理设备包括:输入缓冲器,所述输入缓冲器存储所述编码音频比特流中的至少一部分,所述编码音频比特流包括音频数据和元数据容器;比特流解析器,所述比特流解析器解析所述音频数据;以及解码器,所述解码器解码所述音频数据,其中,所述编码音频比特流被分段成一个或更多个帧,每个帧包括:同步信息分段,所述同步信息分段包括帧同步字;跟随所述同步信息分段的比特流信息分段,所述比特流信息包括音频元数据;附加比特流信息分段,所述附加比特流信息分段位于所述比特流信息分段的端部处;跟随所述比特流信息分段的高达六个的音频数据块;跟随所述高达六个的音频数据块的辅助信息分段;跟随所述辅助信息分段的纠错字;以及一个或更多个可选的skip域,所述skip域包含保留在所述帧中的任何未使用空间,其中,所述一个或更多个帧中的至少一个包括所述元数据容器,所述元数据容器位于选自所述一个或更多个skip域、所述附加比特流信息分段、所述辅助信息分段或其组合的保留数据空间中,其中,所述元数据容器包括:识别所述元数据容器的开始的首部,所述首部包括同步字、同步字之后跟随的指定所述元数据容器的长度的长度域;跟随所述首部的格式版本域,所述格式版本域指定所述元数据容器的格式版本;跟随所述格式版本域的一个或更多个元数据有效载荷,每个元数据有效载荷包括唯一识别所述元数据有效载荷的标识符、标识符之后跟随的所述元数据有效载荷的元数据;以及跟随所述一个或更多个元数据有效载荷的保护数据,所述保护数据用于认证或验证所述元数据容器或者所述元数据容器内的所述一个或更多个元数据有效载荷。2.根据权利要求1所述的音频处理设备,其中,所述同步字是值为0x5838的16比特域。3.根据权利要求1所述的音频处理设备,其中,所述一个或更多个元数据有效载荷包括节目响度有效载荷,并且所述响度有效载荷包括会话通道域,所述会话通道域包括指示所述音频数据的左通道、右通道或者中心通道是否包含口语会话的3比特域。4.根据权利要求1所述的音频处理设备,...

【专利技术属性】
技术研发人员:杰弗里·里德米勒迈克尔·沃德
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1