用于利用响度处理状态元数据处理音频的音频解码器制造技术

技术编号:9050265 阅读:129 留言:0更新日期:2013-08-15 18:38
本实用新型专利技术公开了用于利用响度处理状态元数据处理音频的音频解码器。具体公开一种音频处理设备,其包括:输入缓冲存储器,用于存储包括响度处理状态元数据LPSM和音频数据的编码音频比特流的至少一个帧;解析器,耦接至所述输入缓冲存储器,用于提取所述编码音频比特流和/或所述LPSM;AC-3或E-AC-3解码器,耦接至所述解析器,用于生成解码音频数据的流;以及输出缓冲存储器,耦接至所述解码器,用于存储所述解码音频数据。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及音频信号处理,更具体地,本专利技术涉及使用表示音频内容的响度处理状态的元数据对音频数据比特流进行编码和解码。本专利技术的一些实施例生成或解码作为“杜比数字(Dolby Digital) (AC-3)”、“杜比数字 + (Dolby Digital Plus)(增强型 AC-3或E-AC-3)”或者“杜比E (DolbyE)"已知的格式之一的音频数据。
技术介绍
“杜比”、“杜比数字”、“杜比数字+”和“杜比E”是杜比实验室特许公司的商标。杜比实验室提供分别作为“杜比数字”和“杜比数字+”已知的AC-3和E-AC-3的专有实施。音频数据处理单元通常以盲目的方式来操作,并且不注意在数据被接收之前出现的音频数据的处理历史。这可能在以下处理框架内起作用:其中,单个实体进行各种各样的目标媒体渲染装置的所有的音频数据处理和编码,同时,目标媒体渲染装置进行对编码音频数据的所有的解码和渲染。然而,该盲目的处理在以下情况下不能很好地起作用(或者一点都不起作用):其中,多个音频处理单元散布在多种多样的网络上或者串联放置(即,链式放置)并被期望最优地执行它们各自类型的音频处理。例如,某些音频数据可以被编码以用于高性能的媒体系统并且 可能必须沿着媒体处理链被转换成适合移动装置的缩减形式。因而,音频处理单元可能不必对已经被执行了某种类型的处理的音频数据执行该类型的音频处理。例如,音量调节(volume leveling)单元可以对输入音频剪辑执行处理,而不管是否之前已经对输入音频剪辑执行了相同的或类似的音量调节。因此,音量调节单元可能在不需要时执行调节。该非必要的处理还可能引起在对音频数据的内容进行渲染时的特定特征的去除和/或降级。音频数据的典型的流包括音频内容(如,音频内容的一个或更多个通道)和表示音频内容的至少一个特征的元数据二者。例如,在AC-3比特流中,存在若干音频元数据参数,这些音频元数据参数具体地意在用于改变被递送到倾听环境的节目的声音。元数据参数之一是“DIALN0RM”参数,其意在表示出现音频节目的会话的平均电平,并且用于确定音频回放信号电平。在包括不同的音频节目分段(每个音频节目分段具有不同的DIALN0RM参数)序列的比特流的回放期间,AC-3解码器使用每个分段的DIALN0RM参数来执行某种类型的响度处理,其中,其修改回放电平或响度,使得分段序列的会话的感知响度处于恒定的电平。编码音频项的序列中的每个编码音频分段(项)会(通常)具有不同的DIALN0RM参数,并且解码器可以对其中每个项的电平进行缩放,使得每个项的会话的回放电平或响度相同或者非常类似,虽然这可能需要在回放期间将不同量的增益应用于不同的项。DIALN0RM通常由用户来设置,并且不是自动生成的,虽然如果用户没有设置任何值时则存在默认的DIALN0RM值。例如,内容产生器可以用AC-3编码器外部的装置来进行响度测量,并且接着将(表示音频节目的口语会话的响度的)结果传输给编码器以设置DIALN0RM值。因此,存在为了正确地设置DIALN0RM参数而对内容产生器的依赖。AC-3比特流中的DIALN0RM参数可能不正确的原因有若干不同的原因。首先,如果内容产生器没有设置DIALN0RM值,则每个AC-3编码器具有在比特流的生成期间使用的默认的DIALN0RM值。该默认值可能与音频的实际会话响度电平相当不同。第二,即使内容产生器测量响度并且相应地设置DIALN0RM值,也可能使用不遵守推荐的AC-3响度测量方法的响度测量算法或仪表,从而导致错误的DIALN0RM值。第三,即使已经利用内容产生器正确地测量的并且设置的DIALN0RM值产生了 AC-3比特流,其可能在比特流的传输和/或存储期间已经被改为错误的值。例如,在电视广播应用中,使用错误的DIALN0RM元数据信息来对AC-3比特流进行解码、修改和接着重新编码不是不常见。因此,AC-3比特流中所包括的DIALN0RM值可能是不正确的或者不准确的,因此可能对于倾听体验的质量有负面影响。此外,DIALN0RM参数不指示相应的音频数据的响度处理状态(如,已经对音频数据执行了什么类型的响度处理)。在本专利技术之前,音频比特流一直没有以本公开中描述的类型的格式包括元数据,所述元数据表示音频比特流的音频内容的响度处理状态(如,所应用的响度处理的类型)、或者比特流的音频内容的响度处理状态和响度。这样的格式的响度处理状态元数据用于以特别有效的方式便利对音频比特流的自适应响度处理和/或音频内容的响度处理状态和响度的有效性的验证。国际提交日为2011年12月I日并且被受让给本申请的受让人的公开号为W02012/075246A2的PCT国际申请公开了用于生成、解码和处理包括表示音频内容的处理状态(如,响度处理状态)和特性(如,响度)的元数据在内的音频比特流的方法和系统。该参考文献还描述了使用元数据执行的对比特流的音频内容的自适应处理、以及使用元数据执行的对比特流的音频内容的响度处理状态和响度的有效性的验证。然而,该参考文献没有描述以本公开内容中描述的类型的格式在音频比特流中包括表示音频内容的响度处理状态和响度的元数据(LPSM)。如所注意到的,这样的格式的LPSM用于以特别有效的方式便利对流的自适应响度处理和/或音频内容的响度处理状态和响度的有效性的验证。虽然本专利技术不限于与AC-3比特流、E-AC-3比特流或者杜比E比特流一起使用,然而,为了方便,将在实施例中对其进行描述,在实施例中,其生成、解码或者处理这样的包括响度处理状态元数据在内的比特流。AC-3编码比特流包括元数据以及音频内容的一至六个通道。音频内容是已经使用感知音频编码被压缩的音频数据。元数据包括意在用于改变被递送给倾听环境的节目的声音的若干音频元数据参数。AC-3 (也称为杜比数字)编码的细节是公知的,并且在很多公开参考文献中被阐明,这些公开的参考文献包括:ATSC Standard A52/A:Digital Audio Compression Standard(AC-3), RevisionA,Advanced Television Sy stems Committee, 20Aug.2001 ;以及美国专利5,583,962,5, 632,005,5, 633,981,5, 727,119 和 6,021,386。“Introduction to Dolby Digital Plus, an Enhancement to the Dolby DigitalCoding System”,AES Convention Paper6191, 117th AESConvention, October28, 2OO4 中阐明了杜比数字+ (E-AC-3)编码的细节。“Efficient Bit Allocation, Quantization, and Coding in an AudioDistribution System”,AES Preprint5068,107th AES conference, Augustl999 和“Professional Audio Coder Optimized for Use with Video”,AES本文档来自技高网...

【技术保护点】
一种音频处理设备,包括:输入缓冲存储器,用于存储包括响度处理状态元数据LPSM和音频数据的编码音频比特流的至少一个帧;解析器,耦接至所述输入缓冲存储器,用于提取所述编码音频比特流和/或所述LPSM;AC?3或E?AC?3解码器,耦接至所述解析器,用于生成解码音频数据的流;以及输出缓冲存储器,耦接至所述解码器,用于存储所述解码音频数据。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:杰弗里·里德米勒迈克尔·沃德
申请(专利权)人:杜比实验室特许公司
类型:实用新型
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1