音频编码器和解码器制造技术

技术编号:21456194 阅读:26 留言:0更新日期:2019-06-26 05:30
本公开涉及音频编码器和解码器。音频处理系统(100)接受具有多个预定义音频帧率中的一个的音频比特流。该系统包括前端组件(110),该前端组件(110)接收与预定义音频帧率中的任一个中的一个音频帧对应的可变数量的量化谱分量,并且根据预定的频率相关量化水平执行逆量化。该前端组件可以不知道音频帧率。该音频处理系统还包括频域处理级(120)和采样率转换器(130),其提供在与音频帧率无关的目标采样频率下采样的重构音频信号。通过其帧率适应性,该系统可被配置为与接受多个视频帧率的视频处理系统并行地、帧同步地操作。

【技术实现步骤摘要】
音频编码器和解码器本申请是申请号为201480019917.4、申请日为2014年4月4日、专利技术名称为“音频编码器和解码器”的专利技术专利申请的分案申请。相关申请的交叉引用本申请要求在2013年4月5日提交的美国临时专利申请No.61/808,701的优先权,该申请的全部内容特此通过引用并入。
本文所公开的专利技术一般涉及视听媒体分发。特别地,它涉及适于接受多个音频帧长度并因此适合形成处理帧同步视听媒体格式的媒体解码器的一部分的音频解码器。
技术介绍
在当前可用的大多数商业应用中使用的音频和视频帧率(或帧频率)遵循单独建立的工业标准以及用于在通信方之间传输音频和视频的协定格式,这些标准在记录和回放软件产品、硬件组件两者中显示自己。音频帧率一般是特定于不同编码算法的,并且与诸如44.1和48kHz的音频采样频率相关联,这些采样频率在它们各自的地理区域中与视频帧率29.97fps(NTSC)和25fps(PAL)一样出名;另外的标准视频帧率包括23.98、24和30fps或者更一般的形式24、25、30fps和(24,25,30)×1000/1001fps。尝试统一或协调音频帧率还没有成功,尽管有从模拟到数字分发的转变,这意味着音频帧(例如,适合在网络上传输的包(packet)或编码单元)一般不与整数数量的视频帧对应。作为时钟漂移的结果,或者当从不同的源接收数个流以用于服务器中的共同处理、编辑或拼接时(这是在广播站中频繁遇到的情况),对于同步视听数据流的要求不断出现。在图3所示的情况下,音频帧(流S1中的A11、A12、…和流S2中的A21、A22、…)和视频帧(流S1中的V11、V12、…和流S2中的V21、V22、…)不匹配,通过复制或抛弃流中的一个中的视频帧(在例如拼接流的尝试中)来改善流之间的视频对视频同步性的尝试一般导致该流内的音频对视频异步性。一般地,即使对应的音频帧被删除或复制-异步性也持续-至少在某种程度上。以更多的处理为代价,可通过在同步期间将音频暂时解码为与分成帧无关的低级格式(例如以原始采样频率分辨的脉冲编码调制(PCM)或基带格式),创建更大的操纵空间。然而,这样的解码使元数据到特定的音频段的精确锚定模糊,并且产生不能通过解码成“完美”的中间格式来补救的信息损失。作为一个示例,动态范围控制(DRC)一般是模式相关的和设备相关的,并且因此可仅在实际回放的时候被消耗;在整个音频包上管控DRC的特性的数据结构难以在同步已发生之后如实地恢复。由此,这种类型的经过连续解码、同步和编码阶段的保留(preserve)元数据的任务不是简单的任务,如果经受复杂性约束的话。关于被设计为携载双声道PCM信号并因此能够仅以编码形式处理多声道内容的遗留基础设施,可能出现甚至更严重的困难。在给定帧中的数据精确地与记录和编码视听信号中的同一时间段对应的意义上,帧同步地编码音频和视频数据必定更方便。这在视听流的逐帧操纵(即,流中的一个或多个整个独立编码单元的复制或抛弃)下保留音频对视频同步性。在DolbyETM音频格式中可用的帧长度匹配视频帧长度。在448kbps的典型比特率的情况下,该格式被设计主要用于专业制作(其中像数字视频盒一样的硬媒介作为其优选的存储模态)的目的。存在作为帧同步视听格式(或格式族)的一部分、适合分发目的的替代性音频格式以及适合与其一起使用的编码和解码设备的需要。附图说明以下,将参照附图更详细地描述示例实施例,其中,图1示出根据示例实施例的音频处理系统的结构以及系统中的组件的内部工作;图2示出媒体分发系统;图3示出根据现有技术的具有独立的帧长度的两个多媒体流,每个多媒体流包括音频比特流和相关联的视频帧的流;图4示出根据示例实施例的具有协同(coordinate)的帧长度的两个多媒体流,每个多媒体流包括音频比特流和相关联的视频帧的流;图5示出根据示例实施例的编码器系统的结构。所有的附图是示意性的,并且为了阐明本专利技术,一般仅示出必要的部分,而其它的部分可被省略或者仅仅被建议。除非另外指示,否则,相似的附图标记在不同的附图中指的是相似的部分。具体实施方式I.概要音频处理系统接受被分割成携载音频数据的帧的音频比特流。该音频数据可通过采样声波并将由此获得的电子时间采样变换成谱系数来准备,该谱系数然后以适合传输或存储的格式被量化和编码。该音频处理系统适于以单声道、立体声或多声道格式重构采样的声波。在作为用于重构音频数据表示的声波的附加时间间隔的基础是充分的意义上,帧中的音频数据可以是自含(self-contained)的;由于重叠变换等,重构可以需要或者可以不需要前面的音频数据的知识。该音频处理系统至少包括前端组件、处理级和用于提供期望的目标采样频率下的处理的音频信号的时域表示的采样率转换器。强调的是,目标采样频率是预定义的量,其可由用户或系统设计者配置,而与传入的音频比特流的属性(例如,音频帧率)无关。作为一种选择,目标采样频率可以是音频帧率的函数。作为另一种选择,目标采样频率可以是相对于音频帧率非适应性的和/或恒定的。在前端组件中,去量化级从音频比特流接收若干个量化谱系数(其中,数量与一个音频帧对应)、联合处理该系数以产生用于控制帧中的音频数据的逆量化的信息并执行逆量化。在前端组件中的去量化级的下游,逆变换级取得输出-构成中间信号的第一频域表示的谱系数-并且合成中间信号的时域表示。该前端组件然后从音频比特流接收并处理相等数量的随后的量化谱系数(但是,可在数个变换上分布)并且继续处理这些系数。该去量化级被配置为通过将音频数据解码成预定的量化水平(或重构水平、或重构点)来产生谱系数。量化水平由编码器基于心理声学考虑(例如,以对于给定频率(或频带)的量化噪声不超过掩蔽阈值(maskingthreshold)的方式)来选择。由于掩蔽阈值是频率相关的,因此,从经济的观点看,优选使编码器选择相对于频率非均匀的量化水平。作为结果,量化和去量化一般以心中特定的物理采样频率发生,在该特定的物理采样频率下,最佳输出被产生。该音频处理系统中的处理级可适于执行频域中的处理。出于这种目的,处理级包括用于提供中间信号的频域表示的初始分析滤波器组和后跟(followedby)用于将处理的音频信号变换回时域的合成滤波器组的一个或多个处理组件。在示例实施例中,该音频处理系统被配置为接受具有至少两个不同的预定义音频帧率中的任一个的音频比特流。这允许音频处理系统在音频比特流(该音频比特流在每个视频帧与持续时间与一个或多个视频帧、优选一个或多个全视频帧的持续时间相等的、携载音频数据的音频帧时间相关的意义上与视频帧的流相关联)上操作,使得两个或更多个不同的视频帧率可以在音频处理系统中匹配,而不牺牲音频对视频同步性。如本文中所使用的,视频帧的“持续时间”(以秒计算)可被理解为视频帧率的倒数。类似地,音频帧的持续时间(以秒计算)可被定义为音频帧率的倒数。帧中的视频数据可源自在相关的音频数据被采样的间隔的初始、中间或最终时刻处的采样;可替代地,视频数据在至少部分地与音频采样间隔重叠的扩展间隔(例如,通过滚动帘(rolling-shutter)处理)上被采样。前端组件具有可变的最大帧长度(其被测量为采样的数量),并且可在与所述预定义的音频本文档来自技高网...

【技术保护点】
1.一种音频处理系统(100),该音频处理系统(100)被配置为接受与视频帧(V11,V12,…)的流相关联的音频比特流,该音频比特流被分割成帧(A11,A12,…),其中,每个视频帧与携载与一个或多个视频帧相等的持续时间的相关联的音频数据的音频比特流中的帧时间相关,所述音频处理系统包括:前端组件(110),该前端组件(110)包括:去量化级(114),该去量化级(114)适于重复接收与所述音频比特流中的一个音频帧对应的量化谱系数,并且输出中间信号的第一频域表示;和逆变换级(118),该逆变换级(118)用于接收所述中间信号的第一频域表示并且基于此合成所述中间信号的时域表示;处理级(120),该处理级(120)包括:分析滤波器组(122),该分析滤波器组(122)用于接收所述中间信号的时域表示并且输出所述中间信号的第二频域表示;至少一个处理组件(124、126),该至少一个处理组件(124,126)用于接收所述的中间信号的第二频域表示并且输出经处理的音频信号的频域表示;和合成滤波器组(128),该合成滤波器组(128)用于接收所述经处理的音频信号的频域表示并且输出所述经处理的音频信号的时域表示;以及采样率转换器(130),该采样率转换器(130)用于接收所述的经处理的音频信号的时域表示并且输出在目标采样频率下采样的重构的音频信号,其特征在于,所述音频处理系统被配置为接受具有至少两个不同的预定义音频帧率中的任一个的音频比特流,以及所述前端组件具有可变的最大帧长度并且在与所述不同的预定义音频帧率对应的至少两个模式中可操作。...

【技术特征摘要】
2013.04.05 US 61/808,7011.一种音频处理系统(100),该音频处理系统(100)被配置为接受与视频帧(V11,V12,…)的流相关联的音频比特流,该音频比特流被分割成帧(A11,A12,…),其中,每个视频帧与携载与一个或多个视频帧相等的持续时间的相关联的音频数据的音频比特流中的帧时间相关,所述音频处理系统包括:前端组件(110),该前端组件(110)包括:去量化级(114),该去量化级(114)适于重复接收与所述音频比特流中的一个音频帧对应的量化谱系数,并且输出中间信号的第一频域表示;和逆变换级(118),该逆变换级(118)用于接收所述中间信号的第一频域表示并且基于此合成所述中间信号的时域表示;处理级(120),该处理级(120)包括...

【专利技术属性】
技术研发人员:H·普恩哈根K·克约尔林A·格罗舍尔J·波普K·J·罗德恩
申请(专利权)人:杜比国际公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1