多声道音频扩展支持制造技术

技术编号:3688741 阅读:154 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种支持多声道音频扩展的方法和单元。为了获得有效的要求低计算复杂性的扩展,建议在编码端,对于从多声道音频信号中产生的单音频信号(M)来讲提供至少状态信息作为侧向信息。所述状态信息表示多个频段中的每一个频段指示怎样将预定的或等价提供的增益值在频域中应用到单声道音频信号(M),以获得重建多声道音频信号的第一和第二声道信号(L、R)。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及多声道音频编码和多声道音频编码中的多声道音频扩展。特别的是,本专利技术涉及一种在多声道音频编码系统的编码端支持多声道音频扩展的方法、一种在多声道音频编码系统的解码端支持多声道音频扩展的方法、一种多声道音频编码器和一种用于多声道音频编码器的多声道扩展编码器、一种多声道音频解码器和一种用于多声道音频解码器的多声道扩展解码器以及一种多声道音频编码系统。
技术介绍
音频编码系统在本领域的范围内是众所周知的。它们特别用于发送或存储音频信号。附图说明图1表示音频编码系统的基本结构,其用于音频信号的传输。所述音频编码系统包括发送端的编码器10和接收端的解码器11。将要发送的音频信号提供给编码器10。所述编码器负责将输入的音频数据率转换成不违反传输信道的带宽条件的比特率值。理想条件下,编码器10在该编码过程中只丢弃音频信号中不相关的信息。然后音频编码系统的发送端发送编码后的音频信号,并在该音频编码系统的接收端进行接收。接收端的解码器11将所述编码过程反向执行以获得具有很少或无音频损失的解码音频信号。可替换的实施方案是,图1的音频编码系统可用于存档音频数据。在这种情况下,将编码器10提供的编码音频数据存储在一些存储单元中,解码器11对从该存储单元中检索出来的音频数据进行解码。在该可替换的实施方案中,目的是让编码器实现一个尽可能低的比特率,以节省存储空间。要进行处理的原始音频信号可以是单声道音频信号或者是包含至少第一和第二声道信号的多声道音频信号。多声道音频信号的一个例子是立体声音频信号,其由左声道信号和右声道信号组成。根据允许的比特率,可以对立体声音频信号使用不同的编码方案。例如可以对左声道和右声道信号分别进行独立编码。但是一般来说,左声道和右声道信号之间存在相关性,并且最先进的编码方案都利用这种相关性来达到进一步减小比特率的目的。尤其适合减小比特率的是低比特率立体声扩展方法。在立体声扩展方法中,将立体声音频信号编码成高比特率单声道信号,其和一些为立体声扩展而预备的侧向信息一起由编码器提供。在解码器中,然后利用侧向信息在立体声扩展中从高比特率单声道信号中重建立体声音频信号。所述侧向信息通常只占整个比特率的几kbps。如果一种立体声扩展方案旨在以低比特率进行操作,就不能在解码过程中获得原始立体声音频信号的精确复制。为了如此要求地接近原始立体声音频信号,就需要一种有效的编码模型。最常用的立体声音频编码方案是中间(MS)立体声和强度立体声(IS)。在MS立体声中,将左声道和右声道信号转换成和信号和差信号,例如在J.D.Johnston和A.J.Ferreira所著的“和-差分立体声转换编码(Sum-differencestereo transform coding)”,1992年的ICASSP-92会议记录,第569-572页中所述。为了获得最大的编码效率,以频率和时间相关方式进行这种变换。MS立体声特别有利于高质量、高比特率的立体声编码。在实现低比特率的尝试中,已经将IS和所述MS编码结合使用,其中IS构成立体声扩展方案。在IS编码中,只将频谱的一部分编码成单声道模式,通过另外给左声道和右声道提供不同的比例系数来重建立体声音频信号,正如文件US5,539,829和US5,606,618中所述那样。另外还提出了两种超低比特率立体声扩展方案,即双声道信号编码(Binaural Cue Coding,BCC)和带宽扩展(Bandwidth Extension,BWE)。在BCC中,如F Baumgarte和C.Faller所著的“为什么双声道信号编码比强度立体声编码好(Why Binaural Cue Coding is Better than Intensity Stereo Coding)”(AES第112次会议,2002年5月10日-13日,预印本5575)中所述,用IS来对整个频谱进行编码。在BWE编码中,如在ISO/IEC JTC1/SC29/WG11(MPEG-4)中的“ISO/IEC 14496-32001/FPDAM 1文本,带宽扩展”(N5203(第62次MPEG会议输出文件),2002年10月)中所述,带宽扩展用于将单声道信号扩展成立体声信号。而且,文件US6,016,473提出一种对代表声场的多个音频流进行编码的低比特率空间编码系统。在编码器端,将所述音频流分成多个子带信号,分别代表相应的子频带。然后,产生一个表示这些子带信号组合的复合信号。另外,产生一个引导控制信号,其指示子带中声场的主要方向,例如以加权矢量的形式。在解码器端,根据所述复合信号和相关的引导控制信号在高达两个声道中生成音频流。
技术实现思路
本专利技术的一个目的是根据侧向信息以有效地方式来支持单声道音频信号到多声道音频信号的扩展。对于多声道音频编码系统的编码端来说,提出用于支持多声道音频扩展的第一种方法,其包括将多声道音频信号的第一声道信号转换到频域,产生频谱的第一声道信号;并且将该多声道音频信号的第二声道信号转换到频域,产生频谱的第二声道信号。上述提出的方法还包括为多个相邻频带中的每一个频带确定是频谱第一声道信号、频谱第二声道信号还是没有频谱声道信号在相应的频带中占据支配地位,并为每一个频带提供相应的状态信息。另外,提出一种多声道音频编码器和用于多声道音频编码器的一种扩展编码器,它们包括用于实现上述第一种方法的装置。对于多声道音频编码系统的解码端来说,提出用于支持多声道音频扩展的第二方法,其包括将接收到的单声道音频信号转换到频域,产生频谱的单声道音频信号。上述提出的第二方法还包括通过在多个相邻频带中的每一个频带上为频谱第一声道信号和频谱第二声道信号中的每一个,根据至少一个增益值和接收到的状态信息对频谱单声道音频信号分别加权,从频谱单声道音频信号中产生频谱第一声道信号和频谱第二声道信号。所述状态信息为每个频带指示是否是频谱第一声道信号、频谱第二声道信号还是没有频谱声道信号在相应的频带中占据支配地位。此外,提出一种多声道音频解码器和用于多声道音频解码器的一种扩展解码器,它们包括用于实现上述第二方法的装置。最后,提出一种多声道音频编码系统,其包括上述的多声道音频编码器和多声道音频解码器。本专利技术是根据基于频带的立体声扩展比较有效这一考虑而产生的。本专利技术还根据表示哪种声道信号在相应频带中占据支配地位的状态信息,如果有的话,该状态信息尤其适合用作将单声道音频信号扩展成多声道音频信号的侧向信息这一想法而产生。可以在接收端考虑表示用于重建原始立体声信号的声道信号的特定支配地位程度的增益信息,来估计所述状态信息。本专利技术提供已知解决方案的替换方案。本专利技术的优点在于它支持有效的多声道音频编码,同时其与已知的多声道扩展解决方案相比需要较低的计算复杂性。同样与文件US6,016,473的解决方案相比,所述文件更多地针对环绕编码而不是立体声或其它多声道音频编码,这样可以期望具有更低的比特率和较少的计算量。根据从属权利要求,本专利技术的优选实施例会更清楚。在优选实施例中,如果确定出频谱第一声道信号和频谱第二声道信号中的一个在至少一个频带中占据支配地位,编码端就计算并提供至少一个表示该支配地位程度的增益值。或者,可以预定至少一个增益值并将其存储在接收端。在将本文档来自技高网
...

【技术保护点】
一种在多声道音频编码系统的编码端支持多声道音频扩展的方法,所述方法包括:将多声道音频信号的第一声道信号(L)转换到频域,生成频谱第一声道信号(L↓[MDCT]);将所述多声道音频信号的第二声道信号(R)转换到频域,生成频谱第二声道信号(R↓[MDCT]);为多个相邻频带中的每一个确定在相应频带中占支配地位的是所述频谱第一声道信号(L↓[MDCT])、还是所述频谱第二声道信号(R↓[MDCT])或者没有一个所述频谱声道信号(L↓[MDCT]、R↓[MDCT])占支配地位,并为所述每一个频带提供相应的状态信息。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:J奥彦佩拉
申请(专利权)人:诺基亚有限公司
类型:发明
国别省市:FI[芬兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利