多通道音频数据编码/解码方法和设备技术

技术编号:3941524 阅读:274 留言:0更新日期:2012-04-11 18:40
提供一种多通道音频数据编码和/或解码方法以及设备。该编码方法包括:编码单声道和/或立体声音频数据;以及编码除了单声道和/或立体声音频数据之外的扩展的多通道音频数据。解码方法包括:解码单声道和/或立体声音频数据;检验除了单声道和/或立体声音频数据之外是否存在将被解码的扩展的多通道音频数据;如果存在,则解码该数据。根据该方法和设备,仅通过一个比特流,可根据用户环境来提供单声道、立体声和多通道。另外在多通道音频中,根据用户终端和网络的状态提供精细可分级(FGS)功能。此外,可实现BSAC的性能的增强。可满足对MPEG标准化的各种需求。可用于更逼真的数字多媒体广播和基于移动以及基于家庭影院的服务。

【技术实现步骤摘要】

本专利技术涉及音频编码和解码,更具体地讲,涉及多通道音频数据编码和解码方法 以及设备。
技术介绍
从2003年起,地面数字多媒体广播(DMB)已经使用音频编解码器MPEG-4比特分 片算术编码(BSAC)。尽管目前只能提供立体声服务,但是可以预期在将来将包括多通道服 务。MPEG-4 BASC应该能够增加压縮效率和改善技术的功能,例如带宽扩展的和空间音频。 在传统BSAC多通道中,在一个层中交替地编码中央、前左、前右、后左和后右通 道。图1示出传统BASC多通道的结构。BSAC结构提供精细可分级(FGS)功能。S卩,所有五个 通道在一个层中并且可从最后层中剪切数据。关于通道的工具旁信息(side information) 应该在general—header (通用头)中限定。考虑到每个通道中的特性,高性能压縮需要单 独的旁信息。 图2是使用传统的BSAC方法的音频编码设备的功能模块的框图。该设备包括心 理声学模型单元200、时间/频率映射单元210、时域噪声修整(TNS)单元220、强度立体声 处理单元230、知觉噪声替换(PNS)单元240、中侧(M/S)立体声处理单元250、量化单元260 和比特打包单元270。 由于相对于时间人可以觉察的信号之间的差别不是很大,所以时间/频率映射单 元210将时域中的音频信号转换为频域中的信号。然而,在频域中的信号的情况下,相对 于人类声学模型,可被人觉察的信号与不能被人觉察的信号之间的差别在每个带宽中都很 大。因此,通过改变相对于每个频率带宽的比特数,可增强压縮的效率。 心理声学模型单元200将被时间/频率映射单元从时域转换到频域中的音频信号 结合到合适的子带的信号中,并通过使用由每个信号的交互作用而发生的掩蔽现象,计算 每个子带的掩蔽阈值。TNS单元220被用于控制每个转换窗口中的量化噪声的时域形状。 通过应用频率数据的滤波处理实现TNS。 TNS单元220被随意地应用在编码器中。强度立 体声处理单元230被设计为用于更有效地处理立体声信号。在该装置中,仅关于相对于两 个通道之一的比例因子波段的量化信息被编码,并且相对于剩余的通道仅仅比例因子被发 送。在编码器中,不是必须使用单元230。在当前帧中信号具有强噪声特性的情况下,通过 编码与比例因子波段相应的频率分量的每个的能量值,而不编码频率系数的值,PNS单元 240可以减少产生的将被使用的比特的量。PNS单元240可确定是否以比例因子波段为单 位使用比特。M/S立体声处理单元230也是用于更有效地处理立体声信号的装置。在该装 置中,左通道的信号和右通道的信号分别被转为被加的信号和被减的信号,然后这些信号 被处理。在编码器中,也不是必须使用M/S立体声处理单元。量化单元260执行每个波段的频率信号的标量量化,从而使得每个波段的量化噪声的大小小于掩蔽阈值,这样人们就 感觉不到噪声。比特打包单元270收集在编码设备的每个模式中产生的信息项,并根据产 生的适合于可分级的(scalable)音频编解码器的句法形成比特流。 然而,在图1中所示的传统的BSAC多通道结构中,不能使用中侧(M/S)立体声。 这是因为在传统的编码和解码句法中,当通道的数目是2或更多时,不能使用M/S立体声功 能。因此,编码效率降低。另外,由于窗口切换和PNS对于所有的通道应该使用相同的旁信 息,因此,编码效率降低。此外,由于5通道全部被交织,需要比单声道音频的内存大5倍的 内存。
技术实现思路
本专利技术提供一种多通道音频数据编码方法以及设备,该方法和设备遵守MPEG标 准并改善传统的多通道BSAC方法的性能。 本专利技术还提供一种多通道音频数据解码方法以及设备,该方法和设备遵守MPEG 标准并改善传统的多通道BSAC方法的性能。 根据本专利技术的一方面,提供了一种多通道音频信号编码方法,包括编码单声道和 /或立体声音频数据;编码除了单声道和/或立体声音频数据之外的扩展的多通道音频数 据。单声道和/或立体声音频数据可具有分层的比特率。 扩展的多通道音频数据可包括扩展的通道的类型信息,该类型信息至少指示音频 通道的配置,并被表达为通道配置索引。所述扩展的多通道音频数据的编码可包括编码指 示扩展的多通道音频数据的起始的预定的起始代码(zero—code,同步字);以及按通道编 码扩展的音频数据。所述起始代码可包括由32比特的连续的0形成的zero—code,以及 由8比特的连续的1形成的同步字。 按通道编码扩展的数据的步骤可包括编码指示音频通道的配置的扩展的通道的 类型,以及编码扩展的通道音频数据。扩展的通道的类型可由通道配置索引形成。按通道 编码扩展的数据的步骤可包括编码扩展的数据的长度;以及编码旁信息(bsacj!eader, general_header)。 扩展的通道音频数据的编码可包括编码具有最低比特率的基本层;以及编码比 特率高于基本层的比特流的增强层,如果有多个增强层,则随增强层的数量而增加比特率。 根据本专利技术的另一方面,提供了一种多通道音频信号编码设备,包括单声道/立 体声编码单元,用于编码单声道和/或立体声音频数据;以及扩展的数据编码单元,用于编 码除了单声道和/或立体声音频数据之外的扩展的多通道音频数据。单声道/立体声编码 单元可编码具有分层的比特率的单声道和/或立体声音频数据。 扩展的数据编码单元的扩展的多通道音频数据可包括扩展的通道的类型信息,所述的类型信息至少指示音频通道的配置,并被表达为通道配置索引。扩展的数据编码单元可包括起始代码编码单元,用于编码指示扩展的多通道音频数据的起始的预定起始代码(zero—code,同步字);以及通道编码单元,用于按通道编码扩展的音频数据。 起始代码编码单元的起始代码可包括由32比特的连续0形成的zero—code,以及由8比特的连续1形成的同步字。通道编码单元可包括扩展的通道类型编码单元,用于编码指示音频通道的配置的扩展的通道的类型;以及扩展的音频编码单元,用于编码扩展的通道音频数据。扩展的通道的类型可由通道配置索引形成。通道编码单元可包括扩展 的数据长度编码单元,用于编码扩展的数据的长度;以及旁信息编码单元,用于编码旁信息 (bsac_header, general_header)。 扩展的音频编码单元可包括基本层编码单元,用于编码具有最低比特率的基本 层;以及增强层编码单元,用于编码比特流高于基本层的比特率的增强层,如果存在多个增 强层,则随增强层的数量而增加比特率。 根据本专利技术的又一方面,提供了一种多通道音频信号解码方法,包括解码单声道 和/或立体声音频数据;检验除了单声道和/立体声音频数据之外是否存在将被解码的扩 展的多通道音频数据;如果存在将被解码的扩展的数据,则解码扩展的多通道音频数据。该 单声道和/或立体声音频数据可具有分层的比特率。 扩展的多通道音频数据可包括扩展的通道的类型信息,所述的类型信息至少指示 音频通道的配置,并被表达为通道配置索引。在是否存在扩展的多通道音频数据的检验中, 可检验指示扩展的多通道音频数据的起始的预定的起始代码(zero—code、同步字)的存 在,如果存在起始代码,则确定存在扩展的数据。所述的起始代码可包括由32比特的连续 0形成的zer本文档来自技高网
...

【技术保护点】
一种多通道音频信号编码方法,包括:编码单声道和/或立体声音频数据;编码除了单声道和/或立体声音频数据之外的扩展的多通道音频数据,其中,所述扩展的多通道音频数据包括扩展的通道的类型信息,所述类型信息至少指示音频通道的配置,并被表达为通道配置索引。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:吴殷美金美英金尚煜金度亨金重会
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1