用于包括通用音频和语音帧的音频信号的解码器制造技术

技术编号:8109360 阅读:212 留言:0更新日期:2012-12-21 23:43
一种用于对音频帧进行解码的方法,包括:产生代码化音频样本的第一帧;产生代码化音频样本的至少一部分第二帧;基于下述参数来生成音频间隙填充样本,该参数表示代码化音频样本的第一帧的加权分段或代码化音频样本的一部分第二帧的加权分段;以及形成包括代码化音频样本的一部分第二帧和音频间隙填充样本的序列。

【技术实现步骤摘要】
【国外来华专利技术】
本公开一般地涉及语音和音频处理,并且更具体地,涉及用于处理包括通用音频和语音帧的音频信号的解码器。
技术介绍
许多音频信号可以被分类为具有更多类语音特性或音乐、音调、背景噪声、回响语音等更典型的更多的通用音频特性。基于适用于处理语音信号的源滤波器模型的编译码器不会有效地处理通用音频信号。这样的编译码器包括线性预测代码化(LPC)编译码器,如码激励线性预测(CELP)代码器。语音代码器往往以低比特率处理语音信号。相反,诸如频域变换编译码器的通用音频处理系统不会很好地处理语音信号。公知的是,提供分类器或鉴别器来在逐个帧的基础上确定音频信号是更像语音还是不太像语音,并且基于该分类来 将信号指引到语音编译码器或通用音频编译码器。能够处理不同信号类型的音频信号处理器有时被称为混合核心编译码器。然而,分别地已知在与使用语音编译码器和通用音频编译码器的语音帧和通用音频帧的处理之间的转变来在已处理输出信号中产生音频间隙形式的不连续。这样的音频间隙通常可在用户接ロ处察觉,并且通常是不期望的。现有技术图I图示了输出帧序列中的在已处理语音帧与已处理通用音频帧之间产生的音频间隙。图I还在102处图示了输入帧的序列,该输入帧的序列可以被分类为语音帧(m-2)和(m-1),后面是通用音频帧(m)和(m+1)。样本索引η与该帧串内的在时间η处获得的样本相对应。出于该图的目的,η = O的样本索引与其中获得帧(m)的最后ー个样本的相对时间相对应。这里,可以在已经累积了 320个新样本之后处理帧(m),将该320个新样本与160个先前累积的样本组合,总共480个样本。在该示例中,采样频率是16kHz,并且对应的帧尺寸是20毫秒,但是许多采样速率 和帧尺寸都是可能的。可以使用线性预测代码化(LPC)语音代码化来处理语音帧,其中,在104处图示了 LPC分析窗ロ。已处理语音巾贞(m-Ι)在106处进行图示并且其前面是未图示的代码化的语音帧(m-2),与输入帧(m-2)相对应。图I还在108处图示了重叠的代码化的通用音频帧。通用音频分析/复合窗ロ与已处理通用音频帧的振幅包络相对应。已处理帧106和108的序列由于算法处理延迟而导致在时间上相对于输入帧102的序列偏移,该算法处理延迟在本文中还分别针对语音和通用音频巾贞被称为先行延迟(look-ahead delay)和重叠-添加延迟。图I中的108处的代码化的通用音频(m)和(m+1)的重叠部分提供了对110处的对应顺序已处理通用音频帧(m)和(m+Ι)的加性效应。然而,因为前ー个帧是代码化的语音帧,所以在108处的代码化的通用音频帧(m)的导尾不与相邻的通用音频帧的拖尾重叠。因此,在108处的对应已处理通用音频帧(m)的前导部分具有减小的振幅。将代码化的语音和通用音频帧的序列组合的结果是在已处理输出帧的序列中的已处理语音帧和已处理通用音频帧之间的音频间隙,如110处的复合输出帧中所示。标题为“Switching Between Coding Schemes”(诺基亚)的美国申请No. 2006/0173675公开了ー种混合代码器,该混合代代码器通过在逐帧的基础上在自适应多速率宽带(AMR-WB)编译码器与利用修正的离散余弦变换(MDCT)之间进行选择,例如,在MPEG 3编译码器或(AAC)编译码器之间进行选择,其中最适当的ー个,来适应语音和音乐二者。诺基亚改善了不连续性的不利影响,该不连续性由于在使用具有几乎完美的重构性质(其特征在于混叠误差的最小化)的特殊MDCT分析/复合窗ロ从AMR-WB编译码器切换到基于MDCT的编译码器时产生的未抵消混叠误差而发生。诺基亚公开的特殊MDCT分析/复合窗ロ包括三个组成部分的重叠的基于正弦的窗ロ HtlOihH1 (η)和H2(η),其被应用于在语音帧之后的第一个输入音乐帧以提供改善的处理音乐帧。然而,该方法可能经历可能由于由H0Oi)、氏(11)和H2 (η)定义的关联谱区的欠建模(under-modeling)所引起的信号不连续。也就是说,可以提供的有限数目的比特需要跨三个区域分布,同时仍然要求产生在前一语音帧的结尾与区域Htl (η)的起始之间的几乎完美的波形匹配。对于本领域的技术人员来说,在结合下述附图仔细考虑本专利技术的以下具体实施方式时,本专利技术的各种方面、特征和优点将变得更加充分地显而易见。已经出于简单的目的简化了附图,并且附图不一定按比例绘制。附图说明·现有技术图I图示了具有音频间隙的语音帧和通用音频帧的常规处理序列。图2是混合语音和通用音频信号代码器的示意性框图。图3是混合语音和通用音频信号解码器的示意性框图。图4图不了首频イ目号编码过程。图5图示了经历非常规代码化过程的语音帧和通用音频帧的序列。图6图示了经历另一非常规代码化过程的语音帧和通用音频帧的序列。图7图示了音频解码过程。具体实施例方式图2图示混合核心代码器200,该混合核心代码器200被配置成对输入的帧流进行代码化,该输入的帧流中的ー些是语音帧,而其它的是不不太像语音的帧。不太像语音的帧在本文中被称为通用音频帧。混合核心编译码器包括处理输入音频信号s (η)的帧的模式选择器120,其中η是样本索引。当采样速率是每秒16k个样本时,帧长度可以包括320个音频样本,这与20毫秒的帧时间间隔相对应,但是许多其它修改也是可能的。模式选择器被配置成基于特定于每个帧的属性或特性的评估来评定输入帧的序列中的帧比较像语音还是不太像语音。音频信号辨别或者更一般地音频帧分类的细节超出本公开的范围,但是对于本领域的普通技术人员来说是公知的。对复用器220提供模式选择码字。该码字在逐个帧的基础上指示通过其处理输入信号的对应帧的模式。因此,例如,输入音频帧可以作为语音信号或通用音频信号来进行处理,其中,码字指示如何处理该帧以及具体地使用什么类型的音频代码器来来处理该帧。该码字还可以传递关于从语音到通用音频的转变的信息。虽然可以从前ー帧分类类型暗示转变信息,但是通过其传送信息的信道可能是有损耗的,并且因此关于前一帧类型的信息可能不可用。在图2中,编译码器通常包括适用于对语音帧进行代码化的第一代码器230以及适用于对通用音频帧进行代码化的第二代码器240。在一个实施例中,语音代码器基于适用于处理语音信号的源滤波器模型,并且通用音频代码器是基于时域混叠抵消(TDAC)的线性正交重叠变换。在一个实现中,语音代码器可以利用码激励线性预测代码器(CELP)典型的线性预测代码化(LPC)以及适用于处理语音信号的代码器。通用音频代码器可以基于不同类型的离散余弦变换(DCT)或DCT/离散正弦变换(DST)组合来被实现为修正的离散余弦变换(MSCT)编译码器或修正的离散正弦变换(MSCT)或MDCT的形式。在图2中,第一代码器230和第二代码器240具有通过选择开关250耦合到输入音频信号的输入,该选择开关250基于由模式选择器210选择或确定的模式来控制。例如,处理器可以基于模式选择器的码字输出来控制开关250。开关250选择用于处理语音帧的语音代码器230,并且开关选择用于处理通用音频帧的通用音频代码器。借助于选择开关250,可以仅用例如语音代码器或通用音频代码器的一个代码器来处理每个帧。更一般地本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.03.05 IN 217/KOL/20101.一种用于对音频帧进行解码的方法,所述方法包括; 使用第一解码方法来产生代码化音频样本的第一帧; 使用第二解码方法来产生代码化音频样本的至少一部分第二帧; 基于下述參数来生成音频间隙填充样本所述參数表示代码化音频样本的所述第一中贞的加权分段或代码化音频样本的所述一部分第二帧的加权分段; 形成包括所述音频间隙填充样本和代码化音频样本的所述一部分第二帧的序列。2.根据权利要求I所述的方法,进ー步包括形成包括代码化音频样本的所述第一帧的序列,其中,所述音频间隙填充样本至少部分地填充了在代码化音频样本的所述第一帧与代码化音频样本的所述一部分第二帧之间的音频间隙。3.根据权利要求I所述的方法,其中, 代码化音频样本的所述第一帧的所述加权分段包括第一加权參数和第一索引,所述第一加权參数和第一索引用于代码化音频样本的所述第一帧的所述加权分段,并且 代码化音频样本的所述一部分第二帧的所述加权分段包括第二加权參数和第二索引,所述第二加权參数和第二索引用于代码化音频样本的所述一部分第二帧的所述加权分段。4.根据权利要求3所述的方法,其中, 所述第一索引指定从所述音频间隙填充样本到代码化音频样本的所述第一帧中对应样本的第一时间偏移, 所述第二索引指定从所述音频间隙填充样本到代码化音频样本的所述一部分第二帧中对应样本的第二时间偏移。5.根据权利要求I所述的方法,基于下述參数来生成所述音频间...

【专利技术属性】
技术研发人员:乌达·米塔尔乔纳森·A·吉布斯詹姆斯·P·阿什利
申请(专利权)人:摩托罗拉移动有限责任公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1