实现用于转换编码激发长期预测的改进概念的装置及方法制造方法及图纸

技术编号:13038572 阅读:33 留言:0更新日期:2016-03-23 10:30
提供一种用于解码编码音频信号以获得重建音频信号的装置。该装置包含用于接收多个帧的接收接口(1310),用于储存解码音频信号的音频信号样本的延迟缓冲器(1020;1320),用于从储存于延迟缓冲器(1020;1320)中的音频信号样本中选择多个选定音频信号样本的样本选择器(1030;1330),及用于处理选定音频信号样本以获得重建音频信号的重建音频信号样本的样本处理器(1040;1340)。样本选择器(1030;1330)用于在当前帧由接收接口(1310)接收的情况下及在由接收接口(1310)接收的当前帧未被损毁的情况下,取决于由当前帧所包含的音高滞后信息从储存于延迟缓冲器(1020;1320)中的音频信号样本中选择多个选定音频信号样本。此外,样本选择器(1030;1330)用于在当前帧不由接收接口(1310)接收的情况下或在由接收接口(1310)接收的当前帧被损毁的情况下,取决于由先前由接收接口(1310)所接收的另一帧所包含的音高滞后信息从储存于延迟缓冲器(1020;1320)中的音频信号样本中选择多个选定音频信号样本。

【技术实现步骤摘要】
【国外来华专利技术】实现用于转换编码激发长期预测的改进概念的装置及方法
本专利技术涉及音频信号编码、处理及解码,特别地涉及,针对切换式音频编码系统在错误隐藏过程中的改良信号衰落的装置及方法。
技术介绍
在下文中,描述关于封包丢失隐藏(PLC)过程中的语音及音频编码解码器衰落的现有技术的状态。关于现有技术的状态的解释始于G系列(G.718、G.719、G.722、G.722.1、G.729、G.729.1)的ITU-T编码解码器,接着为3GPP编码解码器(AMR、AMR-WB、AMR-WB+)及IETF编码解码器(OPUS),且以两种MPEG编码解码器(E-AAC、HILN)结束(ITU=国际电信协会;3GPP=第三代合作伙伴计划;AMR=适应性多速率;WB=宽带;IETF=因特网工程任务小组)。随后,分析关于追踪背景噪声水平的现有技术的状态,接着为提供概述的总结。首先,考虑G.718。G.718为支持DTX/CNG(DTX=数字影院系统;CNG=舒缓噪声产生)的窄频及宽带语音编码解码器。作为尤其涉及低延迟码的实施例,此处,将更详细地描述低延迟版本模式。考虑ACELP(层1)(ACELP=代数码激发线性预测),ITU-T为G.718[ITU08a,章节7.11]推荐了用以控制衰落速度的线性预测域中的适应性衰落。大体而言,隐藏遵循此原理:根据G.718,在帧擦除的状况下,隐藏策略可总结为将信号能量及频谱包络收敛至背景噪声的所估计参数。将信号的周期性收敛为零。收敛速度取决于最后正确地接收的帧的参数及连续被擦除的帧的数目,并由衰减因子α控制。衰减因子α进一步取决于用于无声帧的LP(LP=线性预测)滤波器的稳定性θ。大体而言,若接收到的最后良好帧处于稳定分段中,则收敛是缓慢的,且若帧处于转变分段中,则收敛是快速的。衰减因子α取决于[ITU08a,章节6.8.1.3.1及7.11.1.1]中所描述的信号分类得到的语音信号类别。基于邻近ISF(导抗频谱频率)滤波器之间的距离度量计算稳定性因子θ[ITU08a,章节7.1.2.4.2]。表1展示α的计算方案:表1:衰减因子α的值,值θ为自邻近LP滤波器之间的距离度量所计算的稳定性因子[ITU08a,章节7.1.2.4.2]。此外,G.718提供衰落方法以便修改的频谱包络。一般想法为使最后的ISF参数朝向适应性ISF均值向量收敛。首先,从最后3个已知的ISF向量计算出平均ISF向量。接着,将平均ISF向量与脱机训练的长期ISF向量(其为常数向量)再次平均[ITU08a,章节7.11.1.2]。此外,G.718提供衰落方法,以控制长期行为且因此控制与背景噪声的相互作用,其中将音高激发能量(且因此激发周期性)收敛为0,而随机激发能量收敛为CNG激发能量[ITU08a,章节7.11.1.6]。如下计算创新增益衰落:其中为下一个帧的开始处的创新增益,为当前帧的开始处的创新增益,gn为舒缓噪声产生过程中所使用的激发增益及衰减因子α。类似于周期性激发衰落,从开始,并在下一个帧的开始处到达逐个样本地贯穿帧以使增益线性衰减。图2概述G.718的解码器结构。特别地,图2说明用于PLC的具有高通滤波器的高阶G.718解码器结构。通过G.718的上文所描述的方法,对于封包丢失的较长突发,创新增益gs收敛为舒缓噪声产生过程中所使用的增益gn。如[ITU08a,章节6.12.3]中所描述,舒缓噪声增益gn给定为能量的平方根。并不详细描述的更新条件。遵循参考实施(浮点C码,stat_noise_uv_mod.c),如下得到其中unvoiced_vad包含语音活动检测,其中unv_cnt包含成列的无声帧的数目,其中lp_gainc包含固定码簿的低通增益,且其中lp_ener包含初始化为0的低通CNG能量估计此外,若最后的良好帧的信号分类为不同于无声的信号,则G.718提供引入至无声激发的信号路径中的高通滤波器,参见图2,亦参见[ITU08a,章节7.11.1.6]。此滤波器具有低搁板特性,其在DC处的频率响应比奈奎斯频率处的频率响应低大约5dB。此外,G.718提出解耦式LTP反馈回路(LTP=长期预测):虽然在正常操作过程中,基于完全激发逐子帧地更新用于适应性码簿的反馈回路([ITU08a,章节7.1.2.1.4])。在隐藏过程中,仅基于有声激发,逐帧地更新此反馈回路(参见[ITU08a,章节7.11.1.4、7.11.2.4、7.11.1.6、7.11.2.6;dec_GV_exc@dec_gen_voic.c及syn_bfi_post@syn_bfi_pre_post.c])。借助于此方法,适应性码簿未被噪声「污染」,该噪声的起源在于随机选择的创新激发。关于G.718的变换编码增强层(3至5),在隐藏过程中,解码器的关于高层解码的行为类似于正常操作,只是MDCT(改良型离散余弦转换)频谱被设定为零。在隐藏过程中并未应用特定的衰落行为。关于CNG,在G.718中,按以下次序完成CNG合成。首先,对舒缓噪声帧的参数进行解码。接着,合成舒缓噪声帧。然后重置音高缓冲器。接着,储存用于FER(帧错误恢复)分类的合成。然后,进行频谱去加重。接着进行低频后滤波。接着,更新CNG变量。在隐藏的状况下,执行完全一样的步骤,除了从比特串流中解码CNG参数。这意味在帧丢失的过程中不更新参数,而是使用来自最后良好SID(静默插入描述符)帧的解码参数。现在考虑G.719。基于Siren22的G.719为基于变换的全频带音频编码解码器。ITU-T为G.719推荐了在频谱域中具有帧重复的衰落[ITU08b,章节8.6]。根据G.719,将帧擦除隐藏机制并入到解码器中。当正确地接收到帧时,将重建变换系数储存于缓冲器中。若通知解码器帧已丢失或帧被损毁,则在最近接收的帧中重建的变换系数以因子0.5按比例递减,且接着被用作当前帧的重建变换系数。解码器通过将这些系数变换至时域及执行开窗重迭相加操作而继续进行。在下文中,描述了G.722。G.722为50至7000Hz编码系统,其使用在高达64kbit/s(千位/秒)的比特率内的子频带适应性差分脉码调制(SB-ADPCM)。使用QMF分析(QMF=正交镜像滤波)将信号拆分成较高及较低子频带。两个所得频带为ADPCM编码的(ADPCM=适应性差分脉码调制)。对于G.722,在附录III[ITU06a]中指定用于封包丢失隐藏的高复杂性算法,及在附录IV[ITU07]中指定用于封包丢失隐藏的低复杂性算法。G.722-附录III([ITU06a,章节III.5])提出逐步执行的静音,其在帧丢失20ms之后开始,在帧丢失60ms之后完成。此外,G.722-附录IV提出衰落技术,其「对每一个样本」应用「逐样本地计算及调适的增益因子」[ITU07,章节IV.6.1.2.7]。在G.722中,就在QMF合成之前,静音程序发生于子频带域中,且作为PLC模块的最后步骤。使用来自信号分类器的类别信息执行静音因子的计算,该信号分类器亦为PLC模块的部分。在类别TRANSIENT、UV_TRANSITION与其他类别之间进行区别。此外,在10ms帧的单次丢失与其他状况(10ms帧的多次丢失及20ms帧的单次/多次丢失本文档来自技高网...

【技术保护点】
种用于对编码音频信号进行解码以获得重建音频信号的装置,其中所述装置包括:接收接口(1310),用于接收多个帧,延迟缓冲器(1020;1320),用于储存解码音频信号的音频信号样本,样本选择器(1030;1330),用于从储存于所述延迟缓冲器(1020;1320)中的所述音频信号样本中选择多个选定音频信号样本,以及样本处理器(1040;1340),用于处理所述选定音频信号样本以获得所述重建音频信号的重建音频信号样本,其中所述样本选择器(1030;1330)用于在当前帧由所述接收接口(1310)接收的情况下及在由所述接收接口(1310)接收的所述当前帧未被损毁的情况下,根据由所述当前帧所包含的音高滞后信息从储存于所述延迟缓冲器(1020;1320)中的所述音频信号样本中选择所述多个选定音频信号样本,以及其中所述样本选择器(1030;1330)用于在所述当前帧不由所述接收接口(1310)接收的情况下或在由所述接收接口(1310)接收的所述当前帧被损毁的情况下,根据先前由所述接收接口(1310)所接收的另一帧所包含的音高滞后信息从储存于所述延迟缓冲器(1020;1320)中的所述音频信号样本中选择所述多个选定音频信号样本。...

【技术特征摘要】
【国外来华专利技术】2013.06.21 EP 13173154.9;2014.05.05 EP 14166998.61.一种用于对编码音频信号进行解码以获得重建音频信号的装置,其中所述装置用于接收多个帧,且其中所述装置包括:逆修改的离散余弦变换模块(683),用于通过进行逆修改的离散余弦变换对所述多个帧进行解码以获得解码音频信号的音频信号样本,以及长期预测单元(684),用于进行长期预测,包括:延迟缓冲器(1020),用于储存所述解码音频信号的所述音频信号样本,样本选择器(1030),用于从储存于所述延迟缓冲器(1020)中的所述音频信号样本中选择多个选定音频信号样本,以及样本处理器(1040),用于处理所述选定音频信号样本以获得所述重建音频信号的重建音频信号样本,其中所述样本选择器(1030)用于在当前帧由所述装置接收的情况下及在由所述装置接收的所述当前帧未被损毁的情况下,根据由所述当前帧所包含的音高滞后信息从储存于所述延迟缓冲器(1020)中的所述音频信号样本中选择所述多个选定音频信号样本,以及其中所述样本选择器(1030)用于在所述当前帧不由所述装置接收的情况下或在由所述装置接收的所述当前帧被损毁的情况下,根据先前由所述装置所接收的另一帧所包含的音高滞后信息从储存于所述延迟缓冲器(1020)中的所述音频信号样本中选择所述多个选定音频信号样本;其中所述样本处理器(1040)用于通过根据修改的增益重新按比例调整所述选定音频信号样本而获得所述重建音频信号样本,其中所述修改的增益通过下述公式来定义:gain=gain_past*damping;其中gain为所述修改的增益,gain_past为在先前帧中应用的增益,其中所述样本处理器(1040)用于在gain已被计算之后将gain_past设定为gain,且其中damping为实值,且0≤damping≤1。2.如权利要求1所述的装置,其中所述样本处理器(1040)用于在所述当前帧由所述装置接收的情况下及在由所述装置接收的所述当前帧未被损毁的情况下,通过根据由所述当前帧所包含的增益信息重新按比例调整所述选定音频信号样本而获得所述重建音频信号样本,以及其中所述样本处理器(1040)用于在所述当前帧不由所述装置接收的情况下或在由所述装置接收的所述当前帧被损毁的情况下,通过根据先前由所述装置所接收的所述另一帧所包含的增益信息重新按比例调整所述选定音频信号样本而获得所述重建音频信号样本。3.如权利要求2所述的装置,其中所述样本处理器(1040)用于在所述当前帧由所述装置接收的情况下及在由所述装置接收的所述当前帧未被损毁的情况下,通过将所述选定音频信号样本与取决于由所述当前帧所包含的所述增益信息的值相乘而获得所述重建音频信号样本,以及其中所述样本处理器(1040)用于在所述当前帧不由所述装置接收的情况下或在由所述装置接收的所述当前帧被损毁的情况下,通过将所述选定音频信号样本与取决于先前由所述装置所接收的所述另一帧所包含的所述增益信息的值相乘而获得所述重建音频信号样本。4.如权利要求1所述的装置,其中所述样本处理器(1040)用于将所述重建音频信号样本储存于所述延迟缓冲器(1020)中。5.如权利要求4所述的装置,其...

【专利技术属性】
技术研发人员:迈克尔·施那拜尔戈兰·马尔科维奇拉尔夫·斯皮尔施内德杰雷米·勒孔特克里斯蒂安·赫尔姆里希
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利