利用改进的音调滞后估计的似ACELP隐藏中的自适应码本的改进隐藏的装置及方法制造方法及图纸

技术编号:26175249 阅读:36 留言:0更新日期:2020-10-31 14:07
提供一种利用改进的音调滞后估计的似ACELP隐藏中的自适应码本的改进隐藏的装置及方法。所述装置包括用于接收多个原始音调滞后值的输入接口(110),以及用于估计所述估计音调滞后的音调滞后估计器(120)。音调滞后估计器(120)用于依据多个原始音调滞后值以及依据多个信息值估计所述估计音调滞后,其中对于多个原始音调滞后值中的每个原始音调滞后值,多个信息值中的信息值被指定给原始音调滞后值。

Improved hiding device and method similar to adaptive codebook in ACELP hiding using improved tone lag estimation

【技术实现步骤摘要】
利用改进的音调滞后估计的似ACELP隐藏中的自适应码本的改进隐藏的装置及方法本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为2014年6月16日、申请号为201480035427.3、专利技术名称为“利用改进的音调滞后估计的似ACELP隐藏中的自适应码本的改进隐藏的装置及方法”的分案申请。
本专利技术涉及音频信号处理,特别是语音处理,并且更特别地涉及用于似ACELP(似代数码激励线性预测)隐藏中的自适应码本的改进隐藏的装置以及方法。
技术介绍
音频信号处理变得越来越重要。在音频信号处理领域中,隐藏技术扮演重要角色。当帧丢失或损坏时,由于丢失或损坏的帧而丢失的信息必须被放回。在语音信号处理中,尤其是,当考虑到ACELP或似ACELP语音编解码器时,音调信息是非常重要的。音调预测技术以及脉冲再同步化技术是所需的。关于音调重建,现有技术中存在不同的音调外推技术。这些技术中的一种是基于重复的技术。多数的现有编解码器应用基于简单重复的隐藏方法,这意味着在包丢失之前最后正确地接收的音调周期被重复,直至良好的帧到达且可从比特流中解码出新的音调信息为止。或者,应用音调稳定性逻辑,根据其,选择在包丢失之前已被接收一些时间的音调值。遵循基于重复的方法的编解码器是,例如,G.719(参看[ITU08b,8.6])、G.729(参看[ITU12,4.4])、AMR(参看[3GP12a,6.2.3.1],[ITU03])、AMR-WB(参看[3GP12b,6.2.3.4.2])以及AMR-WB+(ACELP及TCX20(似ACELP)隐藏)(参看[3GP09]);(AMR=自适应多速率;AMR-WB=自适应多速率宽带)。现有技术的另一种音调重建技术是自时间域的音调推导。对于一些编解码器,音调是隐藏所必须的,但是未被嵌入比特流中。因此,基于先前帧的时域信号计算音调,以便计算音调周期,然后在隐藏期间保持音调周期恒定。遵循这种方法的编解码器是,例如,G.722,参看,尤其是,G.722附录3(参看[ITU06a,III.6.6及III.6.7])以及G.722附录4(参看[ITU07,IV.6.1.2.5])。现有技术的又一种音调重建技术是基于外推。一些现有的编解码器应用音调外推方法并且执行特定算法以在包丢失时依据外推的音调估计而改变音调。这些方法将参照G.718以及G.729.1在下面更详细地说明。首先,G.718被考虑(参看[ITU08a])。未来音调的估计通过外推被进行以支持声门脉冲再同步化模块。这个可能的未来音调值的信息用于同步化隐藏的激励的声门脉冲。仅当最后的良好帧不是无声的时进行音调外推。G.718的音调外推是基于编码器具有平滑的音调轮廓的假设。所述外推基于消音之前的最后七个子帧的音调滞后而被进行。在G.718中,浮动音调值的历史更新在每个正确地接收的帧之后被进行。为了这个目的,仅当核心模式不是无声的时更新音调值。在丢失帧的情况中,浮动音调滞后之间的差根据公式(1)被计算:在公式(1)中,表示先前帧的最后(即,第4个)子帧的音调滞后;表示先前帧的第3个子帧的音调滞后;等等。根据G.718,差值的总和如公式(2)被计算:由于值可以是正数或负数,的符号反向的数量被相加并且通过存储器中保存的参数指示第一反向的位置。通过公式(3)得到参数fcorr:其中dmax=231是考虑的音调滞后的最大值。在G.718中,根据以下限定得到指示最大绝对差值的位置imax:并且如下所示计算对于这个最大差值的比率:如果这个比率大于或等于5,则最后正确接收的帧的第4个子帧的音调被用于待隐藏的所有子帧。如果这个比率大于或等于5,这意味着所述算法是不够可靠的以外推所述音调,并且所述声门脉冲再同步化将不会被进行。如果rmax小于5,则另外的处理被进行以实现最佳可能外推。三种不同的方法被用于外推未来音调。为了在可能的音调外推算法之间做选择,计算偏差参数fcorr2,其取决于因子fcorr以及最大音调变化的位置imax。但是,首先,修改平均浮动音调差值以从平均值中移除太大的音调差值:如果fcorr<0.98且如果imax=3,则根据公式(5)确定平均部分音调差值以移除关于两个帧之间的过渡的音调差值。如果fcorr<≥0.98或如果imax≠3,则根据公式(6)计算平均部分音调差值并且最大浮动音调差值被这个新的平均值替代:使用这个浮动音调差值的新平均值,如下计算标准偏差fcorr2:其中Isf在第一情况中等于4,在第二情况中等于6。依据这个新参数,在外推未来音调的三种方法之间做选择:如果改变符号多于两次(这指示高的音调变化),第一符号反向在最后的良好帧中(对于i<3),并且fcorr2>0.945,则如下计算外推的音调dext(外推的音调也被表示为Text):如果0.945<fcorr2<0.99并且改变符号至少一次,则采用部分音调差值的加权平均值外推音调。平均差值的权重fw与标准偏差fcorr2有关,并且如下所示定义第一符号反向的位置:公式中的参数imem取决于的第一符号反向的位置,以使得如果第一符号反向发生在过去帧的最后两个子帧之间则imem=0,使得如果第一符号反向发生在过去帧的第2个及第3个子帧之间则imem=1,以此类推。如果第一符号反向接近于最后帧结束,这意味着音调变化仅在丢失帧之前不太稳定。因此应用至平均值的加权因子将是接近于0并且外推的音调dext将是接近于最后良好帧的第4个子帧的音调:否则,音调演变被考虑是稳定的并且如下所示确定外推音调dext:在这个处理之后,音调滞后被限制在34以及231之间(值指示最小以及最大允许的音调滞后)。现在,为说了基于外推的音调重建技术的另一示例,G.729.1被考虑(参看[ITU06b])。G.729.1的特征为无前向误差隐藏信息(例如,相位信息)是可解码的情况中的音调外推方法(参看[Gao])。例如,如果两个连续帧丢失(一个超级帧由四个帧组成,可以是ACELP或TCX20),则这种情况出现。也有可能是TCX40或TCX80帧及其几乎所有组合。当在有声区域中丢失一个或多个帧时,先前的音调信息通常被用于重建当前丢失的帧。当前估计的音调的精确性可能直接地影响与原始信号对齐的相位,并且其对于当前丢失的帧以及在丢失帧之后接收到的帧的重建质量是关键的。使用多个过去的音调之后而不是仅复制先前的音调滞后将导致统计上较佳的音调估计。在G.729.1编码器中,用于FEC(前向误差校正)的音调外推由基于过去五个音调值的线性外推组成。过去五个音调值是P(i),对于i=0,1,2,3,4,其中P(4)是最近的音调值。根据公式(9)定义外推模型:P′(i)=a+i·b(9)然后,如公式(10)被定本文档来自技高网...

【技术保护点】
1.一种用于确定估计音调滞后的装置,包括:/n输入接口(110),用于接收多个原始音调滞后值,以及/n音调滞后估计器(120),用于估计所述估计音调滞后,/n其中所述音调滞后估计器(120)用于依据多个原始音调滞后值以及依据多个信息值估计所述估计音调滞后,其中对于所述多个原始音调滞后值中的每个原始音调滞后值,所述多个信息值中的信息值被指定给所述原始音调滞后值。/n

【技术特征摘要】
20130621 EP 13173157.2;20140505 EP 14166990.31.一种用于确定估计音调滞后的装置,包括:
输入接口(110),用于接收多个原始音调滞后值,以及
音调滞后估计器(120),用于估计所述估计音调滞后,
其中所述音调滞后估计器(120)用于依据多个原始音调滞后值以及依据多个信息值估计所述估计音调滞后,其中对于所述多个原始音调滞后值中的每个原始音调滞后值,所述多个信息值中的信息值被指定给所述原始音调滞后值。


2.根据权利要求1所述的装置,其中所述音调滞后估计器(120)用于依据所述多个原始音调滞后值以及依据作为所述多个信息值的多个音调增益值估计所述估计音调滞后,其中对于所述多个原始音调滞后值中的每个原始音调滞后值,所述多个音调增益值中的音调增益值被指定给所述原始音调滞后值。


3.根据权利要求2所述的装置,其中所述多个音调增益值中的每个是自适应码本增益。


4.根据权利要求2所述的装置,其中所述音调滞后估计器用于通过最小化误差函数而估计所述估计音调滞后。


5.根据权利要求4所述的装置,其中所述音调滞后估计器用于通过最小化以下误差函数而通过确定两个参数a、b以估计所述估计音调滞后,



其中a是实数,
其中b是实数,
其中k是具有k≥2的整数,以及
其中P(i)是第i个原始音调滞后值,
其中gp(i)是被指定给所述第i个音调滞后值P(i)的第i个音调增益值。


6.根据权利要求4所述的装置,其中所述音调滞后估计器用于通过最小化以下误差函数而通过确定两个参数a、b以估计所述估计音调滞后,



其中a是实数,
其中b是实数,
其中P(i)是第i个原始音调滞后值,
其中gp(i)是被指定给所述第i个音调滞后值P(i)的第i个音调增益值。


7.根据权利要求4所述的装置,其中所述音调滞后估计器用于根据p=a·i+b确定所述估计音调滞后p。


8.根据权利要求1所述的装置,其中所述音调滞后估计器(120)用于依据所述多个原始音调滞后值以及依据作为所述多个信息值的多个时间值估计所述估计音调滞后,其中对于所述多个原始音调滞后值中的每个原始音调滞后值,所述多个时间值中的时间值被指定给所述原始音调滞后值。


9.根据权利要求8所述的装置,其中所述音调滞后估计器用于通过最小化误差函数而估计所述估计音调滞后。


10.根据权利要求9所述的装置,其中所述音调滞后估计器用于通过最小化以下误差函数而通过确定两个参数a、b...

【专利技术属性】
技术研发人员:杰雷米·勒孔特迈克尔·施那拜尔戈兰·马尔科维奇马丁·迪茨伯恩哈德·诺伊格鲍尔
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1