用于获取音频信号的替换帧的频谱系数的方法及相关产品技术

技术编号:25525493 阅读:47 留言:0更新日期:2020-09-04 17:14
描述一种获取用于音频信号的替换帧(m)的频谱系数的方法。基于存在于替换帧(m)之前的帧的频谱中的峰值,检测音频信号的频谱的音调分量。对于频谱的音调分量,预测用于替换帧(m)的频谱中的峰值(502)及其周围部分的频谱系数,且对于频谱的非音调分量,使用用于替换帧(m)的非预测频谱系数或替换帧(m)之前的帧的对应频谱系数。

【技术实现步骤摘要】
用于获取音频信号的替换帧的频谱系数的方法及相关产品本申请是申请人为弗朗霍夫应用科学研究促进协会、申请日为2014年6月20日、申请号为201480035489.4、专利技术名称为“用于获取音频信号的替换帧的频谱系数的方法及相关产品”的分案申请。
本专利技术涉及编码的音频信号的发送的领域,尤其涉及,一种用于获取用于音频信号的替换帧的频谱系数的方法及装置、音频解码器、音频接收器以及用于发送音频信号的系统。实施例涉及一种用于基于先前所接收的帧来建构用于替换帧的频谱的方法。
技术介绍
在已有技术中,描述了处理音频接收器处的帧丢失(frame-loss)的若干方法。举例而言,当帧在音频或语音编解码器的接收器侧丢失时,可使用如参考文献[1]中所描述的用于帧丢失隐蔽(frame-loss-concealment)的简单方法,诸如:·重复最后接收的帧,·使丢失帧静音,或·符号加扰(signscrambling)。另外,在参考文献[1]中,提出在子频带中使用预测器的先进技术。然后,将预测器技术与符号加扰结合,且使用预测增益作为逐子频带决策准则以确定对于此子频带的频谱系数将使用哪种方法。在参考文献[2]中,将时域中的波形信号外插用于MDCT(改进的离散余弦变换,ModifiedDiscreteCosineTransform)域编解码器。对于包括语音的单音信号,此类方法可能较好。若允许一个帧延迟,则可将周围帧的内插用于丢失帧的建构。在参考文献[3]中描述了此方法,其中使用索引为m-1和m+1的邻近帧来内插具有索引m的丢失帧中的音调(tonal)分量的幅度。在比特流中发送定义用于音调分量的MDCT系数符号的旁侧信息。符号加扰用于其他非音调MDCT系数。音调分量被确定为具有最高幅度的预设固定数目的频谱系数。此方法选择具有最高幅度的n个频谱系数作为音调分量。Cm+1(k)图7示出表示不具有所发送的旁侧信息的内插方法(正如在参考文献[4]中所描述)的方块图。该内插方法基于使用MDCT(改进的离散余弦变换)在频域中编码的音频帧而进行操作。帧内插区块700接收丢失帧之前的帧及丢失帧之后的帧的MDCT系数,更具体地,在关于图7所描述的方法中,在帧内插区块700处接收在先帧的MDCT系数Cm-1(k)及在后帧的MDCT系数Cm+1(k)。帧内插区块700生成用于当前帧的内插MDCT系数该当前帧早前已在接收器处丢失或由于其他原因(例如,归因于所接收的数据中的错误,诸如此类)而不能在接收器处进行处理。将由帧内插区块700输出的内插MDCT系数应用至造成标度因子频带中的幅度定标的区块702及造成具有索引集合的幅度定标的区块704,且各个区块702及704分别输出由因子及定标的MDCT系数区块702的输出信号被输入至基于接收的输入信号生成伪频谱的伪频谱区块706中,该伪频谱被输入至生成指示检测的峰值的信号的峰值检测区块708中。由区块702提供的信号也被施加至随机符号改变区块712,该区块响应于由区块708生成的峰值检测信号而造成所接收的信号的符号改变并将修改的MDCT系数输出至频谱组成区块710。由区块704提供的经定标的信号被施加至符号校正区块714,该符号校正区块响应于由区块708提供的峰值检测信号,造成由区块704提供的经定标的信号的符号校正,并将修改的MDCT系数输出至频谱组成区块710,该频谱组成区块基于所接收的信号生成由频谱组成区块710输出的内插MDCT系数如图7所示,由区块708提供的峰值检测信号也被提供至生成经定标的MDCT系数的区块704。图7在区块714的输出端生成用于丢失帧的与音调分量相关联的频谱系数且在区块712的输出端,提供用于非音调分量的频谱系数以便在频谱组成区块710处,基于针对音调分量及非音调分量而接收的频谱系数,提供用于与丢失帧相关联的频谱的频谱系数。现将更详细地描述图7的方块图中所描述的FLC(帧丢失隐蔽)技术的操作。在图7中,基本上,可区分四个模块:·成形噪声插入模块(包括帧内插700、在标度因子频带内的幅度定标702及随机符号改变712),·MDCT频率区间分类模块(包括伪频谱706及峰值检测708),·音调隐蔽操作模块(包括在索引集合内的幅度定标704及符号校正714),及·频谱组成710。该方法基于以下通用公式:通过逐频率区间内插得到(参见区块700“帧内插”)通过使用几何平均值的能量内插得到α*(k):·用于所有分量的逐标度因子频带,(参见区块702“标度因子频带中的幅度定标”)及·用于音调分量的逐索引子集(参见区块704“在索引集合内的幅度定标”):·对于音调分量,其可示出为α=cos(πfl),其中fl为音调分量的频率。基于通过简单平滑运算而得到的伪功率谱得到能量E:s*(k),对于非音调分量被随机设定为±1(参见区块712“随机符号改变”),且对于音调分量被随机设定为+1或-1(参见区块714“符号校正”)。将峰值检测执行为在伪功率谱中搜索区域最大值以检测与下伏正弦曲线相对应的频谱峰值的确切位置。峰值检测基于在参考文献[5]中所描述的MPEG-1音质模型中所采用的音调识别过程(toneidentificationprocess)。在此之外,定义索引子集,其具有依据MDCT频率区间的分析窗口的主瓣的带宽及在其中心的检测的峰值。将这些频率区间视为正弦曲线的音调主导的MDCT频率区间,并将索引子集视为各自的音调分量。符号校正s*(k)使某个音调分量的所有频率区间的符号翻转,或不翻转。使用综合分析执行该确定,即,针对两个版本均得到SFM,并选择具有较低SFM的版本。对于SFM的得到,需要功率谱,而功率谱又需要MDST(改进的离散正弦变换,ModifiedDiscreteSineTransform)系数。为了保持复杂性是可管理的,仅使用音调分量的MDCT系数,仅得到用于此音调分量的MDST系数。图8示出总FLC技术的方块图,与图7的方法相比,该总FLC技术经过改良并在参考文献[6]中加以描述。在图8中,在MDCT频率区间分类区块800处接收丢失帧之前的上一帧和丢失帧之后的第一帧的MDCT系数Cm-1及Cm+1。这些系数也被提供至噪声成形插入区块802和针对音调分量的MDCT估计区块804。在区块804,还接收由分类区块800提供的输出信号,以及分别接收丢失帧之前的倒数第二个帧和丢失帧之后的第二帧的MDCT系数Cm-2及Cm+2。区块804生成丢失帧的用于音调分量的MDCT系数且噪声成形插入区块802生成用于的丢失帧的用于非音调分量的MDCT频谱系数这些系数被提供至频谱组成区块806,频谱组成区块806在输出端生成用于丢失帧的频谱系数噪声成形插入区块802响应于由估计区块804生成的系统IT进行操作。关于参考文献[4],以下修改是令人感兴趣的:·得到用于峰值检测的伪功率谱为...

【技术保护点】
1.一种用于获取用于音频信号的替换帧的频谱系数的方法,所述方法包含:/n基于存在于替换帧(m)之前的帧(m-1,m-2)的频谱中的峰值(502),检测音频信号的频谱的音调分量(S206);/n对于频谱的所述音调分量,预测用于所述替换帧(m)的频谱中的峰值(502)及其周围部分的频谱系数(S210);以及/n对于频谱的非音调分量,使用用于所述替换帧(m)的非预测频谱系数或所述替换帧(m)之前的帧的对应频谱系数(S214)。/n

【技术特征摘要】
20130621 EP 13173161.4;20140505 EP 14167072.91.一种用于获取用于音频信号的替换帧的频谱系数的方法,所述方法包含:
基于存在于替换帧(m)之前的帧(m-1,m-2)的频谱中的峰值(502),检测音频信号的频谱的音调分量(S206);
对于频谱的所述音调分量,预测用于所述替换帧(m)的频谱中的峰值(502)及其周围部分的频谱系数(S210);以及
对于频谱的非音调分量,使用用于所述替换帧(m)的非预测频谱系数或所述替换帧(m)之前的帧的对应频谱系数(S214)。


2.如权利要求1所述的方法,其中:
基于所述替换帧(m)之前的帧(m-2)的复频谱的幅度和所述替换帧(m)的复频谱的预测相位,预测用于所述替换帧(m)的频谱中的峰值(502)及其周围部分的频谱系数,且
基于所述替换帧(m)之前的帧(m-2)的复频谱的相位和在所述替换帧(m)之前的帧(m-1,m-2)之间的相移,预测所述替换帧(m)的复频谱的相位。


3.如权利要求2所述的方法,其中:
基于所述替换帧(m)之前的倒数第二个帧(m-2)的复频谱的幅度和所述替换帧(m)的复频谱的预测相位,预测用于所述替换帧(m)的频谱中的峰值(502)及其周围部分的频谱系数,且
基于所述替换帧(m)之前的倒数第二个帧(m-2)的复频谱,预测所述替换帧(m)的复频谱的相位。


4.如权利要求2所述的方法,其中基于用于在所述替换帧(m)之前的帧(m-2)中的峰值及其周围部分处的每个频谱系数的相位,预测所述替换帧(m)的复频谱的相位。


5.如权利要求2所述的方法,其中对于在各个帧中的峰值及其周围部分处的每个频谱系数,在所述替换帧(m)之前的帧(m-1,m-2)之间的相移是相等的。


6.如权利要求1所述的方法,其中所述音调分量由峰值及其周围部分限定。


7.如权利要求1所述的方法,其中峰值的周围部分由在峰值(502)周围的预定义数目的系数限定。


8.如权利要求1所述的方法,其中峰值的周围部分包括在峰值(502)左边的第一数目的系数和在峰值(502)右边的第二数目的系数。


9.如权利要求8所述的方法,其中所述第一数目的系数包括在左脚(508)与峰值(502)之间的系数加上所述左脚(508)的系数,且其中所述第二数目的系数包括在右脚(510)与峰值(502)之间的系数加上所述右脚(510)的系数。


10.如权利要求8所述的方法,其中在峰值(502)左边的系数的第一数目与在峰值(502)右边的系数的第二数目是相等或不等的。


11.如权利要求10所述的方法,其中在峰值(502)左边的系数的所述第一数目为三,且在峰值(502)右边的系数的所述第二数目为三。


12.如权利要求6所述的方法,其中在所述检测音调分量的步骤之前,设定在峰值(502)周围的系数的预定义数目。


13.如权利要求1所述的方法,其中峰值的周围部分的大小为适应性的。


14.如权利要求13所述的方法,其中选择峰值的周围部分,以使得在两个峰值周围的周围部分不重叠。


15.如权利要求2所述的方法,其中:
基于所述替换帧(m)之前的倒数第二个帧(m-2)的复频谱的幅度和所述替换帧(m)的复频谱的预测相位,预测用于所述替换帧(m)的频谱中的峰值(502)及其周围部分的频谱系数,
基于所述替换帧(m)之前的最后一个帧(m-1)的复频谱的相位和在所述替换帧(m)之前的最后一个帧(m-1)与倒数第二个帧(m-2)之间的改进相移,预测所述替换帧(m)的复频谱的相位,
基于所述替换帧(m)之前的倒数第二个帧(m-2)的复频谱的幅度、所述替换帧(m)之前的倒数第二个帧(m-2)的复频谱的相位、在所述替换帧(m)之前的最后一个帧(m-1)与倒数第二个帧(m-2)之间的相移以及最后一个帧(m-1)的实频谱,确定所述替换帧(m)之前的最后一个帧(m-1)的复频谱的相位,且
基于所述替换帧(m)之前的最后一个帧(m-1)的复频谱的相位和所述替换帧(m)之前的倒数第二个帧(m-2)的复频谱的相位,确定所述改进相移。


16.如权利要求15所述的方法,其中基于连续丢失的帧的数目,相移的改进为适应性的。


17.如权利要求16所述的方法,其中从第三丢失帧开始,针对峰值确定的相移用于预测在峰值(502)周围的频谱系数。


18.如权利要求17所述的方法,其中对于预测第二丢失帧中的频谱系数,当所述替换帧(m)之前的最后一个帧(m-1)中的相移等于或低于预定义阈值时,针对峰值(502)确定的相移用于预测用于周围频谱系数的频谱系数,且当所述替换帧(m)之前的最后一个帧(m-1)中的相移高于所述预定义阈值时,针对各个周围频谱系数确定的相移用于预测用于周围频谱系数的频谱系数。


19.如权利要求2所述的方法,其中:
基于所述替换帧(m)之前的最后一个帧(m-1)的复频谱的改进幅度和所述替换帧(m)的复频谱的预测相位,预测用于所述替换帧(m)的频谱中的峰值(502)及其周围部分的频谱系数,且
基于所述替换帧(m)之前的倒数第二个帧(m-2)的复频谱的相位和在所述替换...

【专利技术属性】
技术研发人员:珍妮·苏科夫斯基拉尔夫·斯皮尔施内德戈兰·马尔科维奇沃尔夫冈·耶格斯克里斯蒂安·赫尔姆里希贝恩德·埃德勒拉尔夫·盖格
申请(专利权)人:弗朗霍夫应用科学研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1