当前位置: 首页 > 专利查询>武汉大学专利>正文

一种空间音频参数帧间预测编解码方法技术

技术编号:3828271 阅读:332 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了基于贝叶斯梯度模型的空间音频参数帧间预测技术方案。编码过程:对输入的多声道音频信号的帧信号分子带提取空间音频参数;根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测,得到当前帧的空间音频参数预测系数和空间音频参数预测残差;对当前帧的空间音频参数预测残差进行编码得到编码码流。解码过程:从编码码流中解码得到帧信号的空间音频参数预测残差;用之前重建得到的一帧或多帧空间音频参数及当前帧的空间音频参数预测残差,得到空间音频参数预测系数,然后重建得到当前帧的空间音频参数。本发明专利技术考虑了空间音频参数的时域相关性,可有效降低编码码率。

【技术实现步骤摘要】

本专利技术属于音频
,特别是涉及。
技术介绍
空间音频编码的理论基础是人耳空间听觉的生理声学和心理声学。1983年Blauert等对人耳的单声源和多声源空间定位给出了数学物理模型及实验分析,定义了耳间时间差ITD、耳间强度差ILD以及耳间相关度IC等空间线索参数。其中,ITD和ILD分别表示同一声源发出的声音到达左、右耳的时间差和强度差,通过这两个参数可以定位声源的位置,IC是左、右耳入声相似度的测度,可以确定声像的宽度。2001年Faller和Baumgarte等提出双耳线索编码方法(BCC,Binaural Cue Coding),将立体声信号下混为单声道信号交由传统编码器编码,同时对由输入信号中提取的空间音频参数单独编码,解码时根据单声道信号和空间音频参数共同重建立体声信号。 基于音频对象在空间的移动是一个连续过程,表征音频对象空间方位的音频空间音频参数在时域上存在相关性。针对音频空间音频参数的时域相关特性,当前主流空间音频编码算法EAAC+采用了一种差分哈夫曼编码算法,对本帧和前一帧的空间音频参数差值作哈夫曼编码,目的是为了缩小空间音频参数编码数值动态范围,降低空间音频编码码率。这种差分编码处理的效果实际上等同于将前一帧的空间音频参数作为当前帧的预测值,然后对误差进行编码。这种算法仅仅只是考虑了相邻两帧之间的相关性,忽略了相邻几帧之间的相关性可能更强,从利用空间音频参数的短时平稳性的角度考虑,有提升的空间。
技术实现思路
本专利技术提出基于贝叶斯梯度模型的空间音频参数帧间预测编解码方法来消除编码冗余,利用前一帧或多帧来预测下一帧信号,然后对实际值和预测值的差(即空间音频参数预测误差)进行编解码。 本专利技术提供的空间音频参数帧间预测编码方法包含以下步骤 步骤1.1,对输入的多声道音频信号的帧信号分子带提取空间音频参数; 步骤1.2,根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测,得到当前帧的空间音频参数预测系数和空间音频参数预测残差,具体实现过程如下, (1)设每帧信号分K个子带,第m帧的K个子带的空间音频参数记为Sm1,Sm2,…SmK,K≥2;设第m帧之前第M帧第K个子带的空间音频参数记为S(m-M)K,第m帧前M帧的所有子带的空间音频参数则为 S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K,M≥1; 设第m帧的第i个子带的空间音频参数帧间差值设空间音频参数的取值范围为-f到f,则Dim,m+1可能的取值范围为-2f到2f,这4f+1个差值的概率分布为P{(Dim,m+1)j},j=1,2...4f+1; (2)预测方式如下, 设事件Bmij对应于第m帧的第i个子带的空间音频参数从-f到f一共2f+1种取值,则Bmij,j=1,2...2f+1互斥且构成一个完全事件,P(Bmij),j=1,2...2f+1为事件Bmij发生的概率,在无任何先验知识的情况下P(Bmij)的初始值为 设定事件A为伴随事件Bmij,j=1,2...2f+1发生而出现,由第m帧各子带的空间音频参数取值得到第m+1帧各子带的空间音频参数取值可能,则由第i个子带m帧空间音频参数取值Smi得到第m+1帧各空间音频参数取值概率为 在已知事件Bmij的概率P(Bmij)和事件Bmij发生条件下事件A的概率P(A/Bmij)的情况下,运用贝叶斯定理得到在事件A发生条件下第m+1帧事件B(m+1)ij的发生概率为 预测时初始化然后将第m帧之前M帧的所有子带的空间音频参数 S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K依次代入 其中m-K≤q≤m-1; 最终得到事件A发生条件下Bmij的发生概率P(Bmij/A),j=1,2...2f+1,以P(Bmij/A),j=1,2...2f+1最大的值作为对第m帧的第i个子带的空间音频参数预测系数Smi^; 设当前帧为第m帧,根据第m帧的第i子带的空间音频参数Smi和空间音频参数预测系数Smi^,计算当前帧的第i子带的空间音频参数预测残差i取1~K; 步骤1.3,对当前帧的空间音频参数预测残差进行编码得到编码码流。 本专利技术还提供了相应空间音频参数帧间预测解码方法,包含以下步骤 步骤2.1,从编码码流中解码得到帧信号的空间音频参数预测残差; 步骤2.2,用之前重建得到的一帧或多帧空间音频参数及步骤2.1所得当前帧的空间音频参数预测残差,重建得到当前帧的空间音频参数,具体实现过程如下, 设当前帧为第m帧,第m帧的空间音频参数预测残差记为δm1,δm2,....δmK,当前帧的K个子带的空间音频参数记为Sm1,Sm2,…SmK,之前解码得到的M帧K个子带的空间音频参数记为 S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K,K≥2,M≥1; 根据空间音频参数帧间差值的统计分布特性和之前M帧的第i子带的空间音频参数,初始化事件然后将当前帧之前M帧的K个子带的空间音频参数 S(m-M)1,S(m-M)2,…S(m-M)K,S(m-M+1)1,S(m-M+1)2,…S(m-M+1)K,…S(m-1)1,S(m-1)2,…S(m-1)K依次代入 其中m-K≤q≤m-1; 最终得到事件A发生条件下Bmij的发生概率P(Bmij/A),j=1,2...2f+1,以P(Bmij/A),j=1,2...2f+1最大的值作为对当前帧的第i子带的空间音频参数预测系数Smi^,i取1~K; 根据当前帧的第i子带的空间音频参数预测残差δmi和空间音频参数预测系数Smi^,得到当前帧的第i子带的空间音频参数 本专利技术提供了一种基于贝叶斯梯度模型的空间音频参数帧间预测方案,通过在编码端对空间音频参数的预测,将预测残差放入编码码流;解码端用预测残差来重建空间音频参数。本专利技术利用了空间音频参数的时域相关性以降低编码码率;同时贝叶斯预测方式能够根据条件的变化自适应调整预测系数,因而其预测误差更小。 附图说明 图1本专利技术的空间音频参数预测原理图; 图2本专利技术的空间音频参数重建原理图; 图3本专利技术实施例的装置结构图; 图4本专利技术实施例的空间音频参数帧间差值的统计分布图。 具体实施例方式 本专利技术提供的基于贝叶斯梯度模型的空间音频参数帧间预测技术方案实现构架如下, 参见图1,编码过程 步骤1.1,对输入的多声道音频信号的帧信号分子带提取空间音频参数; 步骤1.2,根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测,得到当前帧的空间音频参数预测系数和空间音频参数预测残差; 步骤1.3,对当前帧的空间音频参数预测残差进行编码得到编码码流。 参见本文档来自技高网...

【技术保护点】
一种空间音频参数帧间预测编码方法,其特征在于:包含以下步骤, 步骤1.1,对输入的多声道音频信号的帧信号分子带提取空间音频参数; 步骤1.2,根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参 数作出预测,得到当前帧的空间音频参数预测系数和空间音频参数预测残差,具体实现过程如下, (1)设每帧信号分K个子带,第m帧的K个子带的空间音频参数记为S↓[m1],S↓[m2],…S↓[mK],K≥2;设第m帧之前第M帧第K个子带的空 间音频参数记为S↓[(m-M)K],第m帧前M帧的所有子带的空间音频参数则为 S↓[(m-M)1],S↓[(m-M)2],…S↓[(m-M)K],S↓[(m-M+1)1],S↓[(m-M+1)2],…S↓[(m-M+1)K],…S↓[ (m-1)1],S↓[(m-1)2],…S↓[(m-1)K],M≥1; 设第m帧的第i个子带的空间音频参数帧间差值D↓[i]↑[m,m+1]=S↓[(m+1)i]-S↓[mi],设空间音频参数的取值范围为-f到f,则D↓[i]↑[m, m+1]可能的取值范围为-2f到2f,这4f+1个差值的概率分布为P{(D↓[i]↑[m,m+1])↓[j]},j=1,2…4f+1; (2)预测方式如下, 设事件B↓[mi]↑[j]对应于第m帧的第i个子带的空间音频参数从-f 到f一共2f+1种取值,则B↓[mi]↑[j],j=1,2…2f+1互斥且构成一个完全事件,P(B↓[mi]↑[j]),j=1,2…2f+1为事件B↓[mi]↑[j]发生的概率,在无任何先验知识的情况下P(B↓[mi]↑[j])的初始值为P(B↓[1i]↑[1])=P(B↓[1i]↑[2])…=P(B↓[1i]↑[2f+1])=1/2f+1; 设定事件A为伴随事件B↓[mi]↑[j],j=1,2…2f+1发生而出现,由第m帧各子带的空间音频参数取值得到第m+1帧各子带的 空间音频参数取值可能,则由第i个子带m帧空间音频参数取值S↓[mi]得到第m+1帧各空间音频参数取值概率为P(A/B↓[mi]↑[j])=P{(D↓[i]↑[m,m+1])↓[j-S↓[mi]+f]},j=1,2…2f+1; 在已知事 件B↓[mi]↑[j]的概率P(B↓[mi]↑[j])和事件B↓[mi]↑[j]发生条件下事件A的概率P(A/B↓[mi]↑[...

【技术特征摘要】

【专利技术属性】
技术研发人员:胡瑞敏周成杭波王晓晨
申请(专利权)人:武汉大学
类型:发明
国别省市:83[中国|武汉]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1