一种基于张量分解的多声道音频信号压缩方法技术

技术编号:8453744 阅读:269 留言:0更新日期:2013-03-21 20:32
本发明专利技术公开了一种基于张量分解的多声道音频信号压缩方法,属于音频信号处理技术领域,尤其是空间音频编解码技术领域。将每个声道的音频信号进行交叠分帧,并对每帧信号进行时频变换得到频域系数,将所有声道和所有帧序列的频域系数组合,建立三阶张量信号,并对其进行张量分解得到低秩核张量用于编码传输,解码端结合恢复的低秩核张量和事先训练的低秩投影矩阵进行张量信号重建,对重建后的张量信号再进行每个声道上反变换和交叠相加恢复多声道音频信号。本方法结合时频变换和张量分解对多声道音频信号进行分析和编解码,利用声道间和声道内的相关性去处冗余信息,能较大程度提高多声道音频信号的压缩效率。

【技术实现步骤摘要】

本专利技术涉及一种多声道音频信号压缩方法,尤其是一种基于张量分解的多声道信号压缩方法,属于音频信号处理
,尤其是空间音频编解码

技术介绍
在数字音频应用领域,多声道音频能够提供临场感的环绕声音感受,这是传统立体声信号所不能提供的。随着人们对数字音频信号的高享受的需求,高效的音频信号压缩方法越来越被研究者重视。为了产生空间环绕的效果,多声道信号编解码技术例如DolbyAC-3,DTS以及MPEG Surround等相继被提出,这些方法在编码端大多需要传输由多声道下混后的单声道或立体声信号,并提取空间音频参数一并传输,以便在解码端再上混为多声道信号。随着虚拟现实、3D游戏、高质量视频会议等交互式音频应用的发展,多声道音频信号需要以尽可能低的速率压缩传输,而声道数目的增多(甚至于几百声道)难以有较大程度的压缩效果,如何利用声道间和声道内的相关性进行高效压缩是多声道音频编码领域的关键问题。多声道信号相比传统的单声道和立体声信号研究的影响因素增多,至少涉及声道、时域、频域三种因素,构成一种高阶信号空间,适合用张量结构表示和分析,进而通过构建张量信号利用张量分解方法进行低秩近似达到压缩的目的。张量分析方法近十年来在三维图像处理、说话人识别、数据挖掘等信号处理领域已有广泛应用,例如在语音信号的特征提取方面,Jeong等人提出了利用张量分析对语音信号的训练模型状态、特征维度、说话人、噪声空间进行多线性奇异值分析的方法;Mesgarani等人提出了声音信号从耳蜗到大脑皮层阶段产生的多尺度暂态语谱图特征,利用多线性降维技术进行处理,可以在低信噪比或者高回响的环境下或得较高的分辨率;我国公开号为CN102592593A (公开日为2012年7月18日)的专利“一种考虑语音中多线性群组稀疏性的情绪特征提取方法”,考虑了语音信号中包括的时间、频率、尺度、方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取。而在多声道音频信号处理领域,尚未见有运用张量分解进行空间音频表示和压缩的应用。
技术实现思路
本专利技术的目的是为了充分表征和高效压缩多声道音频信号,提出了,解决了传统多声道音频编解码只能用矢量或矩阵代数进行运算,不能同时考虑声道和时频的多因素影响的问题。为了实现上述目的,本专利技术方法的基本思路是对多声道音频信号,首先在编码端,将每个声道的音频信号通过交叠分帧和时频变换,对变换后的多声道信号建立包含声道、时域和频域的三阶张量信号,并利用张量分解进行低秩近似,得到低秩核张量和三个低秩投影矩阵,其中低秩核张量用于量化编码压缩,三个低秩投影矩阵用于训练过程,在解码端,将解量化和解码后的低秩核张量结合事先训练好的三个低秩投影矩阵,通过张量信号重构过程得到变换域的多声道信号,最后对每个声道信号进行反变换,并通过交叠相加恢复原来的每个声道的音频信号。本专利技术所述,包括以下步骤步骤一在编码端,对待处理的声道数目为R的多声道音频信号,首先将每个声道的音频信号采用汉明窗进行分帧,帧长为L,帧移为M,从而把每个声道的音频信号分成N帧,顺序排列后得到每个声道的帧序列;步骤二 对每个声道,对分帧后的每帧音频信号分别进行时频变换,每帧音频信号经过该时频变换后得到长度为S的频域系数;若每帧音频信号补零后进行时频变换,则S大于L ; 若每帧音频信号直接进行时频变换,则S等于L ;若每帧音频信号直接进行时频变换后只保留能量较大的频域系数,则S小于L ;若每帧音频信号补零后进行时频变换后只保留能量较大的频域系数,则S的大小视具体补零的长度以及保留频域系数的个数而定;所述的时频变换为正交变换;所述的时频变换优选采用DCT离散余弦变换;步骤三对每个声道,将每一帧所对应的长度为S的频域系数作为矩阵的每一行,即将N帧音频信号的频域系数构成一个大小为NXS的系数矩阵;将所有R个声道的系数矩阵进行依次排列,构成大小为RXNXS的三阶张量信号X,所述的三阶分别称为声道序列阶、帧序列阶、频域系数阶;步骤四对步骤三构造的三阶张量信号X进行张量分解,即分解为GX1U(DX2W) X3U⑶ (I)其中U⑴、U⑵、U(3)彼此之间正交,分别代表张量信号在声道序列阶、帧序列阶、频域系数阶上进行投影的主分量,即,U⑴为该张量信号分解时在声道序列阶进行秩为O的低秩投影矩阵,矩阵大小为RX0,其中参数O应满足1<0<R;U 为该张量信号分解时在帧序列阶进行秩为P的低秩投影矩阵,大小为NXP,其中参数P应满足I< P < N ;U(3)为张量信号分解时在频域系数阶进行的秩为Q的低秩投影矩阵,大小为SXQ,其中参数Q应满足KQSS;G为三阶低秩核张量,在声道序列阶、帧序列阶、频域系数阶上的维度分别是上述的O、P、Q,核张量G通过下式计算得到G =(2)符号T表示伪逆,Xp X2, X3分别表示张量第一阶、第二阶、第三阶的张量矩阵乘,张量矩阵乘定义如下设有一个大小为I1X I2 X…X In的N阶张量H,一个大小为JX In的矩阵Α,则张量的η阶矩阵乘HXnA的结果是一个大小为I1X I2X…X IlriX JX Ιη+1 X…X In的N阶张量,其中KnSN;作为优选,步骤四中,所述张量分解时求取低秩投影矩阵采用ALS交替最小二乘法,或者HOSVD高阶奇异值分解的方法;作为优选,在帧序列阶上不进行低秩投影,即P=N,而在声道序列阶和频域系数阶上进行低秩投影,即I彡0<1 且1彡0<5。步骤五对步骤四得到的三阶低秩核张量G进行降维获得一维序列,然后对该一维序列进行量化编码,获得压缩后的比特流数据,用于传输或存储,而低秩投影矩阵U(1)、U⑵、u(3)不进行量化编码处理;步骤六在解码端,对压缩后的比特流数据进行与步骤五中量化编码方法相应的解码和解量化,再进行与步骤五相应的升维处理,得到恢复后的低秩核张量G’ ;结合预先训练得到的三个低秩投影矩阵U’(1)、U'⑵、U' (3),进行张量信号重构得到恢复后的三阶张量信号Y,重构表示为、Y = G' X1U' (1)X 2U,⑵ X 3U,⑶ (4)其中张量信号Y在声道序列阶、帧序列阶、频域系数阶上的维度分别是R、N、S ;其中所述所述预先训练得到三个低秩投影矩阵U’ (1)、U, (2)、U, (3)的方法为选取V组多声道音频信号,每组的声道数目均为R个,对每组多声道音频信号重复上述的步骤一、二、三、四,得到V组低秩投影矩阵Uv(1)、UV⑵、Uv(3),其中I彡V彡V,将V组低秩投影矩阵UV(1)、UV(2)、UV(3)分别进行平均,即得到训练后的低秩投影矩阵U’(1)、u’ (2)、u’(3);作为优选,V ^ 10 ;步骤七步骤六得到的RXNX S的三阶张量信号Y中包含R个声道的N个帧,其中每帧长度为S,从Y中抽取每个声道的NXS系数矩阵,对矩阵的每行的S个数据,分别进行与步骤二相应的时频反变换,得到恢复的每帧音频信号;作为优选,若步骤二所述的时频变换采用离散余弦变换DCT,则步骤七所述的时频反变换采用反离散余弦变换IDCT。步骤八将步骤七得到的每个声道的每帧音频信号通过交叠相加恢复每个声道的音频信号,帧长为L,帧间交叠长度为M。对比现有技术,本专利技术的有益效果在于本专利技术考虑了多声道音频本文档来自技高网
...

【技术保护点】
一种基于张量分解的多声道音频信号压缩方法,其特征在于,包括以下步骤:步骤一:在编码端,对待处理的声道数目为R的多声道音频信号,首先将每个声道的音频信号采用汉明窗进行分帧,帧长为L,帧移为M,从而把每个声道的音频信号分成N帧,顺序排列后得到每个声道的帧序列;步骤二:对每个声道,对分帧后的每帧音频信号分别进行时频变换,每帧音频信号经过该时频变换后得到长度为S的频域系数;步骤三:对每个声道,将每一帧所对应的长度为S的频域系数作为矩阵的每一行,即将N帧音频信号的频域系数构成一个大小为N×S的系数矩阵;将所有R个声道的系数矩阵进行依次排列,构成大小为R×N×S的三阶张量信号X,所述的三阶分别称为:声道序列阶、帧序列阶、频域系数阶;步骤四:对步骤三构造的三阶张量信号X进行张量分解,即分解为:G×1U(1)×2U(2)×3U(3)????(1)其中U(1)、U(2)、U(3)彼此之间正交,分别代表张量信号在声道序列阶、帧序列阶、频域系数阶上进行投影的主分量,即,U(1)为该张量信号分解时在声道序列阶进行秩为O的低秩投影矩阵,矩阵大小为R×O,其中参数O应满足1≤O≤R;U(2)为该张量信号分解时在帧序列阶进行秩为P的低秩投影矩阵,大小为N×P,其中参数P应满足1≤P≤N;U(3)为张量信号分解时在频域系数阶进行的秩为Q的低秩投影矩阵,大小为S×Q,其中参数Q应满足1≤Q≤S;G为三阶低秩核张量,在声道序列阶、帧序列阶、频域系数阶上的维度分别是上述的O、P、Q,核张量G通过下式计算得到:G=X×1U(1)T×2U(2)T×3U(3)T????(2)符号T表示伪逆,×1、×2、×3分别表示张量第一阶、第二阶、第三阶的张量矩阵乘,张量矩阵乘定义如下:设有一个大小为I1×I2×…×IN的N阶张量H,一个大小为J×In的矩阵A,则张量的n阶矩阵乘H×nA的结果是一个大小为I1×I2×…×In?1×J×In+1×…×IN的N阶张量,其中1≤n≤N;步骤五:对步骤四得到的三阶低秩核张量G进行降维获得一维序列,然后 对该一维序列进行量化编码,获得压缩后的比特流数据,用于传输或存储,而低秩投影矩阵U(1)、U(2)、U(3)不进行量化编码处理;步骤六:在解码端,对压缩后的比特流数据进行与步骤五中量化编码方法相应的解码和解量化,再进行与步骤五相应的升维处理,得到恢复后的低秩核张量G“;结合预先训练得到的三个低秩投影矩阵U“(1)、U′(2)、U′(3),进行张量信号重构得到恢复后的三阶张量信号Y,重构表示为:Y=G′×1U“(1)×2U“(2)×3U“(3)????(4)其中张量信号Y在声道序列阶、帧序列阶、频域系数阶上的维度分别是R、N、S;步骤七:步骤六得到的R×N×S的三阶张量信号Y中包含R个声道的N个帧,其中每帧长度为S,从Y中抽取每个声道的N×S系数矩阵,对矩阵的每行的S个数据,分别进行与步骤二相应的时频反变换,得到恢复的每帧音频信号;步骤八:将步骤七得到的每个声道的每帧音频信号通过交叠相加恢复每个声道的音频信号,帧长为L,帧间交叠长度为M。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王晶谢湘匡镜明
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1