当前位置: 首页 > 专利查询>武汉大学专利>正文

一种适应于流媒体的音频对象编解码方法技术

技术编号:18716801 阅读:29 留言:0更新日期:2018-08-21 23:36
本发明专利技术提供了适应于流媒体的音频对象编解码方法,编码时,输入的多个音频对象信号首先经过预处理,得到多帧音频对象信号构成的数据块以及对应的包含所有对象的单声道混合信号;计算增益矩阵,提取ODLR参数矩阵;增益矩阵与参数矩阵经矩阵分解得到低维度的系数矩阵和基矩阵;最后将混合信号、系数矩阵、基矩阵合成码流;解码时首先分解码流,根据系数矩阵与基矩阵重建得到参数矩阵;然后根据参数矩阵和混合信号对音频对象信号进行重建。本方法支持以数据块的形式传输音频数据,可以适用于流媒体应用场景;并且提高了参数频域分辨率,并利用基于加权的矩阵分解的方法降低参数编码所需码率,可以同时保证低码率和高质量地重建音频对象信号。

An audio object encoding and decoding method suitable for streaming media

The invention provides an audio object encoding and decoding method suitable for streaming media. When encoding, a plurality of input audio object signals are first preprocessed to obtain a data block composed of multi-frame audio object signals and corresponding mono-channel mixed signals containing all the objects. Matrix and parameter matrix are decomposed into low-dimensional coefficient matrix and matrix by matrix decomposition. Finally, the mixed signal, coefficient matrix and base matrix are combined into the stream. When decoding, the stream is decomposed and the parameter matrix is reconstructed according to the coefficient matrix and matrix. Then the audio signal is processed according to the parameter matrix and mixed signal. Reconstruction. This method supports the transmission of audio data in the form of data blocks, and can be applied to streaming media application scenarios; and improves the resolution of parameters in frequency domain, and reduces the required bit rate of parameter coding by using the weighted matrix decomposition method, which can ensure low bit rate and high quality reconstruction of audio object signals.

【技术实现步骤摘要】
一种适应于流媒体的音频对象编解码方法
本专利技术涉及数字音频信号处理领域,涉及音频对象编码,具体涉及适用于流媒体的多音频对象高质量压缩编码。
技术介绍
音频编码技术已经从传统的单声道、立体声编码技术发展到更具沉浸感的多声道音频编码技术,并且基于多声道音频编码技术,已经实现了三维音频场景的编码与重建。但是音频场景是由音频对象组成的,而传统的基于声道的音频编码技术不能直接编码音频对象信号,灵活性低,从而不能满足用户对单个音频对象轨迹以及对音频场景个性化重建的需求。基于音频对象的音频编码技术可以将多个相互独立的音频对象进行编码传输,从而保证音频对象重建的灵活性、准确性以及用户个性化的需求,所以基于对象的音频编码技术被视为新一代音频编码技术。国际上许多学者和科研机构都已开展音频对象编码的研究工作,并提出多种音频对象编码方法,如下表所示。其中具代表性的两种方法是由德国知名研究机构Fraunhofer提出的空间音频对象编码技术(SpatialAudioObjectCoding,SAOC)以及由武汉大学提出的基于非负矩阵分解的对象编码方法(AudioObjectCodingbasedonNon-negativeMatrixFactorization,NMF-basedAOC)。(1)SAOC方法在编码端基于子带为每一帧信号提取音频对象之间的能量比(ObjectsLevelDifference,OLD)作为对象参数,并将所有音频对象信号进行降混合得到单声道或立体声混合信号;在解码端,利用对象参数OLD及混合信号可重建音频对象信号。SAOC方法可以以单声道或者立体声的码率编码传输多个音频对象信号,大大提高了音频对象编码的效率。但是SAOC方法基于少量子带提取参数可以实现低码率,所以重建得到的对象信号间会发生混淆,造成音质和主观听音感受较差。这是因为同一个子带共用一个参数,使得音频对象信号的频率成分不能得到准确地重建,所以在某些频率成分处有可能保留多个音频对象的能量,从而发生混淆。(2)NMF-basedAOC方法针对SAOC所存在的问题进行了进一步研究。该方法通过增加子带的数量有效缓解了对象信号间的混淆,提高重建音频对象信号的音质;同时,该方法在参数编码中引入非负矩阵分解方法,可以降低因为增加子带所增长的码率。但是,该方法只能对完整的音频对象信号进行编码,所以该方法不能应用于流媒体;并且非负矩阵分解方法对于待分解矩阵的所有元素的分解精度都是一样的,不能将重要频率成分对应的参数更准确地重建。表1.多种音频对象编码方法简介
技术实现思路
为解决现有音频对象编码方法存在的技术问题,本专利技术提供了一种可以以低码率实现高质量编码多个音频对象并且适用于流媒体的音频对象编码编码方法。本专利技术提供的一种适用于流媒体的音频对象编码方法,用于同时处理多个音频对象,包括以下步骤:步骤A1,对输入的多音频对象信号经过预处理操作,得到多帧音频对象信号构成的数据块以及对应的包含所有对象的单声道混合信号;步骤A2,根据步骤A1得到的对象信号计算权值矩阵;步骤A3,根据步骤A1得到的对象信号以及单声道混合信号,按照子带计算对象信号与混合信号能量比参数ODLR,得到各对象的数据块相应的ODLR参数矩阵;步骤A4,根据步骤A2得到的权值矩阵,将步骤A3得到的ODLR参数矩阵分解为系数矩阵和基矩阵;步骤A5,对步骤A4得到的低维度的系数矩阵与基矩阵进行量化,得到矩阵量化码流;步骤A6,对步骤A1输出的单声道混合信号进行单声道编码,得到混合信号的码流;步骤A7,将步骤A5中获得的矩阵量化码流与步骤A6中获得的单声道混合信号的码流合成编码输出码流,传输到解码端。而且,步骤A1中,所述预处理操作包括根据预设帧数将对象信号进行修正离散余弦变换,输出频域内矩阵形式的数据块,其中矩阵的行数或列数等于预设帧数,矩阵的列数或行数等于频点数。而且,所述预设帧数是指对象信号数据块内所包含的帧数。而且,步骤A1中,所述预处理操作包括将所有对象的数据块进行下混,得到对应的单声道混合信号。而且,步骤A2中,所述权值矩阵是根据对象信号的频率成分特性计算得到,权值越大代表该频率成分越重要;每个对象信号的每个数据块都对应一个权值矩阵。而且,步骤A3中,ODLR参数是按照子带提取的,ODLR参数矩阵维度为N×M,其中N代表帧数,M代表子带数。而且,步骤A4中,所述将参数矩阵分解为系数矩阵与基矩阵是基于加权矩阵分解方法实现的,具有较大权值的频率成分所对应的参数会得到更准确地分解。本专利技术还相应提供一种适用于流媒体的音频对象解码方法,用于同时处理多个音频对象,包括以下步骤:步骤B1,分解码流,得到单声道混合信号的码流以及矩阵量化码流;步骤B2,步骤B1得到的混合信号的码流经过单声道解码处理得到矩阵形式的单声道混合信号;步骤B3,步骤B1得到的矩阵量化码流经过去量化操作得到系数矩阵与基矩阵;步骤B4,根据步骤B3得到系数矩阵和基矩阵,经过矩阵合成操作得到ODLR矩阵;步骤B5,根据步骤B2得到的单声道混合信号与步骤B4得到的ODLR矩阵重建音频对象信号;步骤B6,将步骤B5得到的音频对象信号经过后处理操作得到时域内连续的音频对象信号。而且,步骤B1中,所述的码流是对应于一个数据块的,每一个数据块对应的码流都需要经过所有的解码操作。而且,步骤B3中,所述的去量化是指根据量化索引码流以及量化表得到系数矩阵和基矩阵的量化值,并经过去归一化操作得到重建的系数矩阵与基矩阵。而且,步骤B4中,所述的ODLR矩阵是系数矩阵与基矩阵经过矩阵相乘得到的,与音频对象信号一一对应。而且,步骤B6中,所述后处理包括修正离散余弦逆变换和数据块拼接操作。本方法支持以数据块的形式传输音频数据,可以适用于流媒体应用场景;并且本方法提高了参数频域分辨率,并利用基于加权的矩阵分解的方法降低参数编码所需码率,可以同时保证低码率和高质量地重建音频对象信号。与现有音频对象编码技术相比,本专利技术的性能优势在于:1.将一个音频对象信号分为若干个数据块进行编码和传输,可以适用于流媒体应用场景;2.为每一帧信号划分更多子带并提取参数,提高了对象参数的频域分辨率,可以有效缓解不同对象间的混淆效应,从而提升音质;3.在参数编码过程中引入加权矩阵分解方法,不仅可以降低参数编码所需码率,还可以更准确地重建权值较大的频率成分所对应的参数,进而可以较高质量地重建音频对象信号。附图说明图1是本专利技术实施例的编码方法流程图。图2是本专利技术实施例编码方法中预处理模块的流程图。图3是本专利技术实施例的解码方法流程图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术在已有的音频对象编码基础上开展研究,提出了适用于流媒体的音频对象编解码方法。首先,本专利技术基于音频对象数据块进行编解码操作,保证该方法可适用于流媒体应用;然后,研究具备高频域分辨率的对象参数提取策略,可以有效减轻重建对象信号间的混淆;并利用基于加权的矩阵分解方法将对象参数ODLR矩阵分解为两个低维矩阵,不仅可以达到降低码率的目的,还可以进一步保证矩阵分解的准确性。参照图1,为本专利技术实本文档来自技高网
...

【技术保护点】
1.一种适用于流媒体的音频对象编码方法,其特征在于,用于同时处理多个音频对象,包括以下步骤:步骤A1,对输入的多音频对象信号经过预处理操作,得到多帧音频对象信号构成的数据块以及对应的包含所有对象的单声道混合信号;步骤A2,根据步骤A1得到的对象信号计算权值矩阵;步骤A3,根据步骤A1得到的对象信号以及单声道混合信号,按照子带计算对象信号与混合信号能量比参数ODLR,得到各对象的数据块相应的ODLR参数矩阵;步骤A4,根据步骤A2得到的权值矩阵,将步骤A3得到的ODLR参数矩阵分解为系数矩阵和基矩阵;步骤A5,对步骤A4得到的低维度的系数矩阵与基矩阵进行量化,得到矩阵量化码流;步骤A6,对步骤A1输出的单声道混合信号进行单声道编码,得到混合信号的码流;步骤A7,将步骤A5中获得的矩阵量化码流与步骤A6中获得的单声道混合信号的码流合成编码输出码流,传输到解码端。

【技术特征摘要】
1.一种适用于流媒体的音频对象编码方法,其特征在于,用于同时处理多个音频对象,包括以下步骤:步骤A1,对输入的多音频对象信号经过预处理操作,得到多帧音频对象信号构成的数据块以及对应的包含所有对象的单声道混合信号;步骤A2,根据步骤A1得到的对象信号计算权值矩阵;步骤A3,根据步骤A1得到的对象信号以及单声道混合信号,按照子带计算对象信号与混合信号能量比参数ODLR,得到各对象的数据块相应的ODLR参数矩阵;步骤A4,根据步骤A2得到的权值矩阵,将步骤A3得到的ODLR参数矩阵分解为系数矩阵和基矩阵;步骤A5,对步骤A4得到的低维度的系数矩阵与基矩阵进行量化,得到矩阵量化码流;步骤A6,对步骤A1输出的单声道混合信号进行单声道编码,得到混合信号的码流;步骤A7,将步骤A5中获得的矩阵量化码流与步骤A6中获得的单声道混合信号的码流合成编码输出码流,传输到解码端。2.根据权利要求1所述的适用于流媒体的音频对象编码方法,其特征在于:步骤A1中,所述预处理操作包括根据预设帧数将对象信号进行修正离散余弦变换,输出频域内矩阵形式的数据块,其中矩阵的行数或列数等于预设帧数,矩阵的列数或行数等于频点数。3.根据权利要求2所述的适用于流媒体的音频对象编码方法,其特征在于:所述预设帧数是指对象信号数据块内所包含的帧数。4.根据权利要求1或2或3所述的适用于流媒体的音频对象编码方法,其特征在于:步骤A1中,所述预处理操作包括将所有对象的数据块进行下混,得到对应的单声道混合信号。5.根据权利要求1或2或3所述的适用于流媒体的音频对象编码方法,其特征在于:步骤A2中,所述权值矩阵是根据对象信号的频率成分特性计算得到,权值越大代表该频率成分越重要;每个对象信号的每个数据块都对应一个权值矩阵。6.根据权利要求1或2或3所述的适用于流媒体的音频对象编...

【专利技术属性】
技术研发人员:胡瑞敏武庭照王晓晨柯善发陈玮
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1