当前位置: 首页 > 专利查询>北京大学专利>正文

基于理想软阈值掩模IRM的多音频对象编、解码方法技术

技术编号:14536943 阅读:145 留言:0更新日期:2017-02-02 22:41
本发明专利技术公开了一种基于理想软阈值掩模IRM的多音频对象编、解码方法。本编码方法为:1)编码端对输入的各音频对象时间信息的元数据以及音频对象信息进行预处理模,形成通道形式的各音频对象;2)编码端将各通道形式的音频对象生成一个下混信号,然后根据该下混信号和第i个通道形式的音频对象进行软阈值掩模提取,生成第i个通道形式的音频对象的掩模MASKi;3)编码端针对所有音频对象的掩模MASK进行压缩,生成掩模码流;编码端将该下混信号经过编码压缩得到的编码结果、所述元数据和各所述掩模码流进行合成,得到合成码流输出。本发明专利技术充分利用了音频自身稀疏性的特点,压缩更有针对性并且更加有效。

Multi audio object coding and decoding method based on ideal soft threshold mask IRM

The invention discloses a multi audio object coding and decoding method based on an ideal soft threshold mask IRM. This encoding method is: 1) pretreatment mode encoding end of each audio object time information of the input audio metadata and object information, form a channel form each audio object; 2) encoding end of each channel in the form of audio object generates a mixed signal, and then the soft threshold mask according to the extracted audio object mixed signal and the I channel in the form of the next generation, the mask MASKi I channel in the form of audio object; 3) encoding for mask MASK all audio object is compressed to generate mask stream; the mixed signal encoding by encoding compressed encoding results, the each of the metadata and mask stream synthesis, synthetic stream output. The invention makes full use of the characteristics of the frequency of the audio itself, and the compression is more targeted and more effective.

【技术实现步骤摘要】

本专利技术属于音频信号处理
,涉及音频编解码,具体涉及一种适合多音频对象的编解码方法。
技术介绍
随着播放设备的飞速发展,由立体声到5.1声道再到几十声道,随之产生了许多种多声道音频编解码技术。多声道编码技术已经能够在高压缩率下高质量的恢复某种特定的音频场景。但面临着人们希望对多种音频混合场景进行自定义渲染的情况,例如将人声放大或缩小,增强某种乐器的强度,多声道音频编解码技术显然不能够满足。针对这样的需求产生了针对多音频对象的编解码技术。多音频对象编码或沿用多声道音频编码技术,求音频对象间的相关系数和强度差;或利用音频对象内部稀疏性。对于多音频对象编解码方法,国内外开展这方面的研究已经有多年的历史。表1总结了近年来的研究发展情况。表1多音频对象编解码的发展以下将简要介绍两种比较有代表性的多音频对象编解码。(1)空间音频对象编解码(SpatialAudioObjectCoding,SAOC)如图1所示,空间音频对象编码沿用多通道编码的提取参数方案,将多个音频对象合成一个下混信号,并提取对象之间的空间参数。下混信号由加和得到;空间参数由通道间的互相关系数和对象强度差异系数构成。空间参数经过量化或熵编码压缩、下混信号通过单通道编码器压缩,一起传送至解码端。解码端通过单通道解码器得到恢复的下混信号,参数部分通过反量化得到空间参数,下混信号和空间参数经过上混过程得到恢复的音频对象。(2)对象内部稀疏性编码(Intra-ObjectSparsityCoding)基于对象内部稀疏性编码方案利用音频信号能量的稀疏性,将音频对象编码成单声道下混信号。不同于SAOC加和方式得到下混信号,这种方式得到的下混信号是不可听的。音频信号能量的稀疏性体现在,每一帧信号的能量主要集中于少量的频带上。因此音频对象经分帧、时频域变换之后,使用VAD技术检测同一帧活跃对象,使用活跃对象主要能量的频带系数重构下混信号;频带位置信息被记录成边信息用于恢复。下混信号经过单通道压缩编码与边信息一同传送至解码端。解码端通过单通道解码得到下混信号,与边信息一起经过上混模块得到重构的音频对象。
技术实现思路
类似SAOC对音频对象间提取相关系数及强度差,这种方法不足之处在于音频对象间往往没有很大的相关性,这点不同于多声道之间的相关性,因此提取的相关系数并无实际意义,并不适用于多音频对象编解码。本专利技术利用音频对象内部自身稀疏性的特点,并结合理想软阈值掩模,对多音频对象进行压缩。本专利技术所用到的软阈值掩模(IdealRatioMask,IRM),是基于听觉掩蔽和听觉场景分析的机理并结合机器感知研究,由俄亥俄州立大学汪德亮提出的CASA的计算方法。在听觉过程中,信号可以被分解为若干时频单元,这些单元以时间和频率为维度,可构成一个二维矩阵。同时构造一个与该矩阵相对应的矩阵,矩阵中非零值表示相应时频单元中的目标信号与混合信号能量的比值,0表示相应时频单元中的目标能量极小,于是保留软阈值矩阵中非零值所对应的时频单元,而去掉0所对应的时频单元,这一过程即实现了理想软阈值掩模。理想软阈值掩模在提出后即用于语音分离。听觉实验表明,基于理想软阈值掩模的处理方法可以非常显著地提高听力损伤和听力正常被试者的语音可懂度。本专利技术使用理想软阈值掩模的目的在于从混合音频信号中提取目标音频,因此求得软阈值掩模矩阵的过程在于将每一帧的音频信号分带离散化,保留音频信号主要能量的子带,其掩模值置为目标信号与混合信号能量的比值,反之置为0。本专利技术所提出的基于理想软阈值掩模的多音频对象编解码策略,包括以下几个部分时频域变换:将目标音频或混合音频进行分帧、时频变换,将目标信号从时域变换到频域。下混模块:多个目标音频频域信号加和取平均取得下混信号。下混信号压缩:单通道编码。下混信号重构:单通道解码。阈值提取:将分帧后信号中的每一帧信号的频域能量排序,由大到小依次相加,直到该帧总能量大部分得以保留,该频率点保留的能量值为该频点的阈值。IRM分析:将所有音频对象信号和混合音频信号做时频变换,当混合音频中一个时频块中包含了多个音频对象的能量信息且混淆程度较大时,求每个音频对象占整个混合时频块的能量比例,并使用此能量比值作为理想软阈值掩模的掩模值,即soft-mask,其他所占能量比极小的频域点掩模置为0,得到各个音频对象的软阈值掩模。IRM重构:下混信号的频域值与某目标音频对象提取出的掩模MASK矩阵相乘,可得到该音频对象恢复的频域信号。子带融合:如果时频变换得到的频率带数较多,掩模的数据会过于庞大,为了进一步压缩掩模参数数据,我们需要对频率带进行压缩融合。由于人耳对较低频率分辨率高,较高频率分辨率低,我们依据听觉临界带对频率进行不均匀的融合,低频区域分带窄,高频区域分带宽,使得在保证音频质量的同时减少频率带个数。掩模量化:采用量化方法将掩模参数量化,量化表为2^n个浮点型数,使得矩阵可以被1到2^n来表示,缩短每个参数位数为nbit。游程编码压缩:由音频信号的稀疏性可知,掩模矩阵中代表0的参数个数占比最多,实验可知占比可达90%。因此我们将掩模矩阵进行对于0的游程编码,可将掩模矩阵进一步压缩,压缩率在1/3以上。与现有技术相比,本专利技术的积极效果为:本专利技术充分利用了音频自身稀疏性的特点,压缩更有针对性并且更加有效。除此之外,理想软阈值掩模方法在整体架构上更好的兼容了多声道音频编码。PEAQ评价结果表明,与MPEG的SAOC方法相比,本专利技术解码的音频信号听感知效果有明显的提高。附图说明下面结合附图对本专利技术进一步详细地说明:图1是SAOC方法编解码流程图;图2是本专利技术的基于理想软阈值掩模编码方法流程图;图3是本专利技术的基于理想软阈值掩模编码方法流程图;图4是采用本专利技术的基于理想软阈值掩模编码方法中IRM分析模块流程图;图5是采用本专利技术的基于理想软阈值掩模解码方法中IRM重构模块流程图;图6是子带融合示意图;图7是游程编码示意图;图8为本专利技术与aac压缩对比PEAQ评分对比结果;图9为本专利技术与aac压缩对比SNR对比结果。具体实施方式下面参照本专利技术的附图,更详细地描述本专利技术的最佳实施例。图2整体的描述了本专利技术的基于理想软阈值掩模编码方法各个模块之间的关系。在编码端,输入为描述各音频对象时间信息的元数据以及音频对象信息,在预处理模块中,将形成通道形式的音频对象。通道形式的音频对象进入下混模块,生成一个下混信号,下混信号和各个通道形式的音频对象进入软阈值掩模(IRM)分析模块进行软阈值掩模提取,生成掩模矩阵MASK。掩模矩阵分别进行子带融合、掩模量化和游程编码等掩模压缩方法进行压缩,生成掩模码流(MASK流)。同时,下混信号经过AAC编码器进行编码压缩得到的编码结果和压缩后的掩模码流及元数据一起,进行合成码流,作为编码端的输出。图3整体的描述了本专利技术的基于理想软阈值掩模解码方法各个模块之间的关系。解码端以合成的码流为输入,首先进行码流分解,得到压缩后的掩模MASK流和压缩后的下混信号及元数据。MASK流分别经游程解码、掩模反量化及子带反融合等掩模恢复方法得到重构的掩模矩阵,同时压缩的下混信号经单通道解码器得到重构的下混信号,下混信号和IRM掩模一起进行IRM重构得到每一个音频对象,恢复出的音频对象再经过本文档来自技高网
...

【技术保护点】
一种基于理想软阈值掩模IRM的多音频对象编码方法,其步骤为:1)编码端对输入的各音频对象时间信息的元数据以及音频对象信息进行预处理模,形成通道形式的各音频对象;2)编码端将各通道形式的音频对象生成一个下混信号,然后根据该下混信号和第i个通道形式的音频对象进行软阈值掩模提取,生成第i个通道形式的音频对象的掩模MASKi;3)编码端针对所有音频对象的掩模MASK进行压缩,生成掩模码流;4)编码端将该下混信号经过编码压缩得到的编码结果、所述元数据和各所述掩模码流进行合成,得到合成码流输出。

【技术特征摘要】
1.一种基于理想软阈值掩模IRM的多音频对象编码方法,其步骤为:1)编码端对输入的各音频对象时间信息的元数据以及音频对象信息进行预处理模,形成通道形式的各音频对象;2)编码端将各通道形式的音频对象生成一个下混信号,然后根据该下混信号和第i个通道形式的音频对象进行软阈值掩模提取,生成第i个通道形式的音频对象的掩模MASKi;3)编码端针对所有音频对象的掩模MASK进行压缩,生成掩模码流;4)编码端将该下混信号经过编码压缩得到的编码结果、所述元数据和各所述掩模码流进行合成,得到合成码流输出。2.如权利要求1所述的方法,其特征在于,生成第i个通道形式的音频对象的掩模MASKi的方法为:编码端对第i个通道形式的音频对象进行分帧、加窗、时频变换,得到频域信号S_target,编码端对所述下混信号分别进行分帧、加窗、时频变换,得到频域信号S_mix;然后对第i个通道形式的音频对象进行阈值计算,将频域能量小于阈值的点舍弃,即将其在掩模矩阵MASKi中对应掩膜值为零;对于频域能量大于阈值的点,使用第i个通道形式的音频对象的能量与所述下混信号的能量比值作为掩模值;然后对得到的掩膜值进行合成,得到掩模MASKi。3.如权利要求2所述的方法,其特征在于...

【专利技术属性】
技术研发人员:曲天书吴玺宏张爽黄庆博
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1