基于理想软阈值掩模IRM的多音频对象编、解码方法技术

技术编号：14536943 阅读：145 留言：0更新日期：2017-02-02 22:41

本发明专利技术公开了一种基于理想软阈值掩模IRM的多音频对象编、解码方法。本编码方法为：1)编码端对输入的各音频对象时间信息的元数据以及音频对象信息进行预处理模，形成通道形式的各音频对象；2)编码端将各通道形式的音频对象生成一个下混信号，然后根据该下混信号和第i个通道形式的音频对象进行软阈值掩模提取，生成第i个通道形式的音频对象的掩模MASKi；3)编码端针对所有音频对象的掩模MASK进行压缩，生成掩模码流；编码端将该下混信号经过编码压缩得到的编码结果、所述元数据和各所述掩模码流进行合成，得到合成码流输出。本发明专利技术充分利用了音频自身稀疏性的特点，压缩更有针对性并且更加有效。

Multi audio object coding and decoding method based on ideal soft threshold mask IRM

The invention discloses a multi audio object coding and decoding method based on an ideal soft threshold mask IRM. This encoding method is: 1) pretreatment mode encoding end of each audio object time information of the input audio metadata and object information, form a channel form each audio object; 2) encoding end of each channel in the form of audio object generates a mixed signal, and then the soft threshold mask according to the extracted audio object mixed signal and the I channel in the form of the next generation, the mask MASKi I channel in the form of audio object; 3) encoding for mask MASK all audio object is compressed to generate mask stream; the mixed signal encoding by encoding compressed encoding results, the each of the metadata and mask stream synthesis, synthetic stream output. The invention makes full use of the characteristics of the frequency of the audio itself, and the compression is more targeted and more effective.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于音频信号处理
，涉及音频编解码，具体涉及一种适合多音频对象的编解码方法。
技术介绍
随着播放设备的飞速发展，由立体声到5.1声道再到几十声道，随之产生了许多种多声道音频编解码技术。多声道编码技术已经能够在高压缩率下高质量的恢复某种特定的音频场景。但面临着人们希望对多种音频混合场景进行自定义渲染的情况，例如将人声放大或缩小，增强某种乐器的强度，多声道音频编解码技术显然不能够满足。针对这样的需求产生了针对多音频对象的编解码技术。多音频对象编码或沿用多声道音频编码技术，求音频对象间的相关系数和强度差；或利用音频对象内部稀疏性。对于多音频对象编解码方法，国内外开展这方面的研究已经有多年的历史。表1总结了近年来的研究发展情况。表1多音频对象编解码的发展以下将简要介绍两种比较有代表性的多音频对象编解码。(1)空间音频对象编解码(SpatialAudioObjectCoding，SAOC)如图1所示，空间音频对象编码沿用多通道编码的提取参数方案，将多个音频对象合成一个下混信号，并提取对象之间的空间参数。下混信号由加和得到；空间参数由通道间的互相关系数和对象强度差异系数构成。空间参数经过量化或熵编码压缩、下混信号通过单通道编码器压缩，一起传送至解码端。解码端通过单通道解码器得到恢复的下混信号，参数部分通过反量化得到空间参数，下混信号和空间参数经过上混过程得到恢复的音频对象。(2)对象内部稀疏性编码(Intra-ObjectSparsityCoding)基于对象内部稀疏性编码方案利用音频信号能量的稀疏性，将音频对象编码成单声道下混信号。不同于SAOC加...

【技术保护点】
一种基于理想软阈值掩模IRM的多音频对象编码方法，其步骤为：1)编码端对输入的各音频对象时间信息的元数据以及音频对象信息进行预处理模，形成通道形式的各音频对象；2)编码端将各通道形式的音频对象生成一个下混信号，然后根据该下混信号和第i个通道形式的音频对象进行软阈值掩模提取，生成第i个通道形式的音频对象的掩模MASKi；3)编码端针对所有音频对象的掩模MASK进行压缩，生成掩模码流；4)编码端将该下混信号经过编码压缩得到的编码结果、所述元数据和各所述掩模码流进行合成，得到合成码流输出。

【技术特征摘要】
1.一种基于理想软阈值掩模IRM的多音频对象编码方法，其步骤为：1)编码端对输入的各音频对象时间信息的元数据以及音频对象信息进行预处理模，形成通道形式的各音频对象；2)编码端将各通道形式的音频对象生成一个下混信号，然后根据该下混信号和第i个通道形式的音频对象进行软阈值掩模提取，生成第i个通道形式的音频对象的掩模MASKi；3)编码端针对所有音频对象的掩模MASK进行压缩，生成掩模码流；4)编码端将该下混信号经过编码压缩得到的编码结果、所述元数据和各所述掩模码流进行合成，得到合成码流输出。2.如权利要求1所述的方法，其特征在于，生成第i个通道形式的音频对象的掩模MASKi的方法为：编码端对第i个通道形式的音频对象进行分帧、加窗、时频变换，得到频域信号S_target，编码端对所述下混信号分别进行分帧、加窗、时频变换，得到频域信号S_mix；然后对第i个通道形式的音频对象进行阈值计算，将频域能量小于阈值的点舍弃，即将其在掩模矩阵MASKi中对应掩膜值为零；对于频域能量大于阈值的点，使用第i个通道形式的音频对象的能量与所述下混信号的能量比值作为掩模值；然后对得到的掩膜值进行合成，得到掩模MASKi。3.如权利要求2所述的方法，其特征在于...

【专利技术属性】
技术研发人员：曲天书，吴玺宏，张爽，黄庆博，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人