当前位置: 首页 > 专利查询>武汉大学专利>正文

一种应用于低码率下的多音频对象编解码方法技术

技术编号:29212136 阅读:32 留言:0更新日期:2021-07-10 00:49
本发明专利技术公开了一种应用于低码率下的多音频对象编解码方法,编码阶段本方法首先将输入的多个音频对象变换到频域;然后将频域的音频对象信号下混得到混合信号,并计算单个音频对象子带被细分后的边信息矩阵;其次利用卷积自编码器中的编码模块对边信息矩阵进行降维表达;最后将混合信号和降维后的边信息合成码流。解码阶段首先分解接收到的码流,得到下混信号和边信息;然后在卷积自编码器解码器网络中引入稠密连接模块从边信息的低维结构中重构原始高维的边信息数据,最后将重建的频域音频对象信号变换为时域信号。本发明专利技术可以在低码率下全面提升音频对象信号的解码质量,以满足用户对音频对象个性化控制的需求。用户对音频对象个性化控制的需求。用户对音频对象个性化控制的需求。

【技术实现步骤摘要】
一种应用于低码率下的多音频对象编解码方法


[0001]本专利技术属于数字音频信号处理
,涉及一种利用卷积自编码器和稠密连接混合网络压缩边信息与重建的音频对象编码解码方法,适用于低码率下的空间音频个性化交互系统,允许在用户根据自身需求调整音频对象。

技术介绍

[0002]三维(3D)音频表示具有3个自由度(例如方位角,仰角和距离)的音频对象。它可以在3D空间中的任何位置形成声音图像。3D音频技术主要用于娱乐系统,以提供身临其境和个性化的体验。沉浸式的空间声音表示方式分为三种:基于声道的编码技术、基于高阶环境音的编码技术和基于对象的编码技术。基于声道的声音表示是将每个声道信号馈送到相对于听者位置固定的扬声器上。虽然基于声道的编码技术已经很成熟,然而该技术所产生的音频内容与特定的扬声器配置相关联,且该技术受到通道数量的限制,并且不能满足用户对音频对象个性化操作的需求,尤其是在沉浸式场景中,例如虚拟现实和增强现实的体感互动游戏。基于高阶环境音的编码技术使用系数信号来重建3D空间声场。虽然系数信号与声道或对象都没有直接关系,但基与高阶环境音的编码技术不适合对声音场景中单个对象的控制。基于对象的编码方法中每个音频对象位置完全独立于扬声器位置,结合个性化的渲染系统,将对象信号渲染到目标位置。因此基于对象的编码方法克服了产生的音频内容对扬声器位置的依赖。而且实现声音场景中高度沉浸式效果,例如鸟儿或直升机在头顶飞过,雨水从天空中落下,雷声从任何方向传来的听音效果。基于对象的编码框架已成功用于Dolby Atmos。
[0003]基于对象编码的典型代表是空间音频对象编码(Spatial Audio Object Coding,SAOC),SAOC的核心思想是只需一个下混和边信息参数就可以传输多个目标信号,从而可以同时以低比特率对各种音频对象进行编码。但是,当音频对象的数量增加且码率较低时,SAOC重建的音频对象将带来频谱混叠。

技术实现思路

[0004]为解决上述技术问题,本专利技术提供一种应用于低码率下的多音频对象编解码方法,本专利技术能够在低码率下全面提升音频对象信号的解码质量,提高编码效率。
[0005]本专利技术提供一种应用于低码率下的多音频对象编解码方法,用于音频对象边信息的降维表达,其中音频对象边信息的降维表达包括以下步骤:
[0006]步骤A1:对输入的J个独立音频信号通过改进离散余弦变换MDCT进行时域

频域变换,得到对象信号的频谱;
[0007]步骤A2:对步骤A1得到的每帧频谱数据进行精细的子带划分;其中,根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量;
[0008]步骤A3:对步骤A2中的子带,计算所有对象的下混信号,获得下混信号码流;
[0009]步骤A4:对步骤A2中的子带,计算每个对象的边信息,得到边信息矩阵;
[0010]步骤A5:对A3得到的边信息矩阵传入卷积自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,然后根据查表法对边信息值进行量化,获得边信息码流;
[0011]步骤A6:将步骤A3和步骤A5得到的码流合成输出码流,传输到解码端。
[0012]本专利技术提供一种应用于低码率下的多音频对象编解码方法,用于从低维结构中重建原始高维数据,具体包括以下步骤:
[0013]步骤B1:分解接收到的码流,得到下混信号码流和边信息码流;
[0014]步骤B2:步骤B1得到的下混信号码流解码得到下混信号;
[0015]步骤B3:步骤B1得到的边信息码流经过去量化操作得到边信息;
[0016]步骤B4:将步骤B3得到的边信息输入带有稠密连接模块的卷积自编码器解码器模块中,得到重建后的音频对象边信息;
[0017]步骤B5:根据B2得到的下混信号和B4得到的对象边信息,得到重建的音频对象频谱;
[0018]步骤B6:根据B5得到的音频对象频谱进行逆改进离散余弦变换IMDCT处理,得到重建的单个对象的时域信号。
[0019]与现有的音频对象编码相比,本专利技术的优势在于:利用卷积自编码器(Convolutional Auto Encoder,CAE)的编码模块中提取了边信息的有效特征,减少边信息参数的维数以节省比特率。并在卷积自编码器的解码模块中引入稠密连接(DenseNet),增强解码神经网络各层之间的特征传递。从而很好地重建音频对象。因此,本专利技术可以在低码率下全面提升音频对象信号的解码质量,以满足用户对音频对象个性化控制的需求。
附图说明
[0020]图1是本专利技术实施例的编码流程图。
[0021]图2是本专利技术实施例的解码流程图。
[0022]图3是本专利技术实施例的卷积自编码器模型结构框图。
具体实施方式
[0023]为了便于本领域的技术人员理解和实施本专利技术,下面结合附图以及具体实施示例对本专利技术的技术方案作进一步说明,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术:
[0024]本专利技术在现有音频对象编码方法的基础上开展研究,提出了一种应用于低码率下的多音频对象编解码方法。首先利用卷积自编码器中的编码模块对边信息进行降维表达,然后在卷积自编码器解码模块中引入稠密连接,增强解码神经网络各层之间的特征传递,实现从边信息的低维结构中重构原始高维的边信息数据,从而边信息的低维特征得到充分利用,达到降低码率的目的。
[0025]本专利技术提供的一种应用于低码率下的多音频对象编解码方法,包括编码方法和解码方法;
[0026]请见图1,本实施例的编码方法,具体实现包括以下步骤:
[0027]步骤A1:输入为多个音频对象的时域信号S1,S2,...,S
J
,如架子鼓、贝斯、人声等不同种类的音频对象信号,其采样频率是44.1kHz,位深度是16位,音频格式是wav格式。
[0028]本实施例中,对输入的J个独立音频信号S1,S2,...,S
J
通过改进离散余弦变换MDCT进行时域

频域变换,得到对象信号的频谱01,O2,...,O
J

[0029]本实施例中,对时通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域

频域变换,得到单个对象的频谱矩阵,矩阵的行数(列数)等于帧数,列数(行数)等于频点数。
[0030]应注意的是,此处规定的帧长,窗函数类型以及变换方式等只是为了举例说明本专利技术的具体实施步骤,并不用作限定本专利技术。
[0031]步骤A2:对步骤A1得到的频谱O1,O2,...,O
J
对每帧数据进行精细的子带划分;
[0032]本实施例中,根据子带数量对恢复音频对象频谱混叠失真的影响,利用评价指标SDR确定精细的子带划分数量。
[0033]本实施例中,由于ERB将每帧信号划分为28个子带,所以在2ERB子带的基础上,每个子带本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于低码率下的多音频对象编解码方法,其特征在于:包括编码方法和解码方法;所述编码方法,具体实现包括以下步骤:步骤A1:对输入的J个独立音频信号通过改进离散余弦变换MDCT进行时域

频域变换,得到对象信号的频谱;步骤A2:对步骤A1得到的每帧频谱数据进行精细的子带划分;其中,根据子带数量对频谱混叠失真的影响,确定精细的子带划分的数量;步骤A3:对步骤A2中的子带,计算所有对象的下混信号,获得下混信号码流;步骤A4:对步骤A2中的子带,计算每个对象的边信息,得到边信息矩阵;步骤A5:对A3得到的边信息矩阵传入卷积自编码器的编码器模块中,得到音频对象边信息的低维特征表达结果R,然后根据查表法对边信息值进行量化,获得边信息码流;步骤A6:将步骤A3和步骤A5得到的码流合成输出码流,传输到解码端。2.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A1中,通过2048点改进离散余弦变换MDCT对时域的音频对象信号进行时域

频域变换,得到单个对象的频谱。3.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A2中,根据子带数量对恢复音频对象频谱混叠失真的影响,利用评价指标SDR确定精细的子带划分数量。4.根据权利要求1所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A3中,将所有对象的频谱信息进行矩阵相加,得到下混信号数据。5.根据权利要求1

4任意一项所述的应用于低码率下的多音频对象编解码方法,其特征在于:步骤A4中,对象的边信息为其中,P
j
(i,b)表示对象j在子带(i,b)的能量,I是总帧数,J是对象的个数,B是子带数量;1≤i≤I,1≤j≤J,1≤b≤B。6.一种应用于低码率下的多音频对象编解码方法,其特征在于:包括编码方法和解码方法;所述解码方法,具体实现包括以下步骤:步骤B1:分解接收到的码流,得到下混信号码流和边信息码流;步骤B2:步骤B1得到的下混信号码流解码得到下混信号;步骤B3:步骤B1得到的边信息码流经过去量化...

【专利技术属性】
技术研发人员:胡瑞敏吴玉林王晓晨胡晨昊柯善发张灵鲲刘文可
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1