基于通知源分离的音频对象编码的方法和装置制造方法及图纸

技术编号:18737620 阅读:17 留言:0更新日期:2018-08-22 05:55
为了表示和恢复音频混合中存在的组成源,使用通知源分离技术。具体地,使用通用谱模型(USM)来获得用于音频混合中的单个音频源的稀疏时间激活矩阵。将时间激活矩阵中的非零组的索引作为边信息编码到比特流中。也可以将时间激活矩阵的非零系数编码到比特流中。在解码器侧,当比特流中包括时间激活矩阵的系数时,可以从比特流中解码矩阵。否则,可以根据音频混合、比特流中包括的非零索引和USM模型来估计时间激活矩阵。给定时间激活矩阵,可以基于音频混合和USM模型来恢复组成音频源。

【技术实现步骤摘要】
【国外来华专利技术】基于通知源分离的音频对象编码的方法和装置
本专利技术涉及用于音频编码和解码的方法和装置,并且更具体地涉及基于通知源分离(informedsourceseparation)的音频对象编码和解码的方法和装置。
技术介绍
本部分旨在向读者介绍可能与下面描述和/或要求保护的本专利技术的各个方面有关的技术的各个方面。相信该讨论有助于向读者提供背景信息以促进对本专利技术的各个方面的更好的理解。因此,应理解,这些陈述要在该点上来阅读,而不是作为对现有技术的承认。从其单通道或多通道混合中恢复组成声音源在某些应用中是有用的,例如,减轻自动伴奏录音(karaoke)中的语音信号、空间音频呈现(即,以具有3D声音效果)和音频后期制作(即,在重混之前在特定音频对象上添加效果)。已经开发了不同的方法以有效地表示混合中存在的组成源。如图1中的编码/解码架构中所示,在编码器(110)处,组成源和混合都是已知的,并且关于源的边信息与经编码的音频混合一起被包括在比特流中。在解码器(120)处,混合和边信息从比特流中被解码,并且然后被处理以恢复组成源。空间音频对象编码(SAOC)和通知源分离(ISS)技术都可以用于恢复组成源。具体地,空间音频对象编码旨在在给定所传送的混合和关于经编码的音频对象的边信息的情况下在解码侧恢复音频对象(例如,语音,乐器或氛围,音乐信号包括诸如吉他对象、钢琴对象之类的若干个对象)。边信息可以是通道间和通道内相关性或源定位参数。另一方面,通知源分离方法假设在编码阶段期间原始源可用并且旨在从给定混合中恢复音频源。在解码阶段期间,混合和边信息都被处理以恢复源。图2中示出了示例性ISS工作流程。在编码侧,给定原始源s和混合x,例如使用非负矩阵分解(NMF)来估计源模型参数(210)。模型参数被量化和编码,并且然后作为边信息被传送(220)。在解码侧,模型参数被重建为(230)并且混合x被解码。给定源模型、参数和混合x,源被重建为(240)(例如,通过维纳滤波和残差编码)。
技术实现思路
根据总体方面,提出一种音频编码的方法,包括:访问与音频源相关联的音频混合;确定用于所述音频源的时间激活矩阵的非零组的索引,所述组对应于所述时间激活矩阵的一行或更多行,所述时间激活矩阵是基于所述音频源和通用谱模型被确定的;将所述非零组的索引和所述音频混合编码到比特流中;以及提供所述比特流作为输出。音频编码的方法还可以提供时间激活矩阵的非零组的系数作为输出。音频编码的方法可以基于通过具有稀疏性约束的非负矩阵分解,在给定通用谱模型的情况下对音频源的谱图进行分解,来确定时间激活矩阵。本实施例还提供一种用于音频编码的装置,包括存储器和被配置为执行以上描述的方法中的任一个的一个或更多个处理器。尤其是,根据一些实施例,用于音频编码的装置被配置用于:访问与音频源相关联的音频混合;将所述音频混合和用于所述音频源的时间激活矩阵的非零组的索引编码到比特流中,所述组对应于所述时间激活矩阵的一行或更多行,所述时间激活矩阵是基于所述音频源和通用谱模型被确定的;以及提供所述比特流作为输出根据另一总体方面,提出一种音频解码的方法,包括:访问与音频源相关联的音频混合;访问用于所述音频源的时间激活矩阵的非零组的索引,所述组对应于所述时间激活矩阵的一行或更多行;访问所述音频源的时间激活矩阵的非零组的系数;以及基于所述时间激活矩阵的非零组的系数和所述音频混合来重建所述音频源。音频解码的方法可以基于通用谱模型来重建所述音频源。音频解码的方法可以从比特流中解码所述时间激活矩阵的非零组的系数。音频解码的方法可以将所述时间激活矩阵的另一组的系数设置为零。音频解码的方法可以基于所述音频混合、所述时间激活矩阵的非零组的索引以及所述通用谱模型来确定所述时间激活矩阵的非零组的系数。所述音频混合可以与多个音频源相关联,其中基于所述音频混合、所述多个音频源的时间激活矩阵的非零组的索引以及所述通用谱模型来确定第二时间激活矩阵。所述第二时间激活矩阵的组的系数可以在通过所述多个音频源中的每一个将所述组指示为零的情况下被设置为零,并且可以根据所述第二时间激活矩阵来确定所述时间激活矩阵的非零组的系数。可以将所述时间激活矩阵的非零组的系数设置为所述第二时间激活矩阵的对应组的系数。此外,所述时间激活矩阵的非零组的系数可以基于指示所述组为非零的源的数量被确定。本实施例还提供一种用于音频解码的装置,包括存储器和被配置为执行以上描述的方法中的任一个的一个或更多个处理器。尤其是,根据一些实施例,用于音频解码的装置被配置用于访问与音频源相关联的音频混合;访问用于所述音频源的时间激活矩阵的非零组的索引,所述组对应于所述时间激活矩阵的一行或更多行;访问所述音频源的时间激活矩阵的非零组的系数;以及基于所述时间激活矩阵的非零组的系数和所述音频混合来重建所述音频源。本实施例还提供一种非临时性程序储存设备,其可由计算机读取。根据本公开的实施例,非临时性计算机可读储存设备有形地实施可由计算机执行的指令的程序,以执行本公开的任何其实施例中的编码或解码方法。尤其是,根据一些实施例,非临时性计算机可读储存设备有形地实施可由计算机执行的指令的程序,以执行音频编码的方法,所述方法包括:访问与音频源相关联的音频混合;将所述音频混合和用于所述音频源的时间激活矩阵的非零组的索引编码到比特流中,所述组对应于所述时间激活矩阵的一行或更多行,所述时间激活矩阵是基于所述音频源和通用谱模型被确定的;以及提供所述比特流作为输出。尤其是,根据一些实施例,非临时性计算机可读储存设备有形地实施可由计算机执行的指令的程序,以执行音频解码的方法,所述方法包括:访问与音频源相关联的音频混合;访问用于所述音频源的第一时间激活矩阵的非零组的索引,所述组对应于所述第一时间激活矩阵的一行或更多行;访问所述音频源的时间激活矩阵的非零组的系数;以及基于所述第一时间激活矩阵的非零组的系数和所述音频混合来重建所述音频源。本实施例还提供一种非临时性计算机可读储存介质,具有存储在其上的指令以用于执行以上描述的方法中的任一个。尤其是,根据一些实施例,非临时性计算机可读储存介质具有存储在其上的指令以用于执行音频编码的方法,所述方法包括:访问与音频源相关联的音频混合;将所述音频混合和用于所述音频源的时间激活矩阵的非零组的索引编码到比特流中,所述组对应于所述时间激活矩阵的一行或更多行,所述时间激活矩阵是基于所述音频源和通用谱模型被确定的;以及提供所述比特流作为输出。尤其是,根据其他实施例,非临时性计算机可读储存介质具有存储在其上的指令以用于执行音频解码的方法,所述方法包括:访问与音频源相关联的音频混合;访问用于所述音频源的第一时间激活矩阵的非零组的索引,所述组对应于所述第一时间激活矩阵的一行或更多行;访问所述音频源的时间激活矩阵的非零组的系数;以及基于所述第一时间激活矩阵的非零组的系数和所述音频混合来重建所述音频源。本实施例还提供一种非临时性计算机可读程序产品,包括程序代码指令以用于当由计算机执行所述非临时性软件程序时执行以上描述的方法中的任一个。尤其是,本实施例提供一种非临时性计算机可读程序产品,包括程序代码指令以用于当由计算机执行所述非临时性软件程序时执行音频编码的方法,所述方法包括:访问(810本文档来自技高网
...

【技术保护点】
1.一种音频编码的方法,包括:访问(810)与音频源相关联的音频混合;将所述音频混合和用于所述音频源的时间激活矩阵的非零组的索引编码(840)到比特流中,所述组对应于所述时间激活矩阵的一行或更多行,所述时间激活矩阵是基于所述音频源和通用谱模型被确定的;以及提供(870)所述比特流作为输出。

【技术特征摘要】
【国外来华专利技术】2015.12.01 EP 15306899.41.一种音频编码的方法,包括:访问(810)与音频源相关联的音频混合;将所述音频混合和用于所述音频源的时间激活矩阵的非零组的索引编码(840)到比特流中,所述组对应于所述时间激活矩阵的一行或更多行,所述时间激活矩阵是基于所述音频源和通用谱模型被确定的;以及提供(870)所述比特流作为输出。2.如权利要求1所述的方法,包括提供所述时间激活矩阵的非零组的系数作为所述输出。3.一种音频解码的方法,包括:访问(1220)与音频源相关联的音频混合;访问(1220)用于所述音频源的第一时间激活矩阵的非零组的索引,所述组对应于所述第一时间激活矩阵的一行或更多行;访问(1240)所述音频源的时间激活矩阵的非零组的系数;以及基于所述第一时间激活矩阵的非零组的系数和所述音频混合来重建(1250)所述音频源。4.如权利要求3所述的方法,其中基于通用谱模型来重建所述音频源。5.如权利要求3所述的方法,其中从比特流中解码所述第一时间激活矩阵的非零组的系数。6.如权利要求3所述的方法,其中将所述第一时间激活矩阵的另一组的系数设置为零。7.如权利要求3所述的方法,其中基于所述音频混合、所述时间激活矩阵的非零组的索引以及所述通用谱模型来确定所述第一时间激活矩阵的非零组的系数。8.如权利要求7所述的方法,其中所述音频混合与多个音频源相关联,并且其中基于所述音频混合、所述多个音频源的时间激活矩阵的非零组的索引以及所述通用谱模型来确定第二时间激活矩阵。9.如权利要求8所述的方法,其中所述第二时间激活矩阵的组的系数在通过所述多个音频源中的每一个将所述组指示为零的情况下被设置为零。10.如权利要求8所述的方法,其中所述第一时间激活矩阵的非零组的系数根据所述第二时间激活矩阵被确定。11.如权利要求10所述的方法,其中将所述第一时间激活矩阵的非零组的系数设置为所述第二时间激活矩阵的对应组的系数。12.如权利要求10所述的方法,其中所述第一时间激活矩阵的非零组的系数基于指示所述组为非零的源的数量被确定。13.一种音频编码的装置,包括存储器和被配置用于以下的一个或更多个处理器:访问(810)与音频源相关联的音频混合;将所述音频混合和用于所述音频源的时间激活矩阵的非零组的索引编码(840)到比特流中,所述组对应于所述时间激活矩阵的一行或更多行,所述时间激活矩阵...

【专利技术属性】
技术研发人员:QKN董A奥泽罗夫
申请(专利权)人:汤姆逊许可公司
类型:发明
国别省市:法国,FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1