基于通知源分离的音频对象编码的方法和装置制造方法及图纸

技术编号：18737620 阅读：17 留言：0更新日期：2018-08-22 05:55

为了表示和恢复音频混合中存在的组成源，使用通知源分离技术。具体地，使用通用谱模型(USM)来获得用于音频混合中的单个音频源的稀疏时间激活矩阵。将时间激活矩阵中的非零组的索引作为边信息编码到比特流中。也可以将时间激活矩阵的非零系数编码到比特流中。在解码器侧，当比特流中包括时间激活矩阵的系数时，可以从比特流中解码矩阵。否则，可以根据音频混合、比特流中包括的非零索引和USM模型来估计时间激活矩阵。给定时间激活矩阵，可以基于音频混合和USM模型来恢复组成音频源。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】基于通知源分离的音频对象编码的方法和装置
本专利技术涉及用于音频编码和解码的方法和装置，并且更具体地涉及基于通知源分离(informedsourceseparation)的音频对象编码和解码的方法和装置。
技术介绍
本部分旨在向读者介绍可能与下面描述和/或要求保护的本专利技术的各个方面有关的技术的各个方面。相信该讨论有助于向读者提供背景信息以促进对本专利技术的各个方面的更好的理解。因此，应理解，这些陈述要在该点上来阅读，而不是作为对现有技术的承认。从其单通道或多通道混合中恢复组成声音源在某些应用中是有用的，例如，减轻自动伴奏录音(karaoke)中的语音信号、空间音频呈现(即，以具有3D声音效果)和音频后期制作(即，在重混之前在特定音频对象上添加效果)。已经开发了不同的方法以有效地表示混合中存在的组成源。如图1中的编码/解码架构中所示，在编码器(110)处，组成源和混合都是已知的，并且关于源的边信息与经编码的音频混合一起被包括在比特流中。在解码器(120)处，混合和边信息从比特流中被解码，并且然后被处理以恢复组成源。空间音频对象编码(SAOC)和通知源分离(ISS)技术都可以用于恢复组成源。具体地，空间音频对象编码旨在在给定所传送的混合和关于经编码的音频对象的边信息的情况下在解码侧恢复音频对象(例如，语音，乐器或氛围，音乐信号包括诸如吉他对象、钢琴对象之类的若干个对象)。边信息可以是通道间和通道内相关性或源定位参数。另一方面，通知源分离方法假设在编码阶段期间原始源可用并且旨在从给定混合中恢复音频源。在解码阶段期间，混合和边信息都被处理以恢复源。图2中示出了...

【技术保护点】
1.一种音频编码的方法，包括：访问(810)与音频源相关联的音频混合；将所述音频混合和用于所述音频源的时间激活矩阵的非零组的索引编码(840)到比特流中，所述组对应于所述时间激活矩阵的一行或更多行，所述时间激活矩阵是基于所述音频源和通用谱模型被确定的；以及提供(870)所述比特流作为输出。

【技术特征摘要】
【国外来华专利技术】2015.12.01 EP 15306899.41.一种音频编码的方法，包括：访问(810)与音频源相关联的音频混合；将所述音频混合和用于所述音频源的时间激活矩阵的非零组的索引编码(840)到比特流中，所述组对应于所述时间激活矩阵的一行或更多行，所述时间激活矩阵是基于所述音频源和通用谱模型被确定的；以及提供(870)所述比特流作为输出。2.如权利要求1所述的方法，包括提供所述时间激活矩阵的非零组的系数作为所述输出。3.一种音频解码的方法，包括：访问(1220)与音频源相关联的音频混合；访问(1220)用于所述音频源的第一时间激活矩阵的非零组的索引，所述组对应于所述第一时间激活矩阵的一行或更多行；访问(1240)所述音频源的时间激活矩阵的非零组的系数；以及基于所述第一时间激活矩阵的非零组的系数和所述音频混合来重建(1250)所述音频源。4.如权利要求3所述的方法，其中基于通用谱模型来重建所述音频源。5.如权利要求3所述的方法，其中从比特流中解码所述第一时间激活矩阵的非零组的系数。6.如权利要求3所述的方法，其中将所述第一时间激活矩阵的另一组的系数设置为零。7.如权利要求3所述的方法，其中基于所述音频混合、所述时间激活矩阵的非零组的索引以及所述通用谱模型来确定所述第一时间激活矩阵的非零组的系数。8.如权利要求7所述的方法，其中所述音频混合与多个音频源相关联，并且其中基于所述音频混合、所述多个音频源的时间激活矩阵的非零组的索引以及所述通用谱模型来确定第二时间激活矩阵。9.如权利要求8所述的方法，其中所述第二时间激活矩阵的组的系数在通过所述多个音频源中的每一个将所述组指示为零的情况下被设置为零。10.如权利要求8所述的方法，其中所述第一时间激活矩阵的非零组的系数根据所述第二时间激活矩阵被确定。11.如权利要求10所述的方法，其中将所述第一时间激活矩阵的非零组的系数设置为所述第二时间激活矩阵的对应组的系数。12.如权利要求10所述的方法，其中所述第一时间激活矩阵的非零组的系数基于指示所述组为非零的源的数量被确定。13.一种音频编码的装置，包括存储器和被配置用于以下的一个或更多个处理器：访问(810)与音频源相关联的音频混合；将所述音频混合和用于所述音频源的时间激活矩阵的非零组的索引编码(840)到比特流中，所述组对应于所述时间激活矩阵的一行或更多行，所述时间激活矩阵...

【专利技术属性】
技术研发人员：QKN董，A奥泽罗夫，
申请(专利权)人：汤姆逊许可公司，
类型：发明
国别省市：法国,FR

全部详细技术资料下载我是这个专利的主人