【技术实现步骤摘要】
本专利技术的实施方式总体设计一种音频内容处理,并且更具体地,涉及一种用于从音频内容中提取音频对象的方法和系统。
技术介绍
传统上,音频内容以基于声道的格式来创建和存储。在基于声道的格式中,音频内容一般由声道为媒介而被表示、存储、传递并且分布。如这里所用,术语“音频声道”或者“声道”指一般具有预定义物理位置的音频内容。例如,立体声、环绕5.1、环绕7.1等都是以用于该音频内容的基于声道的格式。每个声道对应于固定位置的物理扬声器。当多声道内容被回放时,多个扬声器创建围绕听众的实时和沉浸式声场。近来,若干传统的多声道系统已经被扩展为支持新格式,该新格式包括声道和音频对象二者。如这里所用,术语“音频对象”或“对象”指在声场中存在定义的持续时间的个体音频元素。例如,音频对象可以是对话、枪声、雷声等。这些对象一般由混音器用来创建它们所期望的音效。每个对象在声场中有其位置。例如,对话通常位于前方中央,而雷声一般从上面落下。人们对对象的位置的感知是播放同一对象的音频信号的多个扬声器的对决(firing)效果。例如,当对象由左前方的扬声器和右前方的扬声器以相似能量级播放时,人们将感知到来自前方中央的幻象(phantom)。如上所述,当以基于声道的格式创建内容时,通常意味着感知体验由混音器针对特定的回放设置来优化。然而,当由不同的回放设置回放时,其收听体验可能由于回放设置之间的失配而劣化。劣化的示例是对象的位置可能被改变。因而,基于声道的格式不足以 适配各种扬声器回放配置。低效率的另一方面存在于双声道渲染中,其中基于声道的格式能够仅使用有限数目的特定于扬声器位置的头部关联传 ...
【技术保护点】
一种用于从音频内容中提取音频对象的方法,所述音频内容由多个声道的音频信号表示,所述方法包括:标识第一投影空间集合,所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集;确定所述第一声道和所述第二声道之间的第一相关性集合,所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间;以及至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象,所述第一相关性大于第一预定义阈值。
【技术特征摘要】
1.一种用于从音频内容中提取音频对象的方法,所述音频内容由多个声道的音频信号表示,所述方法包括:标识第一投影空间集合,所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集;确定所述第一声道和所述第二声道之间的第一相关性集合,所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间;以及至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象,所述第一相关性大于第一预定义阈值。2.根据权利要求1所述的方法,进一步包括:从一个声道群组中选择所述第一声道和所述第二声道,所述声道群组通过基于所述多个声道的相关性来对所述多个声道进行聚类而获得。3.根据权利要求2所述的方法,其中所述多个声道中的一对声道之间的相关性通过如下来获得:标识第二投影空间集合,所述第二投影空间集合包括用于所述一对声道中的一个声道的第三子集和用于所述一对声道中的另一声道第四子集;确定所述一对声道之间的第二相关性集合,所述第二相关性集合中的每个相关性对应于所述第三投影空间子集中的一个投影空间和所述第四投影空间子集中的一个投影空间;以及选择所述第二相关性集合中的一个相关性作为所述一对声道之间的所述相关性,选择的所述相关性大于第二预定义阈值。4.根据权利要求2所述的方法,其中从所述声道群组中选择所述第一声道和所述第二声道包括:从所述声道群组中选择所述第二声道,使得所述第二声道的所述音频信号具有在所述声道群组中的最大能量。5.根据权利要求4所述的方法,其中从所述声道群组中选择所述第一声道和所述第二声道进一步包括:从所述声道群组中选择所述第一声道,使得所述第一声道和所述第二声道之间的所述相关性大于第三预定义阈值;以及至少部分地基于所述第一相关性和来自所述第二子集的对应于所述第一相关性的所述投影空间而从所述第二声道的音频信号中提取音频对象。6.根据权利要求2所述的方法,进一步包括:至少部分地基于从所述第一声道的音频信号和所述第二声道的音频信号中提取的所述音频对象来生成多声道对象;将生成的所述多通道对象混缩成单声道表示;以及确定所述单声道表示和提取的所述对象的原始多声道表示之间的混缩相似度,其中,从所述第一声道的所述音频信号中提取所述音频对象包括进一步基于所述混缩相似度来提取所述音频对象。7.根据权利要求2所述的方法,进一步包括:至少部分地基于从所述第一声道的音频信号和所述第二声道的音频信号中提取的所述音频对象来生成多声道对象;将生成的所述多通道对象混缩成单声道表示;至少部分地基于估计的位置来预渲染所述单声道表示;以及确定预渲染的所述单声道表示和提取的所述对象的原始多声道表示在能量分布方面的预渲染相似度,其中,从所述第一声道的所述音频信号中提取所述音频对象包括进一步基于所述预渲染相似度来提取所述音频对象。8.根据权利要求1至7中任一项所述的方法,其中所述音频内容包括通过在频域和时域中的至少一个中划分一帧全频段音频信号来获得。9.一种用于从音频内容中提取音频对象的系统,所述音频内容由多个声道的音频信号表示,所述系统包括:标识单元,被配置为标识第一投影空间集合,所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用...
【专利技术属性】
技术研发人员:胡明清,芦烈,陈连武,
申请(专利权)人:杜比实验室特许公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。