从音频内容基于投影提取音频对象制造技术

技术编号:13605479 阅读:38 留言:0更新日期:2016-08-28 04:06
本发明专利技术的实施方式涉及音频对象提取。公开了一种用于从音频内容中提取音频对象的方法。该方法包括标识第一投影空间集合,所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集。该方法可以进一步包括确定所述第一声道和所述第二声道之间的第一相关性集合,所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间。另外,该方法可以包括至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象,所述第一相关性大于第一预定义阈值。也公开了对应的系统和计算机程序产品。

【技术实现步骤摘要】

本专利技术的实施方式总体设计一种音频内容处理,并且更具体地,涉及一种用于从音频内容中提取音频对象的方法和系统。
技术介绍
传统上,音频内容以基于声道的格式来创建和存储。在基于声道的格式中,音频内容一般由声道为媒介而被表示、存储、传递并且分布。如这里所用,术语“音频声道”或者“声道”指一般具有预定义物理位置的音频内容。例如,立体声、环绕5.1、环绕7.1等都是以用于该音频内容的基于声道的格式。每个声道对应于固定位置的物理扬声器。当多声道内容被回放时,多个扬声器创建围绕听众的实时和沉浸式声场。近来,若干传统的多声道系统已经被扩展为支持新格式,该新格式包括声道和音频对象二者。如这里所用,术语“音频对象”或“对象”指在声场中存在定义的持续时间的个体音频元素。例如,音频对象可以是对话、枪声、雷声等。这些对象一般由混音器用来创建它们所期望的音效。每个对象在声场中有其位置。例如,对话通常位于前方中央,而雷声一般从上面落下。人们对对象的位置的感知是播放同一对象的音频信号的多个扬声器的对决(firing)效果。例如,当对象由左前方的扬声器和右前方的扬声器以相似能量级播放时,人们将感知到来自前方中央的幻象(phantom)。如上所述,当以基于声道的格式创建内容时,通常意味着感知体验由混音器针对特定的回放设置来优化。然而,当由不同的回放设置回放时,其收听体验可能由于回放设置之间的失配而劣化。劣化的示例是对象的位置可能被改变。因而,基于声道的格式不足以 适配各种扬声器回放配置。低效率的另一方面存在于双声道渲染中,其中基于声道的格式能够仅使用有限数目的特定于扬声器位置的头部关联传递函数(HRTF);而对于其他位置,使用HRTF插值法,这劣化了双声道收听体验。解决这一问题的潜在方法是从基于声道的表示中恢复原始的源(或者对象),包括它们的位置和单声道干净的波形,并继而使用位置作为元数据来引导扬声器回放设备的平移算法,以实时重新渲染该对象并且创建与原始声音图像类似的声音图像。对于双声道渲染设置,代替使用有限数目的HRTF的是,位置可以被用来选择最为合适的HRTF以进一步增强收听体验。然而,处于基于声道的表示中的对象——该对象将用元数据来渲染——并不总是干净的。其可能同时混合有一些声道内的其他对象。例如,为了实现艺术家意图,混音器可能将两个对象同时放在收听器前方,一个对象表现为在中央和左前方之间,而另一个对象在中央和右前方之间的某一位置。这能使得中央前方声道包含两个对象。如果不使用源分离技术,则这两个对象将被视为一个对象,这将使得它们的位置估计不正确。因此,为了得到干净的对象并且估计它的位置,需要源分离技术来将对象从其多声道混合物中分离以产生干净的多声道或单声道表示。在上述示例中,例如期望单个多声道输入被源分离部件分割成两个多声道或单声道输出,每个仅包含一个干净的对象。
技术实现思路
为了解决前述和其他潜在问题,本专利技术提出用于从音频内容提取音频对象的方法和系统。在一个方面中,本专利技术的实施方式提供一种用于从音频内容中提取音频对象的方法,所述音频内容由多个声道的音频信号表示。该方法包括标识第一投影空间集合,所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的 第二声道的第二子集。该方法进一步包括确定所述第一声道和所述第二声道之间的第一相关性集合,所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间。该方法还包括至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象,所述第一相关性大于第一预定义阈值。实施方式就此而言进一步包括对应的计算机程序产品。在另一方面,本专利技术的实施方式提供用于从音频内容中提取音频对象的系统,所述音频内容由多个声道的音频信号表示,所述系统包括:标识单元,被配置为标识第一投影空间集合,所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集。该系统进一步包括确定单元,被配置为确定所述第一声道和所述第二声道之间的第一相关性集合,所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间。该系统还包括提取单元,被配置为至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象,所述第一相关性大于第一预定义阈值。通过下文描述,将理解根据本专利技术的实施方式,音频对象能够从基于多声道的音频内容的音频信号中的每个音频信号中被分离。以此方式,音频内容输入有可能适配于各种回放配置而不劣化收听体验。由本专利技术的实施方式获得的其他优点将通过以下描述而变得明显。附图说明通过参考附图的以下详细描述,本专利技术实施方式的上述和其他目标、特点和优点将变得更可理解。在附图中,本专利技术的若干实施 方式将以示例和非限制性的方式来阐述,其中:图1图示了基于多个声道的格式的音频信号片段的示例;图2图示了根据本专利技术示例实施方式的从音频内容提取音频对象的方法的流程图;图3图示了根据本专利技术示例实施方式的从音频内容提取音频对象的系统300的框图;并且图4图示了适合用于实现本专利技术示例实施方式的示例计算机系统的框图。贯穿附图,相同或对应的参考标号指代相同或对应的部分。具体实施方式现在将参考附图中所图示的各种示例实施方式来描述本专利技术的原理。应当理解,对这些实施方式的描述仅用于使得本领域技术人员更好地理解并进一步实现本专利技术,而不是旨在以任何方式限制本专利技术的范围。还应当理解术语“第一”、“第二”等被用于指示不同的对象,而不是表明针对该对象的顺序的任何限制。如上所述,传统的基于声道的音频内容不足以适配各种回放设置。具体而言,当回放设置与混音器的配置失配时,由回放设置所表示的收听体验将被劣化。此外,用回放设置来表示该音频内容而又保留艺术家意图也对对象分离技术带来挑战。因此,期待从基于声道的音频内容尽可能干净地提取音频对象。图1图示了基于多个声道的格式的音频信号的片段的示例。如图1所示,音频信号100的片段在时域和频域中表示。在有水平轴表示的时域中,音频信号100的片段可以包含沿时间轴T的若干帧。一帧例如可以是从t1到t2的时间长度。为了便于后续在对象提取中的计算和处理,一帧音频信号可以沿时间轴被进一步划分成(在图1中由虚线示出)多个部分。另一方面,在由垂直轴表示的频域中,音频信号100的片段表示全频带信号,为了便于后续在对象提取中的计算和处理,该全频带信号也同样能够沿着频域被划分成多个子 带。许多可用的频谱转换技术可以被应用于子带划分中,诸如快速傅里叶变换(FFT)或复杂正交镜像滤波器(CQMF)。考虑到人类听觉系统的特点,在频域中的划分可能不是均匀的,而是在低频部分更为精细,而在高频部分更为粗略。如图1所示,音频信号100与多个声道——例如,声道C1至C5——相关。换而言之,输入音频信号100包括多个音频信号成分,该多个音频信号成分中的每个音频信号成分对应于声道C1至C5之一。因此,本文中的音频内容可以是基于多个声道的全频道音频信号片本文档来自技高网
...

【技术保护点】
一种用于从音频内容中提取音频对象的方法,所述音频内容由多个声道的音频信号表示,所述方法包括:标识第一投影空间集合,所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集;确定所述第一声道和所述第二声道之间的第一相关性集合,所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间;以及至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象,所述第一相关性大于第一预定义阈值。

【技术特征摘要】
1.一种用于从音频内容中提取音频对象的方法,所述音频内容由多个声道的音频信号表示,所述方法包括:标识第一投影空间集合,所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用于所述多个声道中的第二声道的第二子集;确定所述第一声道和所述第二声道之间的第一相关性集合,所述第一相关性集合中的每个相关性对应于所述第一投影空间子集中的一个投影空间和所述第二投影空间子集中的一个投影空间;以及至少部分地基于所述第一相关性集合中的第一相关性和来自所述第一子集的对应于所述第一相关性的投影空间来从所述第一声道的音频信号中提取音频对象,所述第一相关性大于第一预定义阈值。2.根据权利要求1所述的方法,进一步包括:从一个声道群组中选择所述第一声道和所述第二声道,所述声道群组通过基于所述多个声道的相关性来对所述多个声道进行聚类而获得。3.根据权利要求2所述的方法,其中所述多个声道中的一对声道之间的相关性通过如下来获得:标识第二投影空间集合,所述第二投影空间集合包括用于所述一对声道中的一个声道的第三子集和用于所述一对声道中的另一声道第四子集;确定所述一对声道之间的第二相关性集合,所述第二相关性集合中的每个相关性对应于所述第三投影空间子集中的一个投影空间和所述第四投影空间子集中的一个投影空间;以及选择所述第二相关性集合中的一个相关性作为所述一对声道之间的所述相关性,选择的所述相关性大于第二预定义阈值。4.根据权利要求2所述的方法,其中从所述声道群组中选择所述第一声道和所述第二声道包括:从所述声道群组中选择所述第二声道,使得所述第二声道的所述音频信号具有在所述声道群组中的最大能量。5.根据权利要求4所述的方法,其中从所述声道群组中选择所述第一声道和所述第二声道进一步包括:从所述声道群组中选择所述第一声道,使得所述第一声道和所述第二声道之间的所述相关性大于第三预定义阈值;以及至少部分地基于所述第一相关性和来自所述第二子集的对应于所述第一相关性的所述投影空间而从所述第二声道的音频信号中提取音频对象。6.根据权利要求2所述的方法,进一步包括:至少部分地基于从所述第一声道的音频信号和所述第二声道的音频信号中提取的所述音频对象来生成多声道对象;将生成的所述多通道对象混缩成单声道表示;以及确定所述单声道表示和提取的所述对象的原始多声道表示之间的混缩相似度,其中,从所述第一声道的所述音频信号中提取所述音频对象包括进一步基于所述混缩相似度来提取所述音频对象。7.根据权利要求2所述的方法,进一步包括:至少部分地基于从所述第一声道的音频信号和所述第二声道的音频信号中提取的所述音频对象来生成多声道对象;将生成的所述多通道对象混缩成单声道表示;至少部分地基于估计的位置来预渲染所述单声道表示;以及确定预渲染的所述单声道表示和提取的所述对象的原始多声道表示在能量分布方面的预渲染相似度,其中,从所述第一声道的所述音频信号中提取所述音频对象包括进一步基于所述预渲染相似度来提取所述音频对象。8.根据权利要求1至7中任一项所述的方法,其中所述音频内容包括通过在频域和时域中的至少一个中划分一帧全频段音频信号来获得。9.一种用于从音频内容中提取音频对象的系统,所述音频内容由多个声道的音频信号表示,所述系统包括:标识单元,被配置为标识第一投影空间集合,所述第一投影空间集合包括用于所述多个声道中的第一声道的第一子集和用...

【专利技术属性】
技术研发人员:胡明清芦烈陈连武
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1