用于生成自适应音频内容的方法、系统和装置制造方法及图纸

技术编号:10821245 阅读:159 留言:0更新日期:2014-12-26 02:31
本发明专利技术的实施例涉及自适应音频内容生成。具体而言,公开了一种用于生成自适应音频内容的方法,该方法包括:从基于声道的源音频内容中提取至少一个音频对象,以及至少部分地基于该至少一个音频对象生成自适应音频内容。还公开了相应的系统和计算机程序产品。

【技术实现步骤摘要】
自适应音频内容生成
本专利技术总体上涉及音频信号处理,更具体地,涉及自适应音频内容生成。
技术介绍
目前的音频内容通常按照基于声道(channel based)的格式来生成和保存。例 如,立体声、环绕5. 1、环绕7. 1都是得到广泛应用的基于声道的音频内容格式。随着多媒体 技术的不断发展,诸如三维(3D)电影和电视之类的多媒体数字内容正在变得日益流行。然 而,传统的基于声道的音频格式通常难以有效地创建与之相适应的具有沉浸感的、逼真的 音频内容。因此,期望多声道音频系统能够相应地得到扩展,从而创建更为富有沉浸感的立 体声声场。实现这一目标的重要途径之一是使用自适应(adaptive)音频内容。 与传统基于声道的音频内容相比,自适应音频内容不仅包括音频声道,而且还包 括音频对象(audio object)。在此使用的术语音频对象是指在所定义的一段持续时间中 而存在的各种音频元素或声源。音频对象可以是动态的或者静态的。音频对象可以是在声 场中充当声源的人、动物或者任何其他物体。可选地,音频对象还可以具有关联的元数据, 例如用于描述对象的位置、速度、大小等方面的信息。音频对象的使用使得自适应音频内容 具有很高的沉浸感和良好的听觉效果,并且允许调音师等操作者方便地控制和调整音频对 象。而且,借助于对音频对象的操作,可以准确地控制离散的声音元素,而无需考虑具体的 回放扬声器配置。同时,自适应音频内容可以进一步包括称为静态环境声(audio bed) 的基于声道的部分和/或任何其他音频元素。在此使用的术语静态环境声或简称环境 声是指将在预定义的固定位置被回放的声音的音频声道。静态环境声可以被认为是静态 的音频对象,并且同样可以具有相关联的元数据。以此方式,自适应音频内容还可以兼具声 道格式的优势以便例如表示复杂的声音纹理。 自适应音频内容的生成方式不同于单纯基于声道的音频内容。因此,为了获得自 适应音频内容,必须自始使用相应的专用处理流程来创建和处理音频信号。然而,受到物理 设备和/或技术条件的制约,并非所有音频内容提供方都能够生成这种自适应音频内容。 很多音频内容提供方只能产生和提供基于声道的音频内容。而且,期望为已经被创建和发 布的基于声道的音频内容创建三维(3D)体验。然而,对于目前已经存在的大量基于声道 的传统音频内容而言,尚不存在一种方案能够将这些音频内容有效地转换为自适应音频内 容。 因此,本领域中需要一种能够将基于声道的音频内容转换为自适应音频内容的技 术方案。
技术实现思路
为了解决上述问题,本专利技术提出一种用于生成自适应音频的方法和系统。 在一个方面,本专利技术的实施例提供一种用于生成自适应音频内容的方法。该方法 包括:从基于声道的源音频内容中提取至少一个音频对象;以及至少部分地基于所述至少 一个音频对象生成所述自适应音频内容。这方面的实施例还包括包含相应的计算机程序产 品。 在另一方面,本专利技术的实施例提供一种用于生成自适应音频内容的系统。该系统 包括:音频对象提取器,被配置为从基于声道的源音频内容中提取至少一个音频对象;以 及自适应音频生成器,被配置为至少部分地基于所述至少一个音频对象生成所述自适应音 频内容。 通过下文描述将会理解,根据本专利技术的实施例,能够在确保音频保真度的同时,将 传统基于声道的音频内容有效地转换为自适应音频内容。特别地,能够从源音频内容中准 确地提取一个或多个音频对象,用于表示尖锐的和动态的声音,从而允许对各个主要声源 对象的控制、编辑、回放和/或后处理(re-authoring)。同时,复杂的音频纹理可以是基于 声道的格式以支持高效的创作和分发。本专利技术的实施例所带来的其他益处将通过下文描述 而清楚。 【附图说明】 通过参考附图阅读下文的详细描述,本专利技术实施例的上述以及其他目的、特征和 优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本专利技术的若干实施例,其 中: 图1示出了根据本专利技术的一个示例实施例的自适应音频内容的示意图; 图2示出了根据本专利技术的一个示例实施例的用于生成自适应音频内容的方法的 流程图; 图3示出了根据本专利技术的另一示例实施例的用于生成自适应音频内容的方法的 流程图; 图4示出了根据本专利技术的一个示例实施例的生成静态环境声的示意图; 图5A和图5B不出了根据本专利技术的不例实施例的重置的首频对象的不意图; 图6示出了根据本专利技术的一个示例实施例的元数据编辑的示意图; 图7示出了根据本专利技术的一个示例实施例的用于生成自适应音频内容的系统的 框图;以及 图8示出了可用于实现本专利技术的示例实施例的计算机系统的示意性框图。 在各个附图中,相同或对应的标号表不相同或对应的部分。 【具体实施方式】 下面将参考附图中示出的若干示例实施例来描述本专利技术的原理和精神。应当理 解,描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并 非以任何方式限制本专利技术的范围。 首先参考图1,其示出了根据本专利技术实施例的自适应音频内容生成的示意图。根据 本专利技术的实施例,将要被处理的源音频内容101采用传统的基于声道的格式,例如立体声、 环绕5. 1、环绕7. 1等格式。特别地,根据本专利技术的实施例,源音频内容101可以是任何类型 的最终混合音,或者是在被合并为传统立体声或多声道内容的最终混合音之前可被分别处 理的一组音轨。源音频内容101被处理以生成两个部分:基于声道的静态环境声102,以及 音频对象103和104。静态环境声102可以利用声道来表示复杂的音频纹理,例如声场中 的背景声音和环境声音,这有利于高效的编辑和分发。音频对象可以是声场中的主要声源, 例如尖锐和/或动态声音的声源。在图1所示的示例中,音频对象包括鸟103和青娃104。 自适应音频内容105可以基于静态环境声102和声音对象103、104而被生成。 应当注意,根据本专利技术的实施例,自适应音频内容并非必须包括音频对象和环境 声。相反,某些自适应音频内容可以仅包含音频对象和环境声之一。备选地,自适应音频内 容可以包含除音频对象和/或环境声之外的任何适当格式的附加音频元素。例如,某些自 适应音频内容可以包括环境声和某些类似于对象的内容,例如频谱中的部分对象。本专利技术 的范围在此方面不受限制。 下面参考图2详细描述根据本专利技术一个示例实施例的用于生成自适应音频内容 的方法200的流程图。方法200开始之后,在步骤S201,从基于声道的音频内容中提取至 少一个音频对象。为讨论方便起见,将作为输入的基于声道的音频内容称为源音频内容。 根据本专利技术的实施例,可以直接对源音频内容的音频信号进行处理,以从中提取音频对象。 备选地,为了更好地保持源音频内容的空间保真度等目的,也可以首先对源音频内容的信 号进行预处理,例如信号分解,使得音频对象可以从经过预处理的音频信号中被提取。这方 面的实施例将在下文详述 根据本专利技术的实施例,可以使用任何适当的方法来执行音频对象提取。总体上, 可以基于频谱连续性和空间一致性,来确定音频内容中属于同一对象的信号分量。在实现 中,可以对源音频内容进行处理以获取一个或多个音频信号本文档来自技高网
...

【技术保护点】
一种用于生成自适应音频内容的方法,所述方法包括:从基于声道的源音频内容中提取至少一个音频对象;以及至少部分地基于所述至少一个音频对象而生成所述自适应音频内容。

【技术特征摘要】
1. 一种用于生成自适应音频内容的方法,所述方法包括: 从基于声道的源音频内容中提取至少一个音频对象;以及 至少部分地基于所述至少一个音频对象而生成所述自适应音频内容。2. 根据权利要求1所述的方法,其中提取所述至少一个音频对象包括: 将所述源音频内容分解为指向性音频信号和发散性音频信号;以及 从所述指向性音频信号中提取所述至少一个音频对象。3. 根据权利要求2所述的方法,其中分解所述源音频信号内容包括: 对所述源音频内容执行信号分量分解;以及 通过分析分解出的信号分量来计算发散概率。4. 根据权利要求1到3中任一项所述的方法,其中提取所述至少一个音频对象包括: 对于所述源音频内容中的多个帧中的每一个帧,通过频谱合成来识别和聚集存在相同 音频对象的声道;以及 跨所述多个帧对识别和聚集的所述声道执行时间合成,以便沿时间合成所述至少一个 音频对象。5. 根据权利要求4所述的方法,其中识别和聚集所述存在相同音频对象的声道包括: 对于所述多个帧中的每一个帧,将频率范围划分为多个子频带;以及 基于所述多个子频带之间的包络和频谱形状中至少一个的相似性,来识别和聚集所述 存在相同音频对象的声道。6. 根据权利要求1到5中任一项所述的方法,还包括: 从所述源音频内容生成基于声道的静态环境声, 并且其中生成所述自适应音频内容包括基于所述至少一个音频对象和所述静态环境 声来生成所述自适应音频内容。7. 根据权利要求6所述的方法,其中生成所述静态环境声包括: 将所述源音频内容分解为指向性音频信号和发散性音频信号;以及 从所述发散性音频信号生成所述静态环境声。8. 根据权利要求6到7中任一项所述的方法,其中生成所述静态环境声包括: 通过对所述源音频内容执行环境上混音来创建至少一个高度声道;以及 从所述源音频内容的声道和所述至少一个高度声道生成所述静态环境声。9. 根据权利要求1到8中任一项所述的方法,还包括: 估计与所述自适应音频内容相关联的元数据。10. 根据权利要求9所述的方法,其中生成所述自适应音频内容包括编辑与所述自适 应音频内容相关联的所述元数据。11. 根据权利要求10所述的方法,其中编辑所述元数据包括控制所述自适应音频内容 的增益。12. 根据权利要求1到11中任一项所述的方法,其中生成所述自适应音频内容包括: 对所述至少一个音频对象执行后处理,所述后处理包括以下至少一个: 分离所述至少一个音频对象中的至少部分重叠的音频对象; 修改与所述至少一个音频对象相关联的属性;以及 交互地操控所述至少一个音频对象。13. -种用于生成自适应音频内容的系统,所述系统包括: 音频对象提取器,被配置为从基于声道的源音频内容中提取至少一个音频对象;以及 自适应音频生成器,被配置为至少部分地基于所述至少一个音频对象生成所述自适应 音频内容。14. 根据权利要求13所述的系统,还包括: 信号分解器,被配置为将所述源音频内容分解为指...

【专利技术属性】
技术研发人员:王珺芦烈胡明清D·J·布里巴特N·R·辛格斯
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1