用于回放多个音频源的双声道渲染装置和方法制造方法及图纸

技术编号:21179001 阅读:32 留言:0更新日期:2019-05-22 12:47
本公开涉及用于多个移动音频源的快速双声道渲染的设计。本公开采用可以是基于对象的、基于信道的或两者的混合的音频源信号、相关联的元数据、用户头部跟踪数据以及双声道房间脉冲响应(BRIR)数据库来生成耳机回放信号。本公开应用逐帧双声道渲染模块,其采用BRIR的参数化分量来渲染移动源。另外,本公开在渲染过程中应用分层源聚类和缩混以降低计算复杂度。

Dual-channel rendering device and method for playback of multiple audio sources

The present disclosure relates to the design of fast dual-channel rendering for multiple mobile audio sources. The present disclosure generates headphone playback signals using an object-based, channel-based or hybrid audio source signal, associated metadata, user head tracking data, and a dual-channel room impulse response (BRIR) database. The present disclosure applies a frame-by-frame dual-channel rendering module, which uses the parametric components of BRIR to render mobile sources. In addition, the present disclosure applies hierarchical source clustering and shrunken mixing in the rendering process to reduce computational complexity.

【技术实现步骤摘要】
【国外来华专利技术】用于回放多个音频源的双声道渲染装置和方法
本公开涉及用于耳机回放(playback)的数字音频信号的有效渲染(render)。
技术介绍
空间音频是指沉浸式音频再现系统,允许听众感知高度的音频环绕。这种环绕感包括在方向和距离上对音频源的空间位置的感觉,使得听众将声音场景感知为好像他们处于自然声音环境中。通常有三种用于空间音频再现系统的录音格式。格式取决于音频内容制作站点使用的录制和混音方法。第一种格式是最熟知的基于信道的,其中音频信号的每个信道被指派为在再现站点的特定扬声器上回放。第二种格式称为基于对象的,其中可以由多个虚拟源(也称为对象)描述空间声音场景。每个音频对象可以由具有相关联的元数据的声音波形表示。第三种格式称为基于环绕声(Ambisonic),其可以视为表示声场的球形扩展的系数信号。随着诸如移动电话、平板电脑等个人便携式设备的激增以及虚拟/增强现实的新兴应用,通过耳机渲染沉浸式空间音频变得越来越必要和有吸引力。双声道化是将输入的空间音频信号(例如,基于信道的信号、基于对象的信号或基于环绕声的信号)转换为耳机回放信号的过程。实质上,实际环境中的自然声音场景是由一对人耳感知的。这推断出,如果这些回放信号接近人类在自然环境中感知的声音,则耳机回放信号应该能够将空间声场渲染得尽可能地自然。双声道渲染的典型示例记录在MPEG-H3D音频标准[参见NPL1]中。图1示出了将基于信道的和基于对象的输入信号渲染到MPEG-H3D音频标准中的双声道馈送的流程图。给定虚拟扬声器布局配置(例如,5.1、7.1或22.2),基于信道的信号1...L1和基于对象的信号1...L2首先分别经由格式转换器(101)和VBAP渲染器(102)转换为多个虚拟扬声器信号。然后,通过考虑BRIR数据库,经由双声道渲染器(103)将虚拟扬声器信号转换为双声道信号。引用列表非专利文献[NPL1]ISO/IECDIS23008-3“Informationtechnology-Highefficiencycodingandmediadeliveryinheterogeneousenvironments-Part3:3Daudio”[NPL2]T.Lee,H.O.Oh,J.Seo,Y.C.Park以及D.H.Youn,“ScalableMultibandBinauralRendererforMPEG-H3DAudio”,在IEEEJournalofSelectedTopicsinSignalProcessing,第9卷,第5号,第907-920页,2015年8月。
技术实现思路
一个非限制性和示例性实施例提供了一种用于多个移动音频源的快速双声道渲染的方法。本公开采用音频源信号(可以是基于对象的、基于信道的或两者的混合)、相关联的元数据、用户头部跟踪数据以及双声道房间脉冲响应(BRIR)数据库来生成耳机回放信号。本公开的一个非限制性和示例性实施例提供当在双声道渲染器中使用时的高空间分辨率和低计算复杂度。在一个一般方面,这里公开的技术的特征在于一种在给定多个音频源信号的情况下利用相关联的元数据和双声道房间脉冲响应(BRIR)数据库、有效地生成双声道耳机回放信号的方法,其中所述音频源信号可以是基于信道的、基于对象的或两种信号的混合。该方法包括以下步骤:(a)计算相对于用户头部的位置和面向方向的、音频源的瞬时相对于头部的位置,(b)根据所述音频源的所述瞬时相对于头部的位置,对源信号以分层方式进行分组,(c)对用于渲染的BRIR进行参数化(或者,将用于渲染的BRIR划分为多个块),(d)将每个要渲染的源信号划分为多个块和帧,(e)对标识有分层分组结果的经参数化的(经划分的)BRIR序列求平均,以及(f)对标识有分层分组结果的经划分的源信号进行缩混(downmixing)(平均)。通过使用本公开的实施例中的方法,使用头部跟踪使能的头戴式设备来渲染快速移动的对象是有用的。应当注意,一般或特定实施例可以实现为系统、方法、集成电路、计算机程序、存储介质或其任何选择性组合。根据说明书和附图,所公开的实施例的其它益处和优点将变得显而易见。可以通过说明书和附图的各种实施例和特征单独地获得益处和/或优点,不需要提供全部以获得这些益处和/或优点中的一个或多个。附图说明图1示出了MPEG-H3D音频标准中将基于信道的和基于对象的信号渲染到双声道端的框图。图2示出了MPEG-H3D音频中双声道渲染器的处理流程的框图。图3示出了所提出的快速双声道渲染器的框图。图4示出了源分组的图示。图5示出了将BRIR参数化为块和帧的图示。图6示出了在不同的扩散块上应用不同的截止频率的图示。图7示出了双声道渲染器核心的框图。图8示出了基于分组的逐帧双声道化的框图。具体实施方式下面将参考附图描述本公开的实施例中的配置和操作。以下实施例仅用于说明各种创造性步骤的原理。应理解,本文描述的细节的变型对于本领域其他技术人员将是显而易见的。<形成本公开的基础的基本知识>作者研究了使用MPEG-H3D音频标准来解决双声道渲染器所面临的问题的方法作为实例。<问题1:空间分辨率受到信道/对象-信道-双声道渲染框架中的虚拟扬声器配置的限制>间接双声道渲染在诸如在MPEG-H3D音频标准中的3D音频系统中被广泛采用,所述间接双声道渲染经由首先将基于信道的和基于对象的输入信号转换为虚拟扬声器信号,然后转换为双声道信号。然而,这样的框架导致空间分辨率是固定的,并且受到渲染路径中间的虚拟扬声器的配置的限制。例如,当虚拟扬声器被设置为5.1或7.1配置时,空间分辨率受到少量虚拟扬声器的约束,导致用户感知仅来自这些固定方向的声音。另外,双声道渲染器(103)中使用的BRIR数据库与虚拟听音室中的虚拟扬声器布局相关联。该事实偏离了BRIR应当是与生产场景相关联的BRIR(如果这样的信息能够从解码的比特流中获得)的预期情况。改善空间分辨率的方式包括增加扬声器的数量,例如增加到22.2配置,或者使用对象-双声道直接渲染方案。然而,当使用BRIR时,随着用于双声道化的输入信号的数量增加,这些方式可能导致高计算复杂度问题。将在以下段落中说明计算复杂度问题。<问题2:使用BRIR的双声道渲染中的高计算复杂度>由于BRIR通常是长脉冲序列的事实,BRIR和信号之间的直接卷积是高计算要求的。因此,许多双声道渲染器寻求计算复杂度和空间质量之间的折衷。图2示出了MPEG-H3D音频中双声道渲染器(103)的处理流程。这种双声道渲染器将BRIR拆分成“直接和早期回响(reflections)”和“后期混响(reverberation)”部分和处理,这两部分分开。因为“直接和早期回响”部分保留最多空间信息,因此每个BRIR的这部分在(201)中分别与信号进行卷积。另一方面,由于BRIR的“后期混响”部分包含较少的空间信息,所以可以将信号缩混(202)到一个信道中,使得在(203)中利用缩混的信道仅需要执行一次卷积。尽管该方法减少了后期混响处理(203)中的计算负荷,但是对于直接和早期部分处理(201),计算复杂度仍然可能非常高。这是因为在直接和早期部分处理(201)中分别处理每个源信号,并且随着本文档来自技高网
...

【技术保护点】
1.一种在给定多个音频源信号的情况下利用相关联的元数据和双声道房间脉冲响应BRIR数据库生成双声道耳机回放信号的方法,其中所述音频源信号能够是基于信道的、基于对象的、或者是两种信号的混合,所述方法包括:计算相对于用户头部的位置和面向方向的、所述音频源的瞬时相对于头部位置;根据所述音频源的所述瞬时相对于头部位置,以分层方式对所述源信号进行分组;对要用于渲染的BRIR进行参数化;将要渲染的每个源信号划分为多个块和帧;对标识有分层分组结果的、经参数化的BRIR序列求平均;以及对标识有所述分层分组结果的、经划分的源信号进行缩混。

【技术特征摘要】
【国外来华专利技术】2016.10.28 JP 2016-2118031.一种在给定多个音频源信号的情况下利用相关联的元数据和双声道房间脉冲响应BRIR数据库生成双声道耳机回放信号的方法,其中所述音频源信号能够是基于信道的、基于对象的、或者是两种信号的混合,所述方法包括:计算相对于用户头部的位置和面向方向的、所述音频源的瞬时相对于头部位置;根据所述音频源的所述瞬时相对于头部位置,以分层方式对所述源信号进行分组;对要用于渲染的BRIR进行参数化;将要渲染的每个源信号划分为多个块和帧;对标识有分层分组结果的、经参数化的BRIR序列求平均;以及对标识有所述分层分组结果的、经划分的源信号进行缩混。2.根据权利要求1所述的方法,其中,在给定源元数据和用户头部跟踪数据的情况下,对于所述源信号的每个时间帧/块,立即计算所述相对于头部的源位置。3.根据权利要求1所述的方法,其中,在给定对于每个帧所计算的瞬时相对的源位置的情况下,以具有不同分组分辨率的多个层来分...

【专利技术属性】
技术研发人员:江原宏幸吴恺SH尼奥
申请(专利权)人:松下电器美国知识产权公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1