使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的概念制造技术

技术编号:24043990 阅读:68 留言:0更新日期:2020-05-07 04:21
一种用于生成经增强的声场描述的装置,包括:声场生成器(100),用于生成至少一个声场描述,至少一个声场描述指示关于至少一个参考位置的声场;以及元数据生成器(110),用于生成与声场的空间信息相关的元数据,其中,至少一个声场描述和元数据构成经增强的声场描述。元数据可以为全频带或子频带(即,时间频率区间)中的将距离信息与方向相关联的深度图。

The concept of using deep extended Dirac or other techniques to generate enhanced or modified field descriptions

【技术实现步骤摘要】
【国外来华专利技术】使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的概念本专利技术涉及音频处理,并且特别是,涉及关于诸如麦克风或虚拟麦克风位置的参考位置限定的声场的音频处理。高保真度立体声响复制(Ambisonics)信号包括声场的截断球谐波分解。高保真度立体声响复制有不同的风格。存在“传统的”高保真度立体声响复制[31],其现在被称为“一阶高保真度立体声响复制(FOA、First-OrderAmbisonics)”并且包括四个信号(即,一个全向信号和多达三个8字形定向信号)。最近的高保真度立体声响复制变体被称为“更高阶的高保真度立体声响复制(HOA、Higher-OrderAmbisonics)”,并且以携带更多信号为代价而提供经增强的空间分辨率和更大的聆听者最佳位置区域。通常,完全定义的N阶HOA表示由(N+1)2个信号组成。与高保真度立体声响复制理念相关,已经设想到定向音频编码(DirAC、DirectionalAudioCoding)表示,以以更紧凑的参数样式表示FOA或HOA声音场景。更具体地,空间声音场景由一个(或多个)发送的音频声道本文档来自技高网...

【技术保护点】
1.一种用于生成经增强的声场描述的装置,包括:/n声场生成器(100),用于生成至少一个声场描述,所述至少一个声场描述指示关于至少一个参考位置的声场;以及/n元数据生成器(110),用于生成与所述声场的空间信息相关的元数据;/n其中,所述至少一个声场描述和所述元数据构成所述经增强的声场描述。/n

【技术特征摘要】
【国外来华专利技术】20170714 EP 17181481.71.一种用于生成经增强的声场描述的装置,包括:
声场生成器(100),用于生成至少一个声场描述,所述至少一个声场描述指示关于至少一个参考位置的声场;以及
元数据生成器(110),用于生成与所述声场的空间信息相关的元数据;
其中,所述至少一个声场描述和所述元数据构成所述经增强的声场描述。


2.如权利要求1所述的装置,
其中所述声场生成器(100)被配置为生成具有不同时间-频率区间的一个或多个降混信号和各自方向数据以及可选的扩散数据的声场的DirAC描述;以及
其中所述元数据生成器(110)被配置为生成不同时间-频率区间的附加的各自位置或深度信息作为所述元数据。


3.如权利要求2所述的装置,
其中所述声场生成器(100)被配置为从所述声场生成器(100)所使用的音频信号或从与所述音频信号相关联的视频信号或从立体(三维)成像/视频或光场技术中所使用的深度图或从计算机图形场景的几何信息估计所述深度信息。


4.如前述权利要求中一项所述的装置,
其中所述元数据生成器(110)被配置为生成包括对于不同方向数据信息(322)的对应距离信息(324)的深度图(320)作为与空间信息相关的数据,所述不同方向数据信息(322)指示不同方向。


5.如前述权利要求中一项所述的装置,还包括:
输出界面(120),用于生成输出信号用于传输或存储,所述输出信号包括对于时间帧(302,304,306)的从所述声场以及时间帧(302,304,306)的空间信息(310,320)得出的一个或多个音频信号。


6.如前述权利要求中一项所述的装置,
其中所述声场生成器被配置为从所述声场得出方向数据(314),所述方向数据是指针对时间段或频率区间的声音的到达方向,以及,其中所述元数据生成器(110)被配置为得出空间信息作为将距离信息与所述方向数据相关联的数据项(324)。


7.如权利要求6所述的装置,
其中所述声场生成器被配置为针对所述声场描述的每个时间帧的不同频率区间得出所述方向数据(322),
其中所述元数据生成器被配置为针对所述时间帧得出将距离信息与所述方向数据相关联的所述数据项(324),以及
其中输出界面(120)被配置为生成输出信号,使得所述时间帧的数据项(324)被链接至所述不同频率区间的方向数据。


8.如前述权利要求中一项所述的装置,
其中所述空间信息为包括多个到达方向数据项(322)和多个关联距离(324)的深度图(320),使得所述多个到达方向数据项中的每个到达方向具有关联距离。


9.如前述权利要求中一项所述的装置,
其中所述声场生成器被配置为针对所述声场的时间帧的多个频率区间生成扩散信息(316),以及
其中所述元数据生成器(110)被配置为仅当频率区间的扩散值低于扩散阈值时针对所述频率区间生成距离信息,或其中所述元数据生成器(110)被配置为仅当频率区间的扩散值低于阈值扩散值时生成与预定值不同的距离元数据。


10.一种用于从声场描述和与声场描述的空间信息相关的元数据生成经修改的声场描述的装置,包括:
声场计算器(420),用于使用所述空间信息、所述声场描述以及指示从参考位置到不同参考位置的平移的平移信息,计算经修改的声场。


11.如权利要求10所述的装置,
其中所述声场计算器(420)被配置为,
针对作为所述声场描述的DirAC描述,使用方向数据、深度信息以及所述平移信息,计算不同时间-频率区间的经修改的方向数据,以及
使用所述经修改的方向数据,将所述DirAC描述渲染至包括多个音频声道的声音描述;或者使用时间-频率区间的所述经修改的方向数据而不是所述方向数据、以及可选的与所述DirAC描述中所包括的相同的扩散数据,传输或存储所述DirAC描述。


12.如权利要求10或11所述的装置,其中所述声场计算器(420)被配置为,针对时间-频率区间,确定维持所述方向数据,或基于时间频率区间的扩散数据计算经修改的方向数据,其中仅针对指示低于预定义或自适应扩散等级的扩散性的扩散数据计算经修改的方向数据。


13.如权利要求10至12中一项所述的装置,还包括:
平移界面(410),用于提供所述平移信息或旋转信息,所述旋转信息指示针对所述经修改的声场的预期聆听者的旋转;
元数据提供器(402,400),用于将所述元数据提供给所述声场计算器(420);
声场提供器(404,400),用于将所述声场描述提供给所述声场计算器(420);以及
输出界面(421),用于输出包括所述经修改的声场描述和经修改的元数据的所述经修改的声场,所述经修改的元数据是使用所述平移信息从所述元数据得出的;或者用于输出多个扬声器声道,每个扬声器声道与预定义扬声器位置相关;或者用于输出所述经修改的声场的双耳表示。


14.如权利要求10至13中一项所述的装置,
其中所述声场描述包括多个声场分量,所述多个声场分量包括全向分量和至少一个定向分量;
其中所述声场计算器包括:
声场分析器(422),用于分析所述声场分量,以针对不同频率区间得出到达方向信息;
平移变换器(423),用于使用方向信息和元数据,计算每个频率区间的经修改的到达方向信息,所述元数据包括针对频率区间将距离信息(324)与到达方向信息(322)相关联的深度图(320);以及
距离补偿器,用于使用距离补偿信息计算所述经修改的声场,所述距离补偿信息取决于所述频率区间的所述深度图(320)提供的距离以及与频率区间相关联的新距离,所述新距离与所述经修改的到达方向信息相关。


15.如权利要求10至14中一项所述的装置,其中所述声场计算器(420)被配置为,
计算(1104)从所述参考位置指向通过所述声场的分析81102)所获得的声源(510)的第一向量;
使用所述第一向量和所述平移信息计算(1106)从所述不同参考位置(500)指向所述声源(510)的第二向量,所述平移...

【专利技术属性】
技术研发人员:于尔根·赫勒伊曼纽尔·哈毕兹阿克塞尔·普林格奥利弗·蒂尔加特法比安·库赤
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1