用于移动设备的具有嵌入式近-远立体声的MASA制造技术

技术编号:32718580 阅读:61 留言:0更新日期:2022-03-20 08:19
一种装置,包括被配置为执行以下操作的部件:接收至少一个通道语音音频信号和与至少一个通道语音音频信号相关联的元数据,该至少一个通道语音音频信号和元数据是从至少一个麦克风音频信号中生成的;以及接收至少一个通道环境音频信号和与至少一个通道环境音频信号相关联的元数据,其中,该至少一个通道环境音频信号和元数据是基于对至少一个麦克风音频信号的参数化分析而生成的,并且该至少一个通道环境音频信号与该至少一个通道语音音频信号相关联;基于该至少一个通道语音音频信号和元数据并进一步基于该至少一个通道环境音频信号和元数据,生成编码多通道音频信号,以使得该编码多通道音频信号使得能够在空间上独立于该至少一个通道环境音频信号地空间呈现该至少一个通道语音音频信号。该至少一个通道语音音频信号。该至少一个通道语音音频信号。

【技术实现步骤摘要】
【国外来华专利技术】用于移动设备的具有嵌入式近

远立体声的MASA


[0001]本申请涉及用于移动设备的空间音频捕获和相关联渲染的装置和方法,但非排他地涉及用于沉浸式语音和音频服务(IVAS)编解码器和用于移动设备的具有嵌入式近

远立体声的元数据辅助空间音频(MASA)的装置和方法。

技术介绍

[0002]沉浸式音频编解码器正被实现,以支持范围从低比特率操作到透明的大量操作点。这种编解码器的示例是沉浸式语音和音频服务(IVAS)编解码器,其被设计为适合于在诸如3GPP 4G/5G网络之类的通信网络上使用。这种沉浸式服务包括例如在诸如沉浸式通信、虚拟现实(VR)、增强现实(AR)和混合现实(MR)之类的应用的沉浸式语音和音频中使用。该音频编解码器被预期处理语音、音乐和通用音频的编码、解码和渲染。此外它还被预期支持基于通道的音频和基于场景的音频输入,包括关于声场和声源的空间信息。该编解码器还被预期以低延迟进行操作,以使能会话服务并在各种传输条件下支持高差错鲁棒性。
[0003]输入信号以所支持的多个格式之一(以及以一些所允许的格式组合)被呈现给IVAS编码器。类似地,预期解码器可以以多个所支持的格式输出音频。
[0004]一些感兴趣的输入格式是元数据辅助空间音频(MASA)、基于对象的音频,尤其是MASA和至少一个对象的组合。元数据辅助空间音频(MASA)是一种参数化空间音频格式和表示。它可以被认为是由“N个通道+空间元数据”组成的表示。它是一种基于场景的音频格式,特别适合于在诸如智能电话之类的实际设备上进行空间音频捕获。这个想法将依据时变和频变的声源方向来描述声音场景。如果没有检测到方向性声源,则音频被描述为扩散。空间元数据是相对于针对每个时频(TF)图块(tile)而指示的至少一个方向来描述的,并且例如可以包括针对每个方向的空间元数据和独立于方向数量的空间元数据。

技术实现思路

[0005]根据第一方面,提供了一种装置,其包括被配置为执行以下操作的部件:接收至少一个通道语音音频信号和与至少一个通道语音音频信号相关联的元数据,该至少一个通道语音音频信号和元数据是从至少一个麦克风音频信号中生成的;接收至少一个通道环境音频信号和与至少一个通道环境音频信号相关联的元数据,其中,该至少一个通道环境音频信号和元数据是基于对至少一个麦克风音频信号的参数化分析而生成的,并且该至少一个通道环境音频信号与该至少一个通道语音音频信号相关联;以及基于该至少一个通道语音音频信号和元数据并进一步基于该至少一个通道环境音频信号和元数据,生成编码多通道音频信号,以使得该编码多通道音频信号使得能够在空间上独立于该至少一个通道环境音频信号地空间呈现该至少一个通道语音音频信号。
[0006]该部件可以进一步被配置为:接收至少一个其他音频对象音频信号,其中,被配置为生成编码多通道音频信号的部件被配置为:进一步基于该至少一个其他音频对象音频信号,生成编码多通道音频信号,以使得该编码多通道音频信号使得能够在空间上独立于至
少一个通道语音音频信号和至少一个通道环境音频信号地空间呈现该至少一个其他音频对象音频信号。
[0007]从其中生成至少一个通道语音音频信号和元数据的至少一个麦克风音频信号和从其中生成至少一个通道环境音频信号和元数据的至少一个麦克风音频信号可以包括:没有公共麦克风的单独的麦克风群组;或者具有至少一个公共麦克风的麦克风群组。
[0008]该部件可以进一步被配置为:接收输入,该输入被配置为控制编码多通道音频信号的生成。
[0009]该部件可以进一步被配置为:基于所确定的与至少一个通道语音音频信号相关联的元数据的位置参数与所分配的近通道渲染通道之间的失配,修改与该至少一个通道语音音频信号相关联的元数据的位置参数,或者改变与该至少一个通道语音音频信号相关联的近通道渲染通道分配。
[0010]被配置为基于至少一个通道语音音频信号和元数据并进一步基于至少一个通道环境音频信号和元数据来生成编码多通道音频信号的部件可以被配置为:获得编码器比特率;选择嵌入式编码级别,并向每个所选择的嵌入式编码级别分配比特率,其中,第一级别与该至少一个通道语音音频信号和元数据相关联,第二级别与该至少一个通道环境音频信号相关联,第三级别与该至少一个通道环境音频信号所关联的元数据相关联;基于所分配的比特率,对该至少一个通道语音音频信号和元数据、该至少一个通道环境音频信号和与该至少一个通道环境音频信号相关联的元数据进行编码。
[0011]该部件可以进一步被配置为:确定能力参数,该能力参数基于以下中的至少一个而被确定:传输通道能力;渲染装置能力,其中,被配置为生成编码多通道音频信号的部件可以被配置为:进一步基于该能力参数,生成编码多通道音频信号。
[0012]被配置为进一步基于能力参数来生成编码多通道音频信号的部件可以被配置为:基于传输通道能力和渲染装置能力中的至少一个,选择嵌入式编码级别,并向每个所选择的嵌入式编码级别分配比特率。
[0013]用于基于参数化分析来生成至少一个通道环境音频信号和元数据的至少一个麦克风音频信号可以包括至少两个麦克风音频信号。
[0014]该部件可以进一步被配置为:输出编码多通道音频信号。
[0015]根据第二方面,提供了一种装置,其包括被配置为执行以下操作的部件:接收嵌入式编码音频信号,该嵌入式编码音频信号包括以下级别的嵌入式音频信号中的至少一个:要被渲染为空间语音场景的至少一个通道语音音频信号和相关联的元数据;要被渲染为近

远立体声场景的至少一个通道语音音频信号和相关联的元数据以及至少一个通道环境音频信号;要被渲染为空间音频场景的至少一个通道语音音频信号和相关联的元数据以及至少一个通道环境音频信号和相关联的空间元数据;以及解码该嵌入式编码音频信号,并输出表示场景的多通道音频信号,以使得该编码多通道音频信号使得能够独立于至少一个通道环境音频信号地空间呈现至少一个通道语音音频信号。
[0016]上述级别的嵌入式音频信号可以进一步包括:要被渲染为空间音频场景的至少一个通道语音音频信号和相关联的元数据以及至少一个通道环境音频信号和相关联的空间元数据、以及至少一个其他音频对象音频信号和相关联的元数据,并且其中,被配置为解码嵌入式编码音频信号并输出表示场景的多通道音频信号的部件可以被配置为:解码并输出
多通道音频信号,以使得该至少一个其他音频对象音频信号的空间呈现在空间上独立于该至少一个通道语音音频信号和该至少一个通道环境音频信号。
[0017]该部件可以进一步被配置为:接收输入,该输入被配置为控制嵌入式编码音频信号的解码和多通道音频信号的输出。
[0018]该输入可以包括能力的切换,其中,被配置为解码嵌入式编码音频信号并输出多通道音频信号的部件可以被配置为:基于该能力的切换,更新该解码和输出。
[0019]该能力的切换可以包括以下中的至少一个:耳塞/耳机配置的确定;头戴式耳机配置的确定;以及扬声器输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,包括被配置为执行以下操作的部件:接收至少一个通道语音音频信号和与所述至少一个通道语音音频信号相关联的元数据,所述至少一个通道语音音频信号和元数据是从至少一个麦克风音频信号中生成的;接收至少一个通道环境音频信号和与所述至少一个通道环境音频信号相关联的元数据,其中,所述至少一个通道环境音频信号和元数据是基于对至少一个麦克风音频信号的分析而生成的,并且所述至少一个通道环境音频信号与所述至少一个通道语音音频信号相关联;基于所述至少一个通道语音音频信号和元数据并进一步基于所述至少一个通道环境音频信号和元数据,生成编码多通道音频信号,以使得所述编码多通道音频信号使得能够在空间上独立于所述至少一个通道环境音频信号地空间呈现所述至少一个通道语音音频信号。2.根据权利要求1所述的装置,其中,所述部件进一步被配置为:接收至少一个其他音频对象音频信号,其中,被配置为生成编码多通道音频信号的所述部件被配置为:进一步基于所述至少一个其他音频对象音频信号,生成所述编码多通道音频信号,以使得所述编码多通道音频信号使得能够在空间上独立于所述至少一个通道语音音频信号和所述至少一个通道环境音频信号地空间呈现所述至少一个其他音频对象音频信号。3.根据权利要求1和2中任一项所述的装置,其中,从其中生成所述至少一个通道语音音频信号和元数据的所述至少一个麦克风音频信号和从其中生成所述至少一个通道环境音频信号和元数据的所述至少一个麦克风音频信号包括以下中的一个:没有公共麦克风的单独的麦克风群组;或者具有至少一个公共麦克风的麦克风群组。4.根据权利要求1至3中任一项所述的装置,其中,所述部件进一步被配置为:接收输入,所述输入被配置为控制所述编码多通道音频信号的生成。5.根据权利要求1至4中任一项所述的装置,其中,所述部件进一步被配置为:基于所确定的与所述至少一个通道语音音频信号相关联的所述元数据的位置参数与所分配的近通道渲染通道之间的失配,修改与所述至少一个通道语音音频信号相关联的所述元数据的所述位置参数,或者改变与所述至少一个通道语音音频信号相关联的近通道渲染通道分配。6.根据权利要求1至5中任一项所述的装置,其中,被配置为基于所述至少一个通道语音音频信号和元数据并进一步基于所述至少一个通道环境音频信号和元数据来生成编码多通道音频信号的所述部件被配置为:获得编码器比特率;选择嵌入式编码级别,并向每个所选择的嵌入式编码级别分配比特率,其中,第一级别与所述至少一个通道语音音频信号和元数据相关联,第二级别与所述至少一个通道环境音频信号相关联,第三级别与所述至少一个通道环境音频信号所关联的元数据相关联;基于所分配的比特率,对所述至少一个通道语音音频信号和元数据、所述至少一个通道环境音频信号和与所述至少一个通道环境音频信号相关联的元数据进行编码。7.根据权利要求1至6中任一项所述的装置,其中,所述部件进一步被配置为:确定能力参数,所述能力参数基于以下中的至少一个而被确定:传输通道能力;
渲染装置能力,其中,被配置为生成编码多通道音频信号的所述部件被配置为:进一步基于所述能力参数,生成编码多通道音频信号。8.根据从属于权利要求6的权利要求7所述的装置,其中,被配置为进一步基于所述能力参数来生成编码多通道音频信号的所述部件被配置为:基于所述传输通道能力和所述渲染装置能力中的至少一个,选择嵌入式编码级别,并向每个所选择的嵌入式编码级别分配比特率。9.根据权利要求1至8中任一项所述的装置,其中,用于基于参数化分析来生成所述至少一个通道环境音频信号和元数据的所述至少一个麦克风音频信号包括至少两个麦克风音频信号。10.根据权利要求1至9中任一项所述的装置,其中,所述部件进一步被配置为:输出所述编码多通道音频信号。11.一种装置,包括被配置为执行以下操作的部件:接收嵌入式编码音频信号,所述嵌入式编码音频信号包括以下级别的嵌入式音频信号中的至少一个:要被渲染为空间语音场景的至少一个通道语音音频信号和相关联的元数据;要被渲染为近

远立体声场景的至少一个通道语音音频信号和相关联的元数据以及至少一个通道环境音频信号;以及要被渲染为空间音频场景的至少一个通道语音音频信号和相关联的元数据以及至少一个通道环境音频信号和相关联的空间元数据;以及解码所述嵌入式编码音频信号,并输出表示所述场景的多通道音频信号,以使得所述多通道音频信号使得能够独立于所述至少一个通道环境通道音频信号地空间呈现所述至少一个通道语音音频信号。12.根据权利要求11所述的装置,其中,所述级别的嵌入式音频信号进一步包括:要被渲染为空间音频场景的至少一个通道语音音频信号和相关联的元数据以及至少一个通道环境音频信号和相关联的空间元数据、以及至少一个其他音频对象音频信号和相关联的元数据,并且其中,被配置为解码所述嵌入式编码音频信号并输出表示所述场景的多通道音频信号的所述部件被配置为:解码并输出多通道音频信号,以使得所述至少一个其他音频对象音频信号的空间呈现在空间上独立于所述至少一个通道语音音频信号和所述至少一个通道环境音频信号。13.根据权利要求11至12中任一项所述的装置,其中,所述部件进一步被配置为:接收输入,所述输入被配置为控制所述嵌入式编码音频信号的解码和所述多通道音频信号的输出。14.根据权利要求13所述的装置,其中,所述输入包括能力的切换,其中,被配置为解码所述嵌入式编码音频信号并输出多通道音频信号的所述部件被...

【专利技术属性】
技术研发人员:L
申请(专利权)人:诺基亚技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1