用于处理多声道音频信号的装置和方法制造方法及图纸

技术编号：39991055 阅读：11 留言：0更新日期：2024-01-09 02:17

一种用于处理音频的装置包括：至少一个处理器，该处理器被配置为从比特流获得下混合音频信号，从比特流获得下混合相关信息，通过使用下混合相关信息来对下混合相关信息进行解混合，以及基于解混合的音频信号来重建包括至少一帧的音频信号。下混合相关信息是通过使用音频场景类型以帧为单位生成的信息。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及处理多声道音频信号的领域。更具体地，本公开涉及处理来自多声道音频信号的较低声道布局(例如，收听者前方的三维(3d)音频声道布局)的音频信号的领域。本公开涉及根据音频场景类型对多声道音频信号执行下混合处理或上混合处理的领域。此外，本公开涉及根据高度声道的音频信号的能量值对多声道音频信号执行下混合处理或上混合处理的领域。

技术介绍

1、音频信号通常是二维(2d)音频信号，比如2声道音频信号、5.1声道音频信号、7.1声道音频信号和9.1声道音频信号。

2、然而，由于音频信息在高度方向上的不确定性，可能需要从2d音频信号生成三维(3d)音频信号(n声道音频信号或多声道音频信号，其中n是大于2的整数)以提供声音的空间3d效果。

3、在针对3d音频信号的传统声道布局中，声道被全向地布置在收听者周围。然而，随着机顶盒(ott)服务的扩展、电视(tv)分辨率的增加、以及比如平板电脑等电子设备屏幕的扩大，观众对想要体验沉浸式声音(比如家庭环境中的影院内容)的需求日益增长。因此，需要处理3d音频声道布局(收听者前方的3d音频声道布局)的音频信号，其中考虑到对象(声源)在屏幕上的声像(sound image)表现，声道被布置在收听者前方。

4、此外，在传统的3d音频信号处理系统的情况下，已经对3d音频信号的每个独立声道的独立音频信号进行了编码/解码。具体地，为了在重建3d音频信号之后重建二维(2d)音频信号(比如传统的立体声音频信号)，需要对重建的3d音频信号进行下混合。

技术实现思路

1、技术问题

2、本公开的实施例提供了对多声道音频信号的处理以支持收听者前方的三维(3d)音频声道布局。

3、问题的解决方案

4、根据本公开的一个方面，一种处理音频的方法包括：识别音频信号的音频场景类型，该音频信号包括至少一帧；以帧为单位确定下混合相关信息，该下混合相关信息对应于音频场景类型；通过使用下混合相关信息来对音频信号进行下混合；以及发送下混合音频信号和下混合相关信息。

5、音频场景类型的识别可以包括：从音频信号获得中心声道音频信号；从所获得的中心声道音频信号中识别对话类型；从音频信号获得前声道音频信号和侧声道音频信号；基于前声道音频信号和侧声道音频信号识别声音效果类型；以及基于所识别的对话类型和所识别的声音效果类型中的至少一个来识别音频场景类型。

6、对话类型的识别可以包括：通过使用用于识别对话类型的第一神经网络来识别对话类型；当通过使用第一神经网络识别出的对话类型的概率值大于第一对话类型的预定第一概率值时，将对话类型识别为第一对话类型；以及当通过使用第一神经网络识别出的对话类型的概率值小于或等于预定的第一概率值时，将对话类型识别为默认对话类型。

7、声音效果类型的识别可以包括：通过使用用于识别声音效果类型的第二神经网络来识别声音效果类型；当通过使用第二神经网络识别出的声音效果类型的概率值大于第一声音效果类型的预定第二概率值时，将声音效果类型识别为第一声音效果类型；以及当通过使用第二神经网络识别出的声音效果类型的概率值小于或等于预定的第二概率值时，将声音效果类型识别为默认声音效果类型。

8、基于所识别的对话类型或所识别的声音效果类型中的至少一个来识别音频场景类型可以包括：当所识别的对话类型是第一对话类型时，将音频场景类型识别为第一对话类型；当所识别的声音效果类型是第一声音效果类型时，将音频场景类型识别为第一声音效果类型；以及当所识别的对话类型是默认类型并且所识别的声音效果类型是默认类型时，将音频场景类型识别为默认类型。

9、发送的下混合相关信息可以包括指示多个音频场景类型之一的索引信息。

10、该方法还可以包括：检测声源对象；以及基于关于检测到的声源对象的信息，识别用于从环绕声道混合到高度声道的附加权重参数，其中，下混合相关信息还包括附加权重参数。

11、该方法还可以包括：从音频信号中识别高度声道音频信号的能量值；从音频信号中识别环绕声道音频信号的能量值；以及基于所识别的高度声道音频信号的能量值和所识别的环绕声道音频信号的能量值，识别用于从环绕声道混合到高度声道的附加权重参数，其中，下混合相关信息还包括附加权重参数。

12、附加权重参数的识别可以包括：当高度声道音频信号的能量值大于预定的第一值并且高度声道音频信号的能量值与环绕声道音频信号的能量值的比率大于预定的第二值时，将附加权重参数识别为第一值；以及当高度声道音频信号的能量值小于或等于预定的第一值或者该比率小于或等于预定的第二值时，将附加权重参数识别为第二值。

13、附加权重参数的识别可以包括：基于音频信号的音频内容内的权重目标比率来识别音频信号的至少一个时间段的权重级别；以及识别对应于该权重级别的附加权重参数，并且其中，音频信号的第一时间段与音频信号的第二时间段之间的边界段的权重具有第一时间段中除边界段之外的剩余段的权重与第二时间段中除边界段之外的剩余段的权重之间的值。

14、下混合可以包括：识别对应于音频场景类型的下混合简档；根据下混合简档获得用于从至少一个第一声道的第一音频信号混合到第二声道的第二音频信号的下混合权重参数；以及基于所获得的下混合权重参数来对音频信号进行下混合，并且该下混合权重参数可以对应于先前确定的音频场景类型。

15、声源对象的检测可以包括：基于音频信号的声道之间的相关性和延迟来识别声源对象的移动和声源对象的方向；以及通过使用基于高斯混合模型的对象估计概率模型从音频信号中识别声源对象的类型和声源对象的特性，其中，关于检测到的声源对象的信息包括关于声源对象的移动、声源对象的方向、声源对象的类型、或声源对象的特性中的至少一个的信息，并且其中，识别附加权重参数包括基于声源对象的移动、声源对象的方向、声源对象的类型、或声源对象的特性中的至少一个来识别用于从环绕声道混合到高度声道的附加权重参数。

16、根据本公开的一个方面，一种处理音频的方法包括：从比特流中获得下混合音频信号；从比特流获得下混合相关信息，其中，该下混合相关信息通过使用音频场景类型以帧为单位生成；通过使用下混合相关信息对下混合音频信号进行解混合；以及基于解混合的音频信号重建包括至少一帧的音频信号。

17、音频场景类型可以基于对话类型或声音效果类型中的至少一个来识别。

18、音频信号可以包括上混合声道组音频信号，其中，上混合声道组音频信号包括至少一个上混合声道的上混合声道音频信号，并且其中，上混合声道音频信号包括通过从至少一个第一声道的第一音频信号解混合而获得的第二音频信号。

19、下混合相关信息还可以包括关于用于从高度声道解混合到环绕声道的附加权重参数的信息，音频信号的重建可以包括通过使用下混合权重参数和关于附加权重参数的信息来重建音频信号。

20、根据本公开的一个方面，一种用于处理音频的装置包括被配置为执行一个或多个指令的至少一个处理本文档来自技高网...

【技术保护点】

1.一种处理音频的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，识别所述音频场景类型包括：

3.根据权利要求2所述的方法，其中，识别所述对话类型包括：

4.根据权利要求3所述的方法，其中，所述声音效果类型的识别包括：

5.根据权利要求2所述的方法，其中，基于所识别的对话类型或所识别的声音效果类型中的至少一个来识别所述音频场景类型包括：

6.根据权利要求1所述的方法，还包括：

7.根据权利要求1所述的方法，还包括：

8.根据权利要求7所述的方法，其中，所述附加权重参数的识别包括：

9.根据权利要求7所述的方法，其中，所述附加权重参数的识别包括：

10.根据权利要求6所述的方法，其中，所述声源对象的检测包括：

11.一种处理音频的方法，所述方法包括：

12.根据权利要求11所述的方法，其中，所述音频场景类型基于对话类型或声音效果类型中的至少一个被识别。

13.根据权利要求12所述的方法，其中，所述音频信号包括上混合声道组音频信号，

14.根据权利要求11所述的方法，其中，所述下混合相关信息还包括关于用于从高度声道解混合到环绕声道的附加权重参数的信息，以及

15.一种计算机可读记录介质，其上记录有用于实施权利要求1至10中任一项所述的方法的程序。

...

【技术特征摘要】
【国外来华专利技术】