用于音频分析的装置和方法制造方法及图纸

技术编号:32146629 阅读:12 留言:0更新日期:2022-02-08 14:46
一种装置包括接收器(201),其用于接收表示场景的音频的多通道音频信号。提取器(203),其用于通过对多通道信号应用空间滤波来提取至少第一定向音频分量,其中空间滤波取决于多通道音频信号。特征处理器(205)确定第一定向音频分量的一组特征,并且分类器(207)响应于该组特征而从多个音频源类别中确定定向音频分量的第一音频源类别。分配器(209)从第一音频源类别的一组音频源属性中将第一音频源属性分配给第一定向音频分量。该装置可提供在多个通道信号中存在的各个音频源/分量的极为有利的分类和特征化。这对于例如音频事件的可视化是有利的。化是有利的。化是有利的。

【技术实现步骤摘要】
【国外来华专利技术】用于音频分析的装置和方法


[0001]本专利技术涉及一种用于音频分析的装置和方法,具体地但不排他地,涉及对例如视频游戏应用的音频分量进行分类。

技术介绍

[0002]近几十年来,音频应用和服务变得越来越复杂和多样化,尤其是提供各种不同的空间音频应用和体验已经变得司空见惯。
[0003]在许多视听体验和应用中,音频感知变得越来越重要,并且在许多情况下可能被认为很重要,甚至比视觉感知更重要。例如,在视频游戏应用中,尤其是在诸如第一人称射击(FPS)游戏之类的游戏中,用户必须同时使用视觉和听觉感官和感知来定位敌人、识别物体、检测爆炸等。音频场景传达对于准确定位游戏中的角色和对象非常有用的大量信息(例如指向不同声源的方向)。多通道音频允许进行空间音频表示,可以为用户提供更加身临其境的体验。然而,在许多实际场景中,用户可能无法访问多通道渲染系统,而限于渲染仅一个或两个通道(例如经由单个扬声器或立体声设置,例如经由耳机),导致空间音频信息至少部分丢失。
[0004]在一些情况下,音频元素的特性可以被视觉地表示。例如,WO2010/075634A1中已经描述了声音事件可视化系统。这种方法可以显示视觉信息,例如表示不同类型声音的图标。然而,呈现的信息量往往是有限的,增强这些信息以提供更多信息或提供更准确或可靠的信息将是有益的。
[0005]诸如上述声音事件可视化系统之类的应用受益于被提供表征音频元素的信息,并且具体地通过被提供与各个声音元素相关联的声源的信息而受益。然而,从其中不同的声音元素和音频源被组合成单个信号/通道集的音频信号中获得这样的信息是特别困难的。已经提出了许多算法来推导合适的信息,但这些算法往往不是最佳的,并且不能提供所需的尽可能多的数据或尽可能准确的数据。
[0006]因此,改进的方法将是有利的,具体而言,能够改进操作,提高可靠性,增加灵活性,促进实现,促进操作,改善资源利用,对音频元素和/或关联的音频源进行改进的、附加的和/或更准确的音频元素分析和表征,和/或改善性能的方法将是有利的。

技术实现思路

[0007]因此,本专利技术寻求优选地单独或以任何组合的方式减轻、缓解或消除一个或多个上述缺点。
[0008]根据本专利技术的一方面,提供了一种装置,包括:接收器,其用于接收表示场景的音频的多通道音频信号;提取器,其用于通过对所述多通道信号应用空间滤波来提取至少第一定向音频分量,所述空间滤波取决于所述多通道音频信号;特征处理器,其用于确定所述第一定向音频分量的一组特征;分类器,其用于响应于所述一组特征而从多个音频源类别中确定所述第一定向音频分量的第一音频源类别,所述多个音频源类别中的每个音频源类
别与一组一个或多个音频源属性关联;以及分配器,其用于从与所述第一音频源类别关联的一组一个或多个音频源属性中将第一音频源属性分配给所述第一定向音频分量,其中所述提取器包括:分频器,其用于将所述多通道音频信号的音频通道信号划分为多个频率区间信号分量;方向估计器,其用于确定所述多个频率区间信号分量中的每个频率区间信号分量的方向;分组器,其响应于每个频率区间信号分量的所述方向而将频率区间信号分量分为多个组;以及生成器,其用于通过组合一组频率区间信号分量的所述频率区间信号分量来生成定向音频分量。
[0009]本专利技术可以为许多基于音频的应用提供改进的用户体验。该方法可以在许多场景中提供由多通道信号表示的音频场景中的各个音频源的改进的音频分类。本专利技术可以提供被估计为对应于音频场景/多通道信号中的特定音频源的各个音频分量的改进表征。
[0010]该方法可以在许多场景和实施例中提供改进的音频分析并且可以提供改进的和/或附加的信息。在许多实施例中,可以提供更准确和/或可靠的音频信息。
[0011]该方法具体可以提供适合于例如音频事件可视化(例如在第一人称视角游戏)的有利音频表征。
[0012]在许多实施例中,该方法可以提供音频分量的可靠、准确和/或低复杂性表征。
[0013]空间滤波可以取决于多通道信号的音频特性/内容。空间滤波可以生成第一定向音频分量以对应于通过在响应于多通道信号确定的方向上应用波束而提取的波束成形音频分量。空间滤波可以生成第一定向音频分量以对应于在响应于多通道信号确定的方向上形成的波束中的多通道信号中的音频。该方向可以是音频电平增加的方向,并且具体地可以是作为方向的函数的音频电平的局部或全局最大值的方向。
[0014]在许多实施例中,方向可以是角方向并且具体地可以是方位角和/或仰角方向。
[0015]音频源可以是场景中的特定源,例如产生声音的对象。因此,在一些实施例中,一个或多个音频源类别可以是与对象或(至少半)永久音频源相关/关联的类别。然而,音频源也可以是声音的特定时间原因,并且可以是产生声音的事件或活动。
[0016]具体来说,声音的源可以是特定的音频或声音事件。因此,术语音频源包括术语音频事件。在一些实施例中,一个或多个类别可以是与音频事件相关/关联的类别。一个或多个音频源类别可以是音频事件类别。
[0017]每个音频源类别可以表示特定的音频源类型/类/类别。每个音频源类别可以与表示属于该类别的音频源的一组一个或多个音频源属性关联。该组音频源属性可以包括用于音频源类别的标签或描述符。标签或描述符可以是语义描述。在一些实施例中,标签或描述符可以简单地是音频源类别的标识符,例如类别编号。
[0018]第一音频源属性具体可以是第一音频源类别本身的指示(例如标识),或者例如是第一音频源类别本身的标签或描述符。
[0019]分类器可以被布置为根据任何合适的标准或算法将第一音频源类别确定为与最接近地匹配第一定向音频分量的特征的特征相关联的类别。在一些实施例中,分类器可以基于机器学习来执行分类过程。
[0020]分类器可以被布置为响应于与多个音频源类别中的每个音频源类别的一组特征相比较的一组特征而从多个音频源类别中确定第一定向音频分量的第一音频源类别。
[0021]该组特征可以是第一定向音频分量的一组属性。
[0022]类别可以由音频分量的特征的匹配标准定义,由此如果特征满足匹配标准,则音频分量属于该类别。
[0023]音频源属性(特别是与类别关联)也可以称为音频源类别属性。
[0024]提取器包括:分频器,其用于将所述多通道音频信号的音频通道信号划分为多个频率区间信号分量;方向估计器,其用于确定所述多个频率区间信号分量中的每个频率区间信号分量的方向;分组器,其响应于每个频率区间信号分量的所述方向而将频率区间信号分量分为多个组;以及生成器,其用于通过组合一组频率区间信号分量的所述频率区间信号分量来生成定向音频分量。
[0025]空间滤波因此可以通过以下方式实现:将多通道音频信号的音频通道信号划分为多个频率区间信号分量;确定多个频率区间信号分量中的每个频率区间信号分量的方向;响应于每个频率区间信号分量的方向而将频率区间信号分量分为多个组;以及通过组合一组频率区间信号分量的频率区间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,包括:接收器(201),其用于接收表示场景的音频的多通道音频信号;提取器(203),其用于通过对所述多通道信号应用空间滤波来提取至少第一定向音频分量,所述空间滤波取决于所述多通道音频信号;特征处理器(205),其用于确定所述第一定向音频分量的一组特征;分类器(207),其用于响应于所述一组特征而从多个音频源类别中确定所述第一定向音频分量的第一音频源类别,所述多个音频源类别中的每个音频源类别与一组一个或多个音频源属性关联;以及分配器(209),其用于从与所述第一音频源类别关联的一组一个或多个音频源属性中将第一音频源属性分配给所述第一定向音频分量,其中所述提取器(203)包括:分频器(301),其用于将所述多通道音频信号的音频通道信号划分为多个频率区间信号分量;方向估计器(303),其用于确定所述多个频率区间信号分量中的每个频率区间信号分量的方向;分组器(305),其响应于每个频率区间信号分量的所述方向而将频率区间信号分量分为多个组;以及生成器(307),其用于通过组合一组频率区间信号分量的所述频率区间信号分量来生成所述第一定向音频分量。2.根据前述权利要求中任一项所述的装置,还包括用于生成所述场景的图像的图像生成器(105);并且其中所述图像生成器(105)被布置为在所述图像中包括图形元素,所述图形元素的属性取决于所述第一音频源属性。3.根据权利要求2所述的装置,其中所述提取器(203)被布置为生成对所述第一定向音频分量的方向估计,并且所述图像生成器(105)被布置为响应于对所述第一定向音频分量的所述方向估计而确定所述图形元素在所述图像中的位置。4.根据权利要求2所述的装置,其中所述提取器(203)被布置为生成对所述第一定向音频分量的方向估计,并且所述图形元素的属性取决于对所述第一定向音频分量的所述方向估计。5.根据权利要求2至4中任一项所述的装置,其中所述图形元素取决于所述一组特征中的至少一个特征。6.根据前述权利要求中任一项所述的装置,还包括用于根据所述多通道音频信号生成输出音频信号的音频处理器(401),所述音频处理器(401)被布置为响应于所述第一音频源属性而改变所述多通道音频信号的处理。7.根据权利要求6所述的装置,其中所述音频处理器(401)被布置为响应于所述第一音频源属性而改变所述输出音频信号中的所述第一定向音频分量的振幅和位置中的至少一个。8.根据权利要求6或7所述的装置,其中所述音频处理器(401)被布置为通过将频谱掩蔽应用于所述多通道音频信号来确定多个音频分...

【专利技术属性】
技术研发人员:马克西姆
申请(专利权)人:斯蒂尔赛瑞斯法国公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1