使用局部二进制模式进行声学情境辨识的方法和设备技术

技术编号:14056074 阅读:125 留言:0更新日期:2016-11-27 01:09
各种示例性方面是针对声学情境辨识设备和方法,其涉及隔离和识别声学环境的情境。在一个示例性实施例中,将源音频转换成音频频谱图,每一频谱图指示一段时间。分析这一系列频谱图以识别在某一时间段中的音频模式,所述音频模式指示所述源音频的环境情境。在本发明专利技术的许多实施例中,声学情境辨识还包括比较所述所识别的音频模式与已知环境情境。

【技术实现步骤摘要】

本专利技术的各方面总体上涉及声音处理。具体来说,本专利技术提出利用局部二进制模式进行音频场景辨识以识别音频中的模式的方案,音频中的模式可能与例如不同来源、语音、音乐、背景噪声和特定事件相关联。
技术介绍
在计算机电子器件(例如,蜂窝电话)的许多应用中,客户需要高度个性化,包括呈现给用户的数据的高度个性化。本专利技术的实施例是针对通过对在使用经由麦克风接收的音频时装置的使用环境进行情境分析,提供这样的个性化。在这些实施例中,装置能够隔离和识别环境的情境,且向用户呈现至少部分与环境相关联的信息。声音环境的情境可包括各种音频源,所述音频源包括通常与例如办公室、公共汽车或街道等位置相关联的声音。相比其它方法,使用音频场景辨识能提供几种益处,至少包括俘获时间事件的能力,和区分环境中若干同时出现的情境的能力。各种实施例可利用存在于电子装置中的硬件,例如麦克风和足够的处理电路。根据本专利技术已发现,能够俘获时间事件会大大增加装置正确地识别情境的概率。在本专利技术的其它更特定实施例中,装置可进一步降低装置的音频处理要求,由此在装置为移动装置的情况下增加电池寿命,且改进装置的总体性能,因为需要分配给后台功能的处理能力更少。本专利技术的各方面通过将音频变换成音频频谱图(在一或多个时间段的音频的视觉表示),并分析来自同一个音频源的一系列频谱图以识别音频模式,借此将图像处理技术应用于音频频谱,所述音频模式指示接收音频的装置所处的环境情境(例如,办公室、公共汽车、街道等)。本专利技术能够使用与这一系列频谱图相关联的直方图随时间推移映射这些音频
模式,这大大提高了声学辨识性能。在本专利技术的许多实施例中,声学辨识方法可利用预定义码本,其中将所识别的音频模式与已知环境情境进行比较。在比较时,如果所识别的音频模式在码本中的已知音频模式中的一或多个音频模式的相似性阈值内,那么所识别的音频模式将与已知音频模式的环境情境相关联。在这些实施例中,所识别的音频模式可被加入码本,且在码本中与适当环境情境相关联。在另外的其它实施例中,该方法可包括学习阶段,其允许装置的用户利用声学辨识方法来识别音频模式(声学辨识方法可能无法识别),且将音频模式加入码本。
技术实现思路
本专利技术的各种实施例是针对识别音频场景的情境。根据一个此类示例性实施例,公开包括以下步骤的方法。接收指示音频输入的音频信号频谱图,且基于频谱图的邻近像素的比较,构建多个局部二进制模式(LBP)。对于频谱图的多个块中的每一块,创建基于不同LBP在多个块中的对应块中出现的次数的相应LBP直方图。基于LBP直方图与多个码字之间的对应,创建码本直方图。最后,使用机器学习模型,对码本直方图进行分类以识别所接收的音频信号的情境。在本专利技术的另外的其它更特定实施例中,该方法可进一步包括从相应LBP直方图中识别具有k均值算法的LBP直方图的集群,且基于集群产生码字,所述码字为所识别的集群的质心。在某些实施例中,分类和情境识别可实时或近实时进行。本专利技术的其它实施例是针对用于识别音频场景的情境的离线学习阶段(这些所识别的情境可稍后用于实时应用以识别所接收的音频输入的情境)。根据一个此类示例性实施例,公开包括以下步骤的方法。接收指示音频输入的音频信号频谱图,且基于频谱图的邻近像素的比较,构建多个局部二进制模式(LBP)。对于频谱图的多个块中的每一块,创建基于不同LBP在多个块中的对应块中出现的次数的相应LBP直方图。基于用于频谱图的多个块中的每一块的相应LBP直方图,识别LBP直
方图的集群,且基于集群产生用于机器学习模型的码字。本专利技术的许多实施例是针对设备。本专利技术的设备包括音频LBP直方图模块、码本创建模块、直方图映射模块和支持向量机。音频LBP直方图模块接收指示音频输入的音频信号频谱图。基于频谱图的邻近像素的比较,音频LBP直方图模块建构多个局部二进制模式(LBP)。对于频谱图的多个块中的每一块,音频LBP直方图创建相应LBP直方图,所述LBP直方图基于不同LBP在多个块中的对应块中出现的次数。以通信方式耦合到音频LBP直方图模块的码本创建模块从相应LBP直方图中使用k均值算法识别LBP直方图的集群。以通信方式耦合到码本创建模块和音频LBP直方图模块的直方图映射模块基于集群产生码字,所述码字为所识别的集群的质心。基于LBP直方图与多个码字之间的对应,直方图映射模块创建码本直方图。最后,以通信方式耦合到直方图映射模块的支持向量机模块使用机器学习模型对码本直方图进行分类以识别用于所接收的音频信号的情境。以上论述/概述并不意欲描述本专利技术的每一实施例或每一实施方案。下面的图和详细描述也举例说明各种实施例。附图说明结合附图考虑以下详细描述,可以更全面地理解各种示例性实施例,其中:图1A到图1B示出与本专利技术的各种方面一致的功能框图;图2示出与本专利技术的各种方面一致的系统级框图;图3为示出与本专利技术的各种方面一致的从音频信号创建LBP的图;以及图4示出与本专利技术的各种方面一致的功能框图。虽然本文中所论述的各种实施例能够接受各种修改及替代形式,但图式中还是举例示出了各种实施例的各方面并将进行详细描述。然而,应理解,不意图将本专利技术限于所描述的特定实施例。相反,意图涵盖落入包括权利要求书中限定的各方面的本专利技术的范围内的所有修改、等效
物和替代方案。另外,本申请案通篇中所使用的“例子”这个术语只是用做例示而不是用做限制。具体实施方式本专利技术的各方面总体上涉及声音处理。具体来说,本专利技术提出用于经由新颖方法进行音频场景辨识的方案,所述新颖方法利用局部二进制模式来识别音频中的模式,音频中的模式可能与情境(例如,不同来源、语音、音乐、背景噪声和特定事件)相关联。在计算机电子器件(例如,蜂窝电话)的许多应用中,客户需要呈现给用户的数据中的高度个性化。本专利技术的实施例总体上是针对通过对在利用经由内置麦克风(在电子器件上机载的)接收的音频时的装置使用环境进行情境分析,实现这种个性化。在各种实施例中,装置能够隔离和识别环境的情境,且至少部分基于环境调适所呈现的信息。举例来说,装置可被配置成基于所接收的音频信号中的声音的分类(和其它因素,例如当日时间、位置和其它装置可辩别的信息)确定例如用户在下班回家路上的街上。装置接着可显示指示当前交通模式、最佳回家路线、天气状况和该区域当前提供优惠时间特价菜的当地餐馆的信息。由装置识别的情境可包括音响环境的各种可辨别的方面,例如办公室里荧光灯的嗡嗡声、市内公共汽车的排气噪声或城市街道的各种环境噪声(例如汽车喇叭声)等。相比其它方法,使用音频场景辨识提供几种益处,至少包括俘获时间事件的能力,和区分环境中若干同时出现的情境的能力。已发现,能够使在某一时间段中的单个音频事件相关会大大增加肯定地识别音频事件(或情境)的能力。而且,各种实施例的方面特别能用于限制额外硬件,因为许多电子装置已经包括麦克风和足够的处理电路。本专利技术的各方面也是针对降低所接收的音频的处理要求。在许多情况下,理想地将这些实施例嵌入到移动装置中,移动装置的电量是有限的。在本专利技术的其它更特定实施例中,音频处理方法可进一步降低装置
的音频处理要求,由此在装置为移动装置的情况下增加电池寿命,且改进装置的总体性能,因为需要分配给后台功能(包括本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/21/201610304272.html" title="使用局部二进制模式进行声学情境辨识的方法和设备原文来自X技术">使用局部二进制模式进行声学情境辨识的方法和设备</a>

【技术保护点】
一种方法,其特征在于,包括:接收具有邻近像素的音频信号频谱图,所述音频信号频谱图指示音频输入;基于所述频谱图的所述邻近像素的比较构建多个局部二进制模式(LBP);对于所述频谱图的多个块中的每一块,创建相应LBP直方图,所述LBP直方图基于不同LBP在所述多个块中的对应块中出现的次数;从所述相应LBP直方图中识别LBP直方图的集群;对于所述集群中的每一集群,产生表示对应集群的码字;基于所述LBP直方图与表示所述集群的所述码字之间的对应创建码本直方图;以及使用机器学习模型对所述码本直方图进行分类,以识别所述所接收的音频信号频谱图的情境。

【技术特征摘要】
2015.05.12 EP 15290128.61.一种方法,其特征在于,包括:接收具有邻近像素的音频信号频谱图,所述音频信号频谱图指示音频输入;基于所述频谱图的所述邻近像素的比较构建多个局部二进制模式(LBP);对于所述频谱图的多个块中的每一块,创建相应LBP直方图,所述LBP直方图基于不同LBP在所述多个块中的对应块中出现的次数;从所述相应LBP直方图中识别LBP直方图的集群;对于所述集群中的每一集群,产生表示对应集群的码字;基于所述LBP直方图与表示所述集群的所述码字之间的对应创建码本直方图;以及使用机器学习模型对所述码本直方图进行分类,以识别所述所接收的音频信号频谱图的情境。2.根据权利要求1所述的方法,其特征在于,所述频谱图的所述多个块中的每一块的所述相应LBP直方图指示在某一时间段中所述音频输入的声学情境。3.根据权利要求1或2所述的方法,其特征在于,所述音频信号频谱图为所述音频输入的线性频谱表示。4.根据在前的任一项权利要求所述的方法,其特征在于,所述多个LBP指示所述频谱图的所述多个块中的每一块中的像素值、阈值转变和相应像素位置。5.根据在前的任一项权利要求所述的方法,其特征在于,所述码本直方图的创建进一步包括:使用所述LBP直方图与所述码字之间的余弦距离来确定所述LBP直方图与所述码字之间的所述余弦距离,以及基于所述余弦距离将所述LBP直方图指派给所述码本直方图中的码字。6.根据在前的任一项权利要求所述的方法,其特征在于,进一步包
\t括通过使用在所述LBP直方图中的每一LBP直方图的相应块之外的像素值针对所述LBP直方图中的每一LBP直方图进行内插的步骤。7.根据在前的任一项权利要求所述的方法,其特征在于,每一相应LBP直方图为由多个均匀配置与不均匀配置所定义的所述频谱图的所述多个块中的每一块之间的关系的直方图。8.根据在前的任一项权利要求所述的方法,其特征在于,所述频谱图的所述多个块由在0Hz到900Hz频带内的块、在900Hz到2000Hz频带内的块和在2000Hz到8000Hz频带内的块定义。9.根据在前的任一项权利要求所述的方法,其特征在于,所述LBP由如下算法定义: LBP P , R = Σ i = 0 P - 1 f ( g i - μ ) 2 P , f ( x ) = 1 , x ≥ μ 0 ...

【专利技术属性】
技术研发人员:达妮埃莱·巴塔利诺卢多维克·多米尼克·乔尔·勒保罗克劳伦·皮拉蒂尼古拉斯·威廉·大卫·埃文斯
申请(专利权)人:恩智浦有限公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1