使用相似性测度的盲源分离制造技术

技术编号:21781384 阅读:14 留言:0更新日期:2019-08-04 00:35
一种方法包括:接收位于位置的一组麦克风产生音频信号的时刻;确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度;通过使用所述确定的失真测度来确定所述频率分量的相似性测度;以及基于确定的相似性测度来处理所述音频信号。

Blind Source Separation Using Similarity Measure

【技术实现步骤摘要】
【国外来华专利技术】使用相似性测度的盲源分离相关申请的交叉引用本申请要求2017年1月23日提交的标题为“BLINDSOURCESEPARATIONUSINGSIMILARITYMEASURE(使用相似性测度的盲源分离)”的美国专利申请第15/412,812号的优先权,并且是该申请的继续申请,该申请要求2016年12月28日提交的标题为“BLINDSOURCESEPARATIONUSINGSIMILARITYMEASURE(使用相似性测度的盲源分离)”的美国临时专利申请第62/439,824号的优先权,这两个申请的内容通过引用的方式并入本文。本申请还要求2016年12月28日提交的美国临时专利申请第62/439,824号的优先权,其公开内容通过引用的方式全部并入本文。
本文大体上涉及使用相似性测度的盲源分离。
技术介绍
有时对由在会议中(诸如,在专用会议室中)谈话的一组谈话者产生的信号执行基于计算机的音频处理和管理。能够分离与单独的谈话者相关联的语音是有用的。例如,结合语音识别,这将允许完全自动地创建会议的书面记录。结合其它现有技术,这还可以允许了解到特定人员具有特别的心情(例如,快乐、愤怒、悲伤)。该方法将促进减少记录中的噪声。例如,该方法可以具有低计算复杂度和高可靠性。
技术实现思路
在第一方面中,一种方法包括:接收位于位置的一组麦克风产生音频信号的时刻;确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度;通过使用确定的失真测度来确定频率分量的相似性测度,该相似性测度测量针对频率在不同的时刻音频信号的相似性;以及基于确定的相似性测度来处理音频信号。实施方式可以包括以下特征中的任何或者所有特征。确定失真测度包括:在不同的时间确定涉及事件的向量方向性的相关性测度。该相关性测度包括基于内积的距离计算。相似性测度包括内核化相似性测度。该方法进一步包括:向相似性测度应用加权,该加权对应于针对时间对遍及频率分量的带的相对重要性。确定多个相似性测度,该方法进一步包括:基于确定的相似性测度来生成频率分量的相似性矩阵。该方法进一步包括:通过使用生成的相似性矩阵来执行聚类,该聚类指示特定集群是活动的时间段,集群与位于该位置处的声源对应。执行聚类包括:执行基于质心的聚类。执行聚类包括:执行基于范例的聚类。该方法进一步包括:使用聚类在时间上执行解混合。该方法进一步包括:使用聚类作为预处理步骤。该方法进一步包括:为每个频率计算混合矩阵,并且然后通过该混合矩阵来确定解混合矩阵。确定解混合矩阵包括:使用混合矩阵的伪逆。确定解混合矩阵包括:使用最小方差解混合。处理音频信号包括:对参与者进行语音识别。处理音频信号包括:针对来自参与者的音频内容对音频信号执行搜索。在第二方面中,一种计算机程序产品有形地体现在非暂时性存储介质中,该计算机程序产品包括指令,该指令在被执行时使处理器执行操作,这些操作包括:接收位于位置的一组麦克风产生音频信号的时刻;确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度;通过使用确定的失真测度来确定频率分量的相似性测度,该相似性测度测量针对频率在不同的时刻音频信号的相似性;以及基于确定的相似性测度来处理音频信号。在第三方面中,一种系统包括:处理器;以及有形地体现在非暂时性存储介质中的计算机程序产品,该计算机程序产品包括指令,该指令在被执行时使处理器执行操作,这些操作包括:接收位于位置的一组麦克风产生音频信号的时刻;确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度;通过使用确定的失真测度来确定频率分量的相似性测度,该相似性测度测量针对频率在不同的时刻音频信号的相似性;以及基于确定的相似性测度来处理音频信号。实施方式可以包括以下特征。相似性测度包括内核化相似性测度。附图说明图1示出了系统的示例。图2示出了盲源分离组件的示例。图3示出了内核化相似性测度的示例。图4A示出了聚类和解混合的示例。图4B示出了解混合矩阵的示例。图5示出了可以用于实施此处所描述的技术的计算机装置和移动计算机装置的示例。各个附图中的类似附图标记表示类似的元件。具体实施方式本文描述通过使用相似性测度来使音频源分离的示例。一些实施方式为源混合在时间上相对稀疏的典型会议场景提供对一组麦克风信号中的声源的稳健、低复杂度解混合。相似性矩阵可以被定义成表征在频带内在不同时刻的观测值的空间签名的相似性。相似性矩阵的每个条目可以是时频变换的系数对的一组内核化相似性测度的总和。对于相似的时频对,内核化会引起高相似性分辨率,而对于不相似的时频对,内核化会引起低相似性分辨率。借助于近邻传播的聚类可以提供谈话者的分离。在一些实施方式中,单个频带通常可以很好地工作,从而以低计算复杂度提供稳健的性能。集群可以直接用于分离,或者再举一例,集群可以用作针对自适应解混合过程识别源的全局预处理方法,对于随后的较短时间段,考虑到在该时间段内存在对该源的干扰,该自适应解混合过程提取在该段内活动的每个识别到的源。有时使用传感器来观察源信号的混合。盲源分离(BSS)是分离出源信号的技术,其唯一的假设是:这些信号在统计上是独立的。在大多数BSS算法中,附加的假设是:混合是线性的。在一些实施方式中,做出了该假设。例如,使是描述在长度为M的时间段内的P个未知离散时间源信号的复合矩阵。对于Q个麦克风,观测值然后可以被写为:x=As,  (1)其中,A是混合矩阵。方程式(1)可以描述任何线性时不变混合过程,包括卷积混合。对于由麦克风观察的声信号,可以针对时频表示的每个频点(frequencybin)单独编写方程式(1),并且可以激励使用复杂信号。图1示出了系统100的示例。在会议位置102处,若干谈话者104聚集在桌子106周围。可以通过使用传感装置108(诸如,麦克风阵列)来捕获来自一个或者多个谈话者的声音。装置108可以向盲源分离(BSS)模块110传递信号。例如,BSS模块110执行BSS。来自BSS模块110的输出可以被提供至处理模块112。例如,处理模块112可以对音频信号执行音频处理,包括但不限于:语音识别和/或搜索一个或者多个谈话者展示出的特点。可以将处理模块112的输出提供至输出装置114。例如但不限于:可以在监视器上显示有关处理的音频的数据或者其它信息,可以在一个或者多个扬声器上播放该数据或者其它信息,或者可以按照数字形式来存储该数据或者其它信息。用于BSS的一种已知方法是:独立组件分析(ICA)。目的在于在源信号是活动时同时提取独立的源。这种密集活动场景导致相对具有挑战性的分离任务,并且需要许多数据点。对于常用的时频表示,其中,针对每个频点单独对方程式(1)进行求解,密集活动场景通常导致置换模糊:在频率上对分离的信号进行分组的方式是不确定的。ICA方法的缺点尤其在于:其不能处理高斯信号。对于许多应用,可能适当的是:引入除了独立性和线性之外的假设,从而降低分离任务的难度。这促进使用更少的传感器和数据,或者提供提高的稳健性。常用的是:假设混合由非负变量(如用于非负矩阵分解)组成以及假设信号是稀疏的。一些实施方式可以利用稀疏性假设,因为其可以允许找到用于以低计算复杂度使语音信号分离的实用算法。对稀疏性的假设可以一般地应用。为此,可以选择适当的信号表示本文档来自技高网...

【技术保护点】
1.一种方法,包括:接收位于位置处的一组麦克风产生的音频信号的时刻;确定接收的音频信号中的至少一些音频信号的频率分量之间的失真测度;通过使用确定的失真测度来确定所述频率分量的相似性测度,所述相似性测度测量针对频率在不同的时刻的所述音频信号的相似性;以及基于确定的相似性测度来处理所述音频信号。

【技术特征摘要】
【国外来华专利技术】2016.12.28 US 62/439,824;2017.01.23 US 15/412,8121.一种方法,包括:接收位于位置处的一组麦克风产生的音频信号的时刻;确定接收的音频信号中的至少一些音频信号的频率分量之间的失真测度;通过使用确定的失真测度来确定所述频率分量的相似性测度,所述相似性测度测量针对频率在不同的时刻的所述音频信号的相似性;以及基于确定的相似性测度来处理所述音频信号。2.根据权利要求1所述的方法,其中,确定所述失真测度包括:在不同的时间确定涉及事件的向量方向性的相关性测度。3.根据权利要求2所述的方法,其中,所述相关性测度包括基于内积的距离计算。4.根据权利要求1所述的方法,其中,所述相似性测度包括内核化相似性测度。5.根据权利要求1所述的方法,进一步包括:向所述相似性测度应用加权,所述加权对应于针对时间对遍及频率分量的带的相对重要性。6.根据权利要求1所述的方法,其中,确定多个相似性测度,所述方法进一步包括:基于所确定的相似性测度来生成所述频率分量的相似性矩阵。7.根据权利要求6所述的方法,进一步包括:通过使用生成的相似性矩阵来执行聚类,所述聚类指示特定集群是活动的时间段,所述集群与位于所述位置处的声源对应。8.根据权利要求7所述的方法,其中,执行所述聚类包括:执行基于质心的聚类。9.根据权利要求7所述的方法,其中,执行所述聚类包括:执行基于范例的聚类。10.根据权利要求7所述的方法,进一步包括:使用所述聚类在时间上执行解混合。11.根据权利要求7所述的方法,进一步包括:使用所述聚类作为预处理步骤。12.根据权利要求1...

【专利技术属性】
技术研发人员:威廉·巴斯蒂安·克雷杰林施杰
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1