用于处理声音信号的装置和方法制造方法及图纸

技术编号:3045706 阅读:170 留言:0更新日期:2012-04-11 18:40
输入包括来自声源的语音的n个声音信号,并且这n个声音信号是在不同的n个点处采集的。将所述声音信号中的每一个分解成多个频率分量,并且获得包括每个频率分量的相位信息的n条频率分解信息。相对于在n条频率分解信息中彼此不同的m对频率分解信息计算在每个频率分量中的一对频率分解信息之间的相位差,并且产生m条二维数据。在二维数据中,将频率函数设置为第一轴,并且将相位差的函数设置为第二轴。从每条二维数据中检测预定图形,并且产生用于表示所述多条声源候选者信息之间的对应关系的对应信息,同时根据每一个图形产生声源候选者信息。根据该声源候选者信息和该对应信息产生声源信息,例如声源的数量、声源的空间存在范围、语音的存在期间、语音的频率分量结构、关于语音的幅度信息、以及语音的符号内容。

【技术实现步骤摘要】

本专利技术涉及声音信号处理,尤其涉及经由介质传播的声源的数目、声源的方向、来自声源的声波的频率分量等等的估计。
技术介绍
近年来,在机器人听觉研究领域中,提出了一种声源定位和分离系统。在该系统中,在噪声环境下估计多个目标声源的数目和目标声源的方向(声源定位),并且分离和提取每个源声(声源分离)。例如,F.Asano,“dividing sounds”Instrument and Control vol.43,No.4,p325-330(2004)公开了一种方法,其中由M个麦克风在存在背景噪声的环境中观察到N个源声,从其中对每个麦克风的输出执行快速傅里叶变换(FFT)处理的数据中产生空间相关矩阵,并且通过特征值分解来确定具有较大值的主特征值,由此估计作为主特征值的声源的数目N。在这种情况下,利用以下特性,即其中具有方向性的信号(诸如具有方向性的源声)被映射到该主特征值,而背景噪声被映射给所有特征值。即,对应于主特征值的特征矢量变为由来自声源的信号形成的信号部分空间的基本矢量,并且对应于其余特征值的特征矢量变为由背景噪声信号形成的噪声部分空间的基本矢量。可以通过利用噪声部分空间的基本矢量施加多信号分类(MUSIC)方法来搜索每个声源的位置矢量,并且可以通过光束形成装置提取来自声源的声音,其中将方向性给定为作为搜索结果获得的方向。然而,当声源的数目N等于麦克风的数目M时,不能定义噪声部分空间,并且当声源的数目N超过麦克风的数目M时,存在不可检测的声源。因此,可估计的声源的数目低于麦克风的数目M。在这个方法中,对于声源不存在特别大的限制,并且其在数学上是简单的。但是,为了处理许多声源,存在一个限制,即所需要的麦克风的数目高于声源的数目。在K.Nakadai等人的“real time active chase of person by hierarchyintegration of audio-visual information”Japan Society for ArtificalIntellligence AI Challenge Kenkyuukai,SIG-Challenge-0113-5,p35-42,June 2001中,介绍了一种使用一对麦克风执行声源定位和声源分离的方法。在这个方法中,通过把注意力集中在类似人类语音的经由管子(发音物)产生的声音特有的谐波结构(包括基波及其谐波的频率结构),从其中对通过麦克风获得的声音信号执行了傅里叶变换的数据中,检测具有不同基波频率的谐波结构。检测的谐波结构的数目被设置为扬声器的数目;在每个谐波结构中,使用耳间相位差(IPD)和耳间强度差(IID)来估计具有可信度的方向;并且通过谐波结构本身估计每个源声。在这个方法中,可以通过从傅里叶变换检测多个谐波结构来处理不低于麦克风数目的声源的数目。但是,因为根据谐波结构来执行声源数目、方向和声源的估计,所以可以处理的声源限于例如具有谐波结构的人的语音的声音,并且该方法不能适用于各种各样的声音。因此,在传统的方法中,存在自相矛盾的问题,即(1)当不对声源进行限制时,声源数目不能被设置在不低于麦克风数目的数目上,和(2)当声源的数目被设置在不低于麦克风数目的数目上时,对声源存在限制,例如假设为谐波结构。当前,尚没有开发出能够处理不低于麦克风数目的声源数目同时不对声源进行限制的系统。
技术实现思路
鉴于以上所述,本专利技术的一个目的是提供一种用于声源定位和声源分离的声音信号处理装置和声音信号处理方法,其中可以进一步减轻对声源的限制,并且可以处理不低于麦克风数目的声源的数目。根据本专利技术的一个方面,提供了一种声音信号处理装置,该装置包括声音信号输入设备,用于从声源输入包括语音的n个声音信号,所述n个声音信号是在n个不同的点被检测的(n是等于或者大于3的自然数);频率分解设备,用于将每个声音信号分解为多个频率分量,以获得包括每个频率分量的相位信息的n条频率分解信息;二维数据产生设备,用于相对于在n条频率分解信息中彼此不同的m对频率分解信息(m是等于或者大于2的自然数),计算在每个频率分量中的一对频率分解信息之间的相位差,该二维数据产生设备产生m条二维数据,其中在所述二维数据中,频率函数为第一轴,而该相位差的函数为第二轴;图形检测设备,用于从每条二维数据中检测预定的图形;声源候选者信息产生设备,用于根据每个检测的图形,产生声源候选者信息,该声源候选者信息包括多个声源候选者的数目、每个声源候选者的空间存在范围、和来自每个声源候选者的声音信号的频率分量中的至少一个,该声源候选者信息产生设备产生对应信息,该对应信息表示在多条声源候选者信息之间的对应关系;和声源信息产生设备,用于根据由该声源候选者信息产生设备产生的所述声源候选者信息和所述对应信息产生声源信息,该声源信息包括声源的数目、声源的空间存在范围,语音的存在期间、语音的频率分量结构、语音的幅度信息和语音的符号内容中的至少一个。附图说明图1是示出根据本专利技术实施例的声音信号处理装置的功能方框图;图2是示出在声源方向所观察的到达时间差和声源信号的示意图;图3是示出在帧和帧偏移量之间的关系的图; 图4是示出FFT过程和快速傅里叶变换数据的视图;图5是示出二维数据产生单元和图形检测单元的每个内部结构的功能框图;图6是示出计算相位差的步骤的视图;图7是示出计算坐标值的步骤的视图;图8是示出在相同时间的频率和相位之间的比例关系和在相同时间基准的频率和相位之间的比例关系的视图;图9是用于解释相位差的周期性的视图;图10是当存在多个声源时频率相位差的图;图11是用于解释线性霍夫变换的视图;图12是用于解释通过霍夫变换检测来自点分组的直线的视图;图13是示出投票的平均功率函数(计算公式)的视图;图14是示出从实际的声音产生的频率分量、频率相位差图和霍夫投票结果的视图;图15是示出从实际的霍夫投票结果确定的最大位置和直线的视图;图16是示出θ和Δρ之间的关系的视图;图17是示出当两个人同时说话时的频率分量、频率相位差图和霍夫投票结果的视图;图18是示出其中仅仅通过θ轴上的投票值来搜索最大位置的结果的视图;图19是示出其中通过对以Δρ间隔设置的某些点的投票值进行求和来搜索的最大位置的结果的视图;图20是示出图形匹配单元的内部配置的方框图;图21是用于解释方向估计的视图;图22是示出θ和ΔT之间的关系的视图;图23是用于解释当存在多个声源时的声源分量估计(距离阈值方法)的视图; 图24是用于解释最近邻居法的视图;图25是示出用于系数α的计算公式例子和该系数α的曲线的视图;图26是用于解释在时间轴上跟踪的φ的视图;图27是示出由声音信号处理装置执行的处理的流程图;图28是示出频率和可以表示的时间差之间关系的视图;图29是当产生冗余点时的时间差图;图30是示出声源产生单元的内部配置的方框图;图31是根据一个实施例的功能方框图,其中根据本专利技术的声音信号处理功能是通过通用计算机实现的;图32是示出由记录介质执行的实施例的视图,该记录介质中记录有用于实现根据本专利技术的声音信号处理功能的程序;图33是模式性示出在图形匹配单元6中使用不同的麦克风对得到的2个声源流(声源候选)相关联的状态的图。具体实施例方式下面将参本文档来自技高网
...

【技术保护点】
一种声音信号处理装置,包括:声音信号输入设备,用于输入包括来自声源的语音的n个声音信号,所述n个声音信号是在n个不同的点处被检测的,其中n是等于或者大于3的自然数;频率分解设备,用于将所述声音信号的每一个分解为多个频率分量, 以获得包括每个频率分量的相位信息的n条频率分解信息;二维数据产生设备,用于相对于所述n条频率分解信息中的m对彼此不同的频率分解信息,其中m是等于或者大于2的自然数,计算每个频率分量中的一对频率分解信息之间的相位差,所述二维数据产生设 备产生m条二维数据,其中频率函数为第一轴,而所述相位差的函数为第二轴;图形检测设备,用于根据所述二维数据的每一条来检测预定的图形;声源候选者信息产生设备,用于根据所述检测的图形的每一个,产生包括以下内容其中至少之一的声源候选 者信息:多个声源候选者的数目、每个声源候选者的空间存在范围和来自每个声源候选者的声音信号的频率分量,所述声源候选者信息产生设备产生对应信息,该对应信息表示多条声源候选者信息之间的对应关系;和声源信息产生设备,用于根据由所述声源候选者 信息产生设备产生的所述声源候选者信息和所述对应信息,产生包括以下内容其中至少之一的声源信息:声源的数目、声源的空间存在范围、语音的存在期间、语音的频率分量结构、语音的振幅信息和语音的符号内容。...

【技术特征摘要】
JP 2005-3-23 084443/20051.一种声音信号处理装置,包括声音信号输入设备,用于输入包括来自声源的语音的n个声音信号,所述n个声音信号是在n个不同的点处被检测的,其中n是等于或者大于3的自然数;频率分解设备,用于将所述声音信号的每一个分解为多个频率分量,以获得包括每个频率分量的相位信息的n条频率分解信息;二维数据产生设备,用于相对于所述n条频率分解信息中的m对彼此不同的频率分解信息,其中m是等于或者大于2的自然数,计算每个频率分量中的一对频率分解信息之间的相位差,所述二维数据产生设备产生m条二维数据,其中频率函数为第一轴,而所述相位差的函数为第二轴;图形检测设备,用于根据所述二维数据的每一条来检测预定的图形;声源候选者信息产生设备,用于根据所述检测的图形的每一个,产生包括以下内容其中至少之一的声源候选者信息多个声源候选者的数目、每个声源候选者的空间存在范围和来自每个声源候选者的声音信号的频率分量,所述声源候选者信息产生设备产生对应信息,该对应信息表示多条声源候选者信息之间的对应关系;和声源信息产生设备,用于根据由所述声源候选者信息产生设备产生的所述声源候选者信息和所述对应信息,产生包括以下内容其中至少之一的声源信息声源的数目、声源的空间存在范围、语音的存在期间、语音的频率分量结构、语音的振幅信息和语音的符号内容。2.根据权利要求1的声音信号处理装置,其中,所述二维数据是由所述频率分量和所述相位差确定的点的坐标值的集合,所述频率分量和所述相位差位于二维坐标系上,其中所述频率的标量倍数为所述第一轴,而所述相位差的标量倍数为所述第二轴。3.根据权利要求1的声音信号处理装置,其中,所述二维数据是由所述频率分量和所述相位差确定的点的坐标值的集合,所述频率分量和所述相位差位于二维坐标系上,其中所述频率的标量倍数为所述第一轴,而从所述相位差导出的到达时间差为所述第二轴。4.根据权利要求1的声音信号处理装置,其中,所述图形检测设备检测直线作为所述图形。5.根据权利要求4的声音信号处理装置,其中,所述二维数据是由所述频率分量和所述相位差确定的点的坐标值的集合,所述频率分量和所述相位差位于具有所述第一轴和所述第二轴的二维坐标系上,所述图形检测设备包括投票设备,所述投票设备通过对每个点进行线性霍夫变换以在投票空间中进行投票,以及所述图形检测设备通过在所述投票产生的投票分布中检测投票数量不小于预定阈值的峰值位置来检测所述直线。6.根据权利要求4的声音信号处理装置,其中,所述二维数据是由所述频率分量和从所述相位差导出的到达时间差确定的点的坐标值的集合,所述频率分量和从所述相位差导出的到达时间差位于具有所述第一轴和所述第二轴的二维坐标系上,所述图形检测设备包括投票设备,所述投票设备对在预定的方向中的每个点进行霍夫变换以进行投票,以及所述图形检测设备通过从由所述投票产生的投票分布中检测投票数量不小于预定阈值的峰值位置来检测所述直线。7.根据权利要求5的声音信号处理装置,其中,所述投票设备在所述投票空间中投票一个固定值。8.根据权利要求5的声音信号处理装置,其中,所述投票设备在所述投票空间中投票根据对应于所述点的频率的功率值计算的数值。9.根据权利要求5的声音信号处理装置,其中,当在探测直线的过程中从所述投票分布中检测投票数量不小于预定阈值的峰值位置时,所述图形检测设备仅仅在该投票空间的位置上检测该峰值位置,该投票空间的位置对应于穿过二维坐标系上的特定位置的所述直线。10.根据权利要求5的声音信号处理装置,其中,当在探测直线的过程中从所述投票分布中检测投票数量不小于预定阈值的峰值位置时,为了探测多个平行直线,该直线探测器件计算相应于多个平行直线的投票总量来探测具有不小于阈值的所述投票总量的峰值位置,所述多个平行直线具有相同倾角,且彼此分离开根据所述倾角计算的预定距离。11.根据权利要求1的声音信号处理装置,其中,所述声源候选者信息产生设备在所述声源候选者的每一个中评价在时间轴方向上的连续性,以及所述声源候选者信息产生设备通过使连续期间最长的声源候选者彼此对应来产生所述对应信息。12.根据权利要求5的声音信号处理装置,其中,所述声源候选者信息产生设备在所述声源候选者的每一个中评价在由所述图形检测设备检测的图形的时间轴方向上的所述总投票值,和所述声源候选者信息产生设备通过使所述总投票值最...

【专利技术属性】
技术研发人员:铃木薰古贺敏之
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利