用于处理声音信号的装置和方法制造方法及图纸

技术编号：3045706 阅读：170 留言：0更新日期：2012-04-11 18:40

输入包括来自声源的语音的ｎ个声音信号，并且这ｎ个声音信号是在不同的ｎ个点处采集的。将所述声音信号中的每一个分解成多个频率分量，并且获得包括每个频率分量的相位信息的ｎ条频率分解信息。相对于在ｎ条频率分解信息中彼此不同的ｍ对频率分解信息计算在每个频率分量中的一对频率分解信息之间的相位差，并且产生ｍ条二维数据。在二维数据中，将频率函数设置为第一轴，并且将相位差的函数设置为第二轴。从每条二维数据中检测预定图形，并且产生用于表示所述多条声源候选者信息之间的对应关系的对应信息，同时根据每一个图形产生声源候选者信息。根据该声源候选者信息和该对应信息产生声源信息，例如声源的数量、声源的空间存在范围、语音的存在期间、语音的频率分量结构、关于语音的幅度信息、以及语音的符号内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及声音信号处理，尤其涉及经由介质传播的声源的数目、声源的方向、来自声源的声波的频率分量等等的估计。
技术介绍
近年来，在机器人听觉研究领域中，提出了一种声源定位和分离系统。在该系统中，在噪声环境下估计多个目标声源的数目和目标声源的方向(声源定位)，并且分离和提取每个源声(声源分离)。例如，F.Asano，“dividing sounds”Instrument and Control vol.43，No.4，p325-330(2004)公开了一种方法，其中由M个麦克风在存在背景噪声的环境中观察到N个源声，从其中对每个麦克风的输出执行快速傅里叶变换(FFT)处理的数据中产生空间相关矩阵，并且通过特征值分解来确定具有较大值的主特征值，由此估计作为主特征值的声源的数目N。在这种情况下，利用以下特性，即其中具有方向性的信号(诸如具有方向性的源声)被映射到该主特征值，而背景噪声被映射给所有特征值。即，对应于主特征值的特征矢量变为由来自声源的信号形成的信号部分空间的基本矢量，并且对应于其余特征值的特征矢量变为由背景噪声信号形成的噪声部分空间的基本矢量。可以通过利用噪声部分空间的基本矢量施加多信号分类(MUSIC)方法来搜索每个声源的位置矢量，并且可以通过光束形成装置提取来自声源的声音，其中将方向性给定为作为搜索结果获得的方向。然而，当声源的数目N等于麦克风的数目M时，不能定义噪声部分空间，并且当声源的数目N超过麦克风的数目M时，存在不可检测的声源。因此，可估计的声源的数目低于麦克风的数目M。在这个方法中，对于声源不存在特别大的限制，并且其在数学上是简单的...

【技术保护点】
一种声音信号处理装置，包括：声音信号输入设备，用于输入包括来自声源的语音的ｎ个声音信号，所述ｎ个声音信号是在ｎ个不同的点处被检测的，其中ｎ是等于或者大于３的自然数；频率分解设备，用于将所述声音信号的每一个分解为多个频率分量，以获得包括每个频率分量的相位信息的ｎ条频率分解信息；二维数据产生设备，用于相对于所述ｎ条频率分解信息中的ｍ对彼此不同的频率分解信息，其中ｍ是等于或者大于２的自然数，计算每个频率分量中的一对频率分解信息之间的相位差，所述二维数据产生设备产生ｍ条二维数据，其中频率函数为第一轴，而所述相位差的函数为第二轴；图形检测设备，用于根据所述二维数据的每一条来检测预定的图形；声源候选者信息产生设备，用于根据所述检测的图形的每一个，产生包括以下内容其中至少之一的声源候选者信息：多个声源候选者的数目、每个声源候选者的空间存在范围和来自每个声源候选者的声音信号的频率分量，所述声源候选者信息产生设备产生对应信息，该对应信息表示多条声源候选者信息之间的对应关系；和声源信息产生设备，用于根据由所述声源候选者 ...

【技术特征摘要】
JP 2005-3-23 084443/20051.一种声音信号处理装置，包括声音信号输入设备，用于输入包括来自声源的语音的n个声音信号，所述n个声音信号是在n个不同的点处被检测的，其中n是等于或者大于3的自然数；频率分解设备，用于将所述声音信号的每一个分解为多个频率分量，以获得包括每个频率分量的相位信息的n条频率分解信息；二维数据产生设备，用于相对于所述n条频率分解信息中的m对彼此不同的频率分解信息，其中m是等于或者大于2的自然数，计算每个频率分量中的一对频率分解信息之间的相位差，所述二维数据产生设备产生m条二维数据，其中频率函数为第一轴，而所述相位差的函数为第二轴；图形检测设备，用于根据所述二维数据的每一条来检测预定的图形；声源候选者信息产生设备，用于根据所述检测的图形的每一个，产生包括以下内容其中至少之一的声源候选者信息多个声源候选者的数目、每个声源候选者的空间存在范围和来自每个声源候选者的声音信号的频率分量，所述声源候选者信息产生设备产生对应信息，该对应信息表示多条声源候选者信息之间的对应关系；和声源信息产生设备，用于根据由所述声源候选者信息产生设备产生的所述声源候选者信息和所述对应信息，产生包括以下内容其中至少之一的声源信息声源的数目、声源的空间存在范围、语音的存在期间、语音的频率分量结构、语音的振幅信息和语音的符号内容。2.根据权利要求1的声音信号处理装置，其中，所述二维数据是由所述频率分量和所述相位差确定的点的坐标值的集合，所述频率分量和所述相位差位于二维坐标系上，其中所述频率的标量倍数为所述第一轴，而所述相位差的标量倍数为所述第二轴。3.根据权利要求1的声音信号处理装置，其中，所述二维数据是由所述频率分量和所述相位差确定的点的坐标值的集合，所述频率分量和所述相位差位于二维坐标系上，其中所述频率的标量倍数为所述第一轴，而从所述相位差导出的到达时间差为所述第二轴。4.根据权利要求1的声音信号处理装置，其中，所述图形检测设备检测直线作为所述图形。5.根据权利要求4的声音信号处理装置，其中，所述二维数据是由所述频率分量和所述相位差确定的点的坐标值的集合，所述频率分量和所述相位差位于具有所述第一轴和所述第二轴的二维坐标系上，所述图形检测设备包括投票设备，所述投票设备通过对每个点进行线性霍夫变换以在投票空间中进行投票，以及所述图形检测设备通过在所述投票产生的投票分布中检测投票数量不小于预定阈值的峰值位置来检测所述直线。6.根据权利要求4的声音信号处理装置，其中，所述二维数据是由所述频率分量和从所述相位差导出的到达时间差确定的点的坐标值的集合，所述频率分量和从所述相位差导出的到达时间差位于具有所述第一轴和所述第二轴的二维坐标系上，所述图形检测设备包括投票设备，所述投票设备对在预定的方向中的每个点进行霍夫变换以进行投票，以及所述图形检测设备通过从由所述投票产生的投票分布中检测投票数量不小于预定阈值的峰值位置来检测所述直线。7.根据权利要求5的声音信号处理装置，其中，所述投票设备在所述投票空间中投票一个固定值。8.根据权利要求5的声音信号处理装置，其中，所述投票设备在所述投票空间中投票根据对应于所述点的频率的功率值计算的数值。9.根据权利要求5的声音信号处理装置，其中，当在探测直线的过程中从所述投票分布中检测投票数量不小于预定阈值的峰值位置时，所述图形检测设备仅仅在该投票空间的位置上检测该峰值位置，该投票空间的位置对应于穿过二维坐标系上的特定位置的所述直线。10.根据权利要求5的声音信号处理装置，其中，当在探测直线的过程中从所述投票分布中检测投票数量不小于预定阈值的峰值位置时，为了探测多个平行直线，该直线探测器件计算相应于多个平行直线的投票总量来探测具有不小于阈值的所述投票总量的峰值位置，所述多个平行直线具有相同倾角，且彼此分离开根据所述倾角计算的预定距离。11.根据权利要求1的声音信号处理装置，其中，所述声源候选者信息产生设备在所述声源候选者的每一个中评价在时间轴方向上的连续性，以及所述声源候选者信息产生设备通过使连续期间最长的声源候选者彼此对应来产生所述对应信息。12.根据权利要求5的声音信号处理装置，其中，所述声源候选者信息产生设备在所述声源候选者的每一个中评价在由所述图形检测设备检测的图形的时间轴方向上的所述总投票值，和所述声源候选者信息产生设备通过使所述总投票值最...

【专利技术属性】
技术研发人员：铃木薰，古贺敏之，
申请(专利权)人：株式会社东芝，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人