当前位置: 首页 > 专利查询>索尼公司专利>正文

声音信号处理设备、声音信号处理方法和程序技术

技术编号:7611693 阅读:179 留言:0更新日期:2012-07-25 23:19
本发明专利技术公开了声音信号处理设备、声音信号处理方法和程序。该声音信号处理设备包括方向估计单元和方向跟踪单元,该方向估计单元针对以预定时间单位划分的每个块检测指示声音信号的声源方向的一个或多个方向点,该方向跟踪单元将多个块之间彼此连接方向点并且检测其中声音活动的片段。方向估计单元包括:生成死角形成滤波器和指向性束形成滤波器的空间滤波器生成单元、生成作为方向和增益之间的对应关系数据的死角形成模式的死角形成模式生成单元、生成作为方向和增益之间的对应关系数据的指向性束形成模式的指向性束形成模式生成单元、以及检测指示声音方向并包含死角形成模式中的局部最小部和指向性束形成模式中的局部最大部的方向点的方向点检测单元。

【技术实现步骤摘要】

本专利技术涉及声音信号处理设备、声音信号处理方法和程序,更具体而言,涉及能够执行伴随有声源方向估计的语音片段(speech section)检测处理的声音信号处理设备、声音信号处理方法和程序。
技术介绍
下文中,作为根据现有技术的技术,将首先整体上对语音片段检测进行说明,随后对利用声源方向估计来处理语音片段检测的方法进行说明。语音片段检测(SD :语音检测)指在经由包括在例如声音信号处理设备中的麦克风输入的声音信号中切割出其中人说话的片段的处理。语音片段检测(SD)也被称为 VAD (话音活动性检测)。在说明书中,从声音信号中切割出人的说话片段的处理将被称为“语音片段检测” 或者简称为“片段检测”。另外,“片段”并不限于语音的片段,而是可以表示其中给定的声源持续活动(持续生成声音)的片段。语音片段检测有时与语音识别、声源提取等一起使用。然而,在任何一种情况下, 在片段检测中都需要高精度。例如,由于在许多声音识别装置中执行诸如对通过片段检测切割出的片段的匹配之类的处理,因此片段检测的精度对语音识别的精度有很大的影响。即,当在实际说话的片段和通过片段检测器检测出的片段之间存在差异时,该差异可能导致错误的识别。另一方面,在声源提取中,有时使用片段检测。例如,当期望从话音和噪声彼此混合的信号中提取出清楚的话音时,或者当期望在两个或更多个人同时说话的环境中提取出一个人的话音时,有必要根据提取声源的方法将输入信号划分为其中仅噪声被生成的片段和其中话音和噪声两者都被生成的片段。因此,为了将输入信号划分为这些片段,使用了片段检测。通过在仅有目标话音单独存在时提取声源,片段检测有时可以被用来减少计算量或者防止适应无声片段。在与声源提取一起使用的语音片段检测中,即使在其中话音和噪声彼此混合或者多个话音彼此混合的输入信号中,也有必要高精度地进行操作。为了满足上述使用,已经作出了各种建议来提高语音片段检测中的精度。这里,关注要使用的麦克风的数目,这些建议被分类为以下两种方法。(I)使用单个麦克风的方法该方法是一种从输入信号中提取表示“话音相似性”(voice likeness)的特征并基于该值执行片段检测的方法。该处理例如在日本专利4182444号中公开。(2)使用多个麦克风的方法该方法是一种利用声源的方向执行片段检测的方法。该处理例如在日本专利4282704号和日本专利申请公开2010-121975号中公开。在本说明书中公开的技术使用上述方法(2),即,使用多个麦克风的方法。因此,下文中,将对使用方法(2)的声源方向的方法的概况进行说明。基于声源方向的语音片段检测的基本思想如下。从麦克风看,从同一声源生成的声音在同一方向上到达。因此,以预定时间间隔估计声源的到达方向(DOA),计算其中同一方向上的声音持续被生成的片段,并且将该片段确定为其中声源活动(声音从声源生成)的片段。当对人的说话执行该处理时,检测出语音片段。下文中,来自声源的到达方向(DOA)也被简称为“声源方向”。当估计声源方向的方法被应用于多个声源中的每一个时,即使多个声源同时活动 (例如,即使当多个人的话音覆盖时),也能够针对每个声源计算片段。例如,在紧接着一个人的说话结束之前,另一人开始说话的情况下,在使用“话音相似性”的方法中,其中这两段说话彼此连接的长区域被检测为一个片段,而在估计方向的方法中,这两个说话的各自片段能够被彼此区分并且能够被检测。将参考图IA至ID对利用声源方向估计检测语音片段的方法的概况进行说明。图IA是示出输入信号(或者也称为“观测信号”)的图像的示图。两人分别说出 “Hello” (你好)和 “Good-by”(再见)。如图IB所示,输入信号被划分为具有预定长度的块。图IB中所示的块11表示所划分的块之一。该块的长度与正常说话的长度相比具有充分短的值。例如,该长度被设置为1/10秒或者1/8秒。对每个块执行声源方向的估计。图IC示出了估计结果。横轴表示时间而纵轴表示方向。该方向指声源方向相对于话音被输入的麦克风的角度(见图2)。图IC中所示的点是方向点(direction point) 12。方向点表示在每个块内计算出的声源方向。下文中,与声源方向相对应的点被称为“方向点”。当使用对多个声源的方向估计方法时,每个块可以具有多个方向点。接下来,在几乎相同的方向上的方向点被在块之间相连。该处理被称为跟踪 (tracking)。图ID示出了跟踪结果,即,相连的方向点。图ID中所示的线15和16表示其中各声源为活动的片段,S卩,话音说话的片段。作为计算每个块中的声源方向的方法,例如,上述日本专利4282704号公开了一种使用“抑制从对象声源到达的信号的波束形成器”的处理。另外,上述日本专利申请公开2010-121975号公开了一种使用MUSIC方法的处理。在每个处理中,基本上都是生成其中将死角(null beam)指向声源的方向的空间滤波器,并且将死角的方向设为声源方向。下文中,将说明MUSIC方法。MUSIC方法是多信号分类(Multiple Signal Classification)的简写。从空间滤波(发送或抑制特定方向上的声音的处理)的角度,MUSIC方法可以被解释为下面两个步骤(SI)和(S2)。MUSIC方法的细节在日本专利申请公开2008-175733号等中公开。(SI)生成一空间滤波器以使得将死角指向给定片段(块)内的生成话音的所有声源的方向。(S2)对于滤波器检查指向性特性(方向和增益之间的关系)并且计算死角被形成的方向。后面将对上述步骤(SI)和步骤(S2)之间在步骤(SI)中生成空间滤波器的方法进行说明。首先,下面将说明步骤(S2)的处理。图2是图示用于生成空间滤波器(图3)的观测信号的记录环境的示图,在空间滤波器中,死角指向声源方向。存在四个麦克风22和两个声源(都是人的话音)。另外,声源方向是从麦克风22的阵列的中心21看的到达方向。当在相对于与麦克风的阵列平行的阵列方向23的垂直方向24上设置为0°时,逆时针方向是正(+)方向并且顺时针方向是负 (-)方向。图3是图示其中将死角指向声源方向的空间滤波器的指向性特性(即,将方向 (横轴)和增益(纵轴)之间的关系进行绘制)的示图。纵轴由对数表示。生成指向性特性绘图的方法将在后面说明。下文中,将死角指向声源的空间滤波器被称为“死角形成滤波器”,并且该滤波器的指向性特性的绘图被称为“死角形成模式”(null beam forming pattern)。在图3所示的死角形成模式31中,增益急剧下降的部分表示灵敏度低的方向,即, 死角。在图中,深的“波谷”存在于方向=-24°的附近区域32和方向=+12°的附近区域 33。这些波谷表示与图2中的声源1、25和声源2、26相对应的死角。即,声源I的方向0 1约为-24°并且声源2的方向0 2约为+12°。换句话说, 与死角形成模式相对应的块分别具有-24°和+12°的方向点。在MUSIC方法中,可以使用增益的倒数而不是增益的对数。例如,在上述日本专利申请公开2008-175733号中使用了倒数。在这种情况下,死角被表示为图上的尖锐“波峰”。 这里,将与本专利技术相比较地说明使用增益的对数的方法。当以这种方式计算每个块的本文档来自技高网...

【技术保护点】

【技术特征摘要】
...

【专利技术属性】
技术研发人员:广江厚夫
申请(专利权)人:索尼公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术