声音分段设备和方法以及说话者识别系统技术方案

技术编号:8301234 阅读:231 留言:0更新日期:2013-02-07 05:23
本发明专利技术提供一种声音分段设备和方法以及说话者识别系统。该声音分段方法包括多级分段步骤,所述多级分段步骤包括当前声音段分段步骤。所述当前声音段分段步骤包括:确定步骤,确定当前声音段关于分割分数序列是否满足规定条件,所述分割分数序列指示每个候选分割点的信息熵;以及分割步骤,如果确定所述当前声音段满足所述规定条件,则将所述当前声音段分割为至少两个下一级声音段。通过将通过所述分割步骤获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段,以迭代方式执行所述当前声音段分段步骤,直到每一级中的未被分割的声音段都不满足所述规定条件为止。得益于本发明专利技术,不必设置固定的观察窗并且可以降低计算量。

【技术实现步骤摘要】

本专利技术涉及声音分段设备和声音分段方法,以及说话者识别系统。
技术介绍
声音分段是将声音序列(音频序列)分段为多个声音段的技术。声音检测方法通常涉及声音分段处理和 声音分类处理两者。在声音检测方法的一个典型例子中,非静音声音段被检测,并且,每个非静音声音段被分段为多个声音段。然后,对于每个如此获得的声音段,声音分类器对于类别集中的所有声音类别计算分类分数(分类分数表明一个声音段属于一个声音类别的似然性或概率),并且最终输出具有最大分类分数的声音类别作为对于该声音段的声音检测结果。声音分段处理常常在声音检测方法中扮演重要的角色,这是因为声音分段处理的性能直接影响声音分类处理的结果因而直接影响声音检测方法的性能。例如,如果具有不同声音类别的两个或更多个声音段在声音分段处理中被分段为单个声音段,换句话说,如果具有第一声音类别的至少一个声音段在声音分段处理中被埋入在具有第二声音类别的另一个声音段中并且因而被漏检,则与被漏检的声音段对应的第一声音类别当然也在声音分类处理中被漏检,即使声音分类方法本身的性能是高的。另外,当具有第一声音类别的至少一个声音段在声音分段处理中被埋入在具有第二声音类别的另一个声音段中时,甚至有可能不仅漏检第一声音段,而且包含第一声音类别的声音段和第二声音类别的声音段这两者的声音段被分类到既不是第一类别又不是第二类别的类别中。为了防止漏检可能的声音段,在美国专利2008/0255854和2006/0212297中提出了一种声音分段方法,在该声音分段方法中,使用不同的声音分段算法而对于单个声音段得到多于一个的候选分割点。然后,该方法除去无效分割点以得到对于该声音段的最终分割结果。图I示出了美国专利2008/0255854和2006/0212297中的声音分段方法的示意性流程图。根据图I中所示的该方法,对于声音段的观察窗和起始点(该声音段的起始点可以是在前声音段的结束点),使用多于一种的声音分段算法(图I中所示的SEG1、SEG2、. . . SEG N)并且产生候选分割点列表,所述候选分割点列表包括通过这些声音分段算法获得的候选分割点。对于每种所用的声音分段算法,在候选分割点列表中的相应的候选分割点处计算测量值向量。可使用投票方案或似然比测试来去除无效的分割点,并且,剩余的分割点被取作对于当前观察窗的声音段的结束点。在没有可被认为是有效的剩余分割点的情况下,当前观察窗不包含任何分割点,也就是说,未在当前观察窗中观察到该声音段的结束点。美国专利2008/0255854和2006/0212297的目的是使用不同的声音分段算法来获得多于一个的候选分割点,以防止漏检只用某种分段算法可能不能够获得的实际分割点。
技术实现思路
然而,本专利技术的专利技术人发现,在包括如图I所示的美国专利2008/0255854和2006/0212297中的方法的常规声音分段方法中,观察窗的尺寸是固定的,并且必须被事先决定。如果观察窗尺寸被设置得太大,则一些分割点可能被漏检。另一方面,如果观察窗尺寸被设置得太小,则将有太多观察窗要被处理,尽管这些观察窗中的很多可能根本不包含任何分割点,因此,计算量将相当大。因此,观察窗的尺寸必须被谨慎设置。另外,如果在原始声音序列中包含有非常长的声音段和非常短的声音段两者,则不得不花费大的不必要的计算量来获得正确的声音分段。因此,需要能够执行正确的声音分段而无需大的不必要的计算量的新的声音分段方法。为了解决上述的技术问题,本专利技术提供一种声音分段方法,包括多级分段步骤,所述多级分段步骤包括当前声音段分段步骤。所述当前声音段分段步骤包括确定步骤, 确定当前声音段关于分割分数序列是否满足规定条件,所述分割分数序列指示每个候选分割点的信息熵;以及分割步骤,如果确定所述当前声音段满足所述规定条件,则将所述当前声音段分割为至少两个下一级声音段,其中,通过将通过所述分割步骤获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段,以迭代方式执行所述当前声音段分段步骤,直到每一级中的未被分割的声音段都不满足所述规定条件为止。此外,为了解决上述的技术问题,本专利技术提供一种声音分段设备,包括多级分段单元,所述多级分段单元包括当前声音段分段单元。所述当前声音段分段单元包括确定单元,被配置为确定当前声音段关于分割分数序列是否满足规定条件,所述分割分数序列指示每个候选分割点的信息熵;以及分割单元,被配置为如果确定所述当前声音段满足所述规定条件,则将所述当前声音段分割为至少两个下一级声音段,其中,通过将通过所述分割单元获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段,所述当前声音段分段单元以迭代方式起作用,直到每一级中的未被分割的声音段都不满足所述规定条件为止。此外,本专利技术提供一种说话者识别系统,包括存储单元,被配置为存储多个说话者模型,每个所述说话者模型对应于一个声音类别;如前所述的声音分段设备,被配置为将声音序列分段为多个声音段;以及声音分类器,被配置为通过使用所述说话者模型,对从声音分段设备输出的声音段进行分类,以识别所述声音段的说话者。得益于根据本专利技术的声音分段设备和声音分段方法,由于以多级的方式来执行声音分段,因此不必事先确定观察窗尺寸,并且,要被处理的声音段的长度可动态改变。因此,即使在原始声音序列中包含有非常长的声音段和非常短的声音段两者,也可无需大的不必要的计算量而获得正确的声音分段。根据本专利技术的一些实施方式,声音分段处理不与声音分类无关,而是在声音分段期间利用声音分类。在这样的实施方式中,即使在噪声环境中,声音分段的精确度也可进一步提闻。从参照附图的以下描述中,本专利技术的其他特性特征和优势将变得清晰。附图说明并入说明书并且构成说明书的一部分的附示本专利技术的实施例,并且与描述一起用于说明本专利技术的原理。图I示出现有技术中的常规声音分段方法的示意性流程图。图2是示出可实施本专利技术的实施例的计算机系统的硬件配置的框图。图3示出根据本专利技术的声音分段设备的示意性功能框图。图4示出根据本专利技术的实施例的声音分段设备的示意性功能框图。图5示出根据本专利技术的另一实施例的声音分段设备的示意性功能框图。 图6示出根据本专利技术的声音分段方法的流程图。 图7示出根据本专利技术的实施例的声音分段方法的说明性流程图。图8示出根据本专利技术的另一实施例的声音分段方法的说明性流程图。图9示出根据本专利技术的第一实施例的声音分段方法的流程图。图10示出根据本专利技术的第一实施例的当前声音段分段步骤的示例性处理。图11示出由各级的声音段组成的示例性树结构。图12示出根据本专利技术的第一实施例的变型的声音分段方法的流程图。图13示出根据本专利技术的第一实施例的变型的当前声音段分段步骤的示例性处理。图14A-14E不出根据第一实施例的声音分段的不例性例子。图15示出根据本专利技术的第二实施例的声音分段方法的流程图。图16示出根据本专利技术的第二实施例的当前声音段分段步骤的示例性处理。图17A-17C示出根据第二实施例的声音分段的示例性例子。图18A-18C示出常规声音分段方法的性能和本专利技术的性能之间的比较。图19示出用于说话者识别系统的示意性功能框图。具体实施例方式以下将参照附图详细描述本专利技术的实施例。请注意,相似的参考数字和字母指示图中的类似的项目,因而,一旦在一本文档来自技高网
...

【技术保护点】
一种声音分段方法,包括:多级分段步骤,所述多级分段步骤包括:当前声音段分段步骤,所述当前声音段分段步骤包括:确定步骤,确定当前声音段关于分割分数序列是否满足规定条件,所述分割分数序列指示每个候选分割点的信息熵;以及分割步骤,如果确定所述当前声音段满足所述规定条件,则将所述当前声音段分割为至少两个下一级声音段,其中,通过将通过所述分割步骤获得的所述下一级声音段中的每一个作为所述下一级中的当前声音段,以迭代方式执行所述当前声音段分段步骤,直到每一级中的未被分割的声音段都不满足所述规定条件为止。

【技术特征摘要】

【专利技术属性】
技术研发人员:郭莉莉穆向禹刘贺飞
申请(专利权)人:佳能株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1