语音关键词检出系统、创建用于其的词典的系统和方法技术方案

技术编号:8301235 阅读:174 留言:0更新日期:2013-02-07 05:23
本申请涉及语音关键词检出系统。其包括:输入单元,用于接收输入语音信号;特征提取单元,用于从输入语音信号提取至少一个特征;分类器单元,用于基于至少一个特征和词典将输入语音信号分类为目标关键词或者集外词;和输出单元,用于输出分类的结果。该词典包括:语法,包括目标关键词列表和用于集外词的两个标识符的至少一个序列;和词库,包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音以及代表所述至少一个序列的发音,其中一个标识符表示第一类音子,另一个标识符表示第二类音子。第一类音子和第二类音子是基于音子的固有特征聚类的。第一类音子、第二类音子和目标关键词的音子由模型描述。

【技术实现步骤摘要】

本专利技术涉及语音关键词检出(spotting)系统,以及创建用于该语音关键词检出系统的词典的系统和方法。
技术介绍
语音关键词检出技术旨在检测并且识别连续的或者分割的输入语音中的预定义语音关键词。语音关键词检出技术被用于几乎所有语音识别应用中,如呼叫中心系统、语音邮件分类和按内容搜索。在实际的语音关键词检出应用中,输入语音的大多数部分不包括关键词。这些部分称为集外词(Out-Of-Vocabulary,00V)段(即,非关键词)。如果OOV段被错误地识别 为关键词,则这被称为误警(false alarm, FA) 0高误警率会引起不良的用户体验。一般而言,丢弃OOV数据的方法之一是除了建立关键词模型之外,还建立用于OOV数据的适当的垃圾模型(garbage model),以区分关键词和非关键词。通常,关键词的数量是有限的。建立对于每个关键词的准确模型是相对容易的。而建立准确的垃圾模型是非常困难的,这是因为存在太多类型的00V数据。例如,关于00V数据,有静音数据、语音数据和不同类型的噪声等。建立垃圾模型的通用方法如下。(I)采用一个或更多个通用垃圾模型。例如,美国专利申请No. 20030200090 和 No. 20050256712 以及 Jay G. Wilpon 等人的 “Automatic Recognition of Keywords in Unconstrained Speech Using HiddenMarkov Models”,IEEE Trans on Assp, Vol. 38, No. 11, November, 1990,第 1870-1878 页描述了通过利用所有语音数据(具有或不具有关键词样本)和各种噪声来建立一个通用垃圾模型的各种方式。H. BourlarcUB. D' hoore 和 JM Boite,“optimizing recognition andrejection performance in word spotting systems,,,Proc. ICASSP 94,第 373-376 页描述了通过聚类的上下文无关的音子数据来建立若干个通用垃圾模型。这种方法易于操作并且对于提高通用语音关键词检出系统的性能是有效的。但是,这样的通用垃圾模型是关键词无关的。其不能在考虑特定关键词的情况下良好地代表所有非关键词的特性。具有与关键词相似发音的00V词倾向于被识别为关键词,因而导致大量的误警。(2)采用关键词相关的垃圾模型。建立与特定关键词相关的垃圾模型将降低上述的误警。例如,在美国专利No. 5895448 和 No. 6223155,以及 J. Rohlicek, ff. Russel、S. Rouko 和 H. Gish, “Continuoushidden Markov modeling for speaker independent word spotting”, in Proc, Int.Conf. Acoustics, Speech, and Signal Processing, 1989,第 627-630 页和 Makoto Yamada>Tsuneo Kato、Masaki Naito和Hisashi Kawai,^Improvement of Rejection Performanceof Speech keyword spotting Using Anti-Keywords Derived from Large Vocabulary,,,in INTERSPEECH2005, September, 4-8, Lisbon, Portugal,第 1445-1448 页中,提出了建立用于关键词的垃圾模型的各种方式。这种方法良好地区分特定关键词和OOV词。但是,因为一个关键词具有至少一个垃圾模型,因此在识别时将使用许多垃圾模型,这引起语音关键词检出系统的重的计算和存储负荷。另一个缺点是一旦改变或增加关键词,用于其的垃圾模型应当被重新建立和训练。如何在使计算和存储负荷保持低的同时有效地减小语音关键词检出的误警率是语音关键词检出技术的挑战。
技术实现思路
本专利技术的目的是提供一种使用关键词相关的垃圾I旲型的闻度可罪的语首关键词检出系统,其能够在不引起重的计算和存储负荷的情况下提高垃圾模型的区分能力。 根据本专利技术的一个方面,提供了一种语音关键词检出系统。其包括输入单元,用于接收输入语音信号;特征提取单元,用于从输入语音信号提取至少一个特征;分类器单元,用于基于所述至少一个特征和词典将输入语音信号分类为目标关键词或者集外词;和输出单元,用于输出分类的结果。所述词典包括语法(gra_ar),该语法包括目标关键词列表和用于集外词的两个标识符的至少一个序列;和词库(lexicon),该词库包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音以及代表用于集外词的所述两个标识符的至少一个序列的发音,所述两个标识符中的一个标识符表不第一类音子,另一个标识符表不第二类音子。第一类音子和第二类音子是基于音子的固有特征而聚类的。第一类音子、第二类音子和用于一个或更多个目标关键词的音子分别由它们的模型描述。根据本专利技术的另一方面,提供一种创建用于语音关键词检出系统的词典的系统。所述词典包括具有目标关键词列表的语法;和词库,该词库包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音。所述系统包括用于基于音子的固有特征将语音数据聚类为第一类音子和第二类音子的单元;用于依赖于目标关键词列表中的目标关键词的音子序列,生成用于集外词的两个标识符的至少一个序列的单元,所述两个标识符中的一个标识符表示第一类音子,另一个标识符表示第二类音子;和用于将所述两个标识符的至少一个序列添加到语法中的单元。所述词库还包括代表用于集外词的所述两个标识符的至少一个序列的发音。第一类音子、第二类音子和用于一个或更多个目标关键词的音子分别由它们的模型描述。根据本专利技术的又一方面,提供一种创建用于语音关键词检出系统的词典的方法。所述词典包括具有目标关键词列表的语法;和词库,该词库包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音。所述方法包括以下步骤基于音子的固有特征将语音数据聚类为第一类音子和第二类音子;依赖于目标关键词列表中的目标关键词的音子序列,生成用于集外词的两个标识符的至少一个序列,所述两个标识符中的一个标识符表示第一类音子,另一个标识符表示第二类音子;和将所述两个标识符的至少一个序列添加到语法中。所述词库还包括代表用于集外词的所述两个标识符的至少一个序列的发音。第一类音子、第二类音子和用于一个或更多个目标关键词的音子分别由它们的模型描述。根据本专利技术中的语音关键词检出系统以及创建用于该语音关键词检出系统的词典的方法和系统,训练数据被在音子级别聚类为两类第一类音子和第二类音子。利用训练库中的属于第一类音子的音子,训练第一类音子的模型,该训练库包括用于训练模型的所有训练语音数据。利用训练库中的属于第二类音子的音子,训练第二类音子的模型。第一类音子和第二类音子例如分别为辅音和元音。依赖于与目标关键词相关地本文档来自技高网
...

【技术保护点】
一种语音关键词检出系统,包括:输入单元,用于接收输入语音信号;特征提取单元,用于从输入语音信号提取至少一个特征;分类器单元,用于基于所述至少一个特征和词典将输入语音信号分类为目标关键词或者集外词;和输出单元,用于输出分类的结果,其中,词典包括:语法,该语法包括目标关键词列表和用于集外词的两个标识符的至少一个序列;和词库,该词库包括代表目标关键词列表中的一个或更多个目标关键词的音子序列的所有候选关键词的发音以及代表用于集外词的所述两个标识符的至少一个序列的发音,所述两个标识符中的一个标识符表示第一类音子,另一个标识符表示第二类音子,第一类音子和第二类音子是基于音子的固有特征而聚类的,并且其中,第一类音子、第二类音子和用于一个或更多个目标关键词的音子分别由它们的模型描述。

【技术特征摘要】

【专利技术属性】
技术研发人员:郭莉莉刘贺飞亓超
申请(专利权)人:佳能株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1