处理语音识别的稀疏表示特征的方法和系统技术方案

技术编号:7281098 阅读:213 留言:0更新日期:2012-04-19 21:40
本发明专利技术涉及一种处理语音识别的稀疏表示特征的方法和系统。披露了用于生成和使用稀疏表示特征来提高语音识别性能的技术。具体地说,本发明专利技术的原理提供了基于稀疏表示样例的识别技术。例如,所述方法包括以下步骤。获取与语音识别系统关联的测试向量和训练数据集。选择所述训练数据集的子集。将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集,其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量。针对所述新的测试特征集训练声学模型。针对所述新的测试特征集训练的声学模型可用于对输入所述语音识别系统的用户语音进行解码。

【技术实现步骤摘要】

本专利技术一般地涉及语音识别,更具体地说,涉及用于生成和使用稀疏表示特征提高语音识别性能的技术。
技术介绍
众所周知,高斯混合模型(GMM) —直以来非常广泛地用于语音识别类问题。尽管 GMM允许快速的模型训练和评分,但是训练样本被汇集在一起进行参数估计,从而导致个别训练样本中存在的信息丢失。另一方面,基于样例的技术使用与实际训练实例有关的信息。尽管基于样例的方法已被证实较之GMM提升了分类任务的准确性,但是对于识别任务而言并非如此。如公知的,语音分类是将语音信号分类为先验已知的给定类别或类型集合中的给定类别或类型的任务,而语音识别是对语音信号进行解码以生成识别结果的任务。应该理解,尽管可以在语音识别任务中执行语音分类,但是在这种情况下,通常无法先验地获知类别或类型。
技术实现思路
本专利技术的原理提供了用于生成和使用稀疏表示特征提高语音识别性能的技术。具体地说,本专利技术的原理提供了基于稀疏表示样例的识别技术。例如,在一个方面中,一种方法包括以下步骤。获取与语音识别系统关联的测试向量和训练数据集。选择所述训练数据集的子集。将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集,其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量。针对所述新的测试特征集训练声学模型。针对所述新的测试特征集训练的声学模型可用于对输入所述语音识别系统的用户语音进行解码。有利地,通过使训练数据集受稀疏约束的影响而移动到更靠近测试向量,提高了语音识别性能,例如,帧准确性、字错误率等。当结合附图阅读本专利技术的示例性实施例的以下详细描述之后,本专利技术的这些和其他目标、特征和优点将变得显而易见。附图说明图IA示出根据本专利技术的一个实施例的稀疏表示训练系统;图IB示出根据本专利技术的一个实施例的语音识别系统;图2示出根据本专利技术的一个实施例的基于稀疏表示样例的训练方法;图3示出用于实现根据本专利技术的一个或多个实施例的一个或多个步骤和/或组件的计算机系统。具体实施方式在此将在用于提供语音识别功能的方法、装置、制品和系统的示例性实施例的上下文中描述本专利技术的原理。但是应理解,本专利技术的原理不限于此处示例性示出和描述的特定方法、装置、制品和系统。相反,本专利技术的原理广泛地涉及语音识别技术,借助此技术,可通过在基于样例的训练方法中生成和使用稀疏表示特征来提高识别性能。为此,在本专利技术的范围内,可以对所示的实施例做出大量修改。也就是说,并非旨在对此处所述的具体实施例做出任何限制或者不应推断任何限制。已认识到现有基于样例的识别任务方法的不成功可归因于以下原因。第一,与评估一组高斯混合相比,通过搜索大量训练数据(例如,对于大型词汇表,通常大于50个小时)来表征测试样本的计算量更大。第二,分类和识别的目标都是确定最佳表示测试样本的类别。在分类中,提前获知与每个类别相关的段,因此可以使用基于样例的技术直接计算每个段的决策评分。在识别中,无法提前获知类别界限,因此必须通过动态编程方法(例如,隐马尔可夫模型或HMM)确定。这需要估计可以跨帧比较的类别概率,而现有基于样例的方法无法轻易做到这一点。根据本专利技术的示例性原理,提供了基于稀疏表示样例的训练方法以便创建新的特征集,同时利用HMM的优点有效地跨帧比较评分。这与尝试利用来自基于样例的分类器自身的决策评分生成概率的现有基于样例的方法形成对照。在以下将详细说明的本专利技术的一个稀疏表示(SR)实施例中,给定测试向量和来自训练数据集的一组样例,通过求解受给定稀疏约束影响的给定特征而将测试向量表示为训练实例的线性组合。所述给定特征可被视为将测试向量映射回训练实例的线性范围。下面将在图2的上下文中描述生成此类特征的基于稀疏表示样例的训练方法的一个示例性实施例。首先参考图1A,其中示出根据本专利技术的一个实施例的稀疏表示训练系统。如图所示,稀疏表示(SR)训练引擎102接收一个或多个测试向量以及训练数据集。引擎102然后使用将在下面详细描述的基于稀疏表示样例的训练方法产生SR训练后的声学模型。该模型可存储在存储单元104中。如公知的,训练数据通常被理解为用于典型地在非实时(脱机)过程中初始训练声学模型的语音数据。测试数据通常被理解为在实时(联机)解码或识别期间被提供给语音识别系统的语音数据。图IB示出根据本专利技术的一个实施例的语音识别系统。将理解,语音识别系统106 利用存储单元104中存储(并且根据图IA中的训练引擎102生成)的SR训练后的声学模型对输入系统106的用户语音进行解码。这是实际的解码或识别任务,通过这些任务,输入用户的语音并将语音进行解码以生成表示输入语音的转录(即,识别结果)。将认识到,可以在根据本专利技术的实施例的基于样例的训练方法中通过生成和使用稀疏表示特征来提高识别性能。尽管未具体示出,但是应该理解,语音识别系统106可包括诸如语音发声预处理器和特征提取器之类的前端处理组件。语音发声预处理器接收通常形式为测试或实时发声的用户语音,并且生成代表性语音波形(即,语音信号)。语音发声预处理器可以包括例如音频转换器(例如,麦克风)和数模转换器,它们分别在操作上将所接收的发声转换为模拟电子信号,然后优选地将模拟信号转换为所接收发声的数字信号表示。此外,语音发声预处理器可以以预定间隔对语音信号进行采样并将信号分为重叠帧,以便系统的其余部分能够单独处理每个帧。来自语音发声预处理器的输出信号是采样后的语音波形或语音信号,所述语音波形或语音信号优选地被记录并被提供给特征提取器。特征提取器接收语音信号并且如本领域中公知的那样,以预定(例如,定期)间隔 (例如每隔10毫秒)从信号中提取倒谱特征。倒谱特征优选地采取语音或特征向量(信号)的形式。与实时语音发声的至少一部分关联的特征向量由特征提取器输出并被传递到语音识别引擎,该引擎使用SR训练后的声学模型对实时应用(用户语音)期间接收的语音数据进行解码以生成识别结果。现在转到对根据本专利技术的基于稀疏表示(SR)样例的训练方法的描述,图2示出此类基于稀疏表示样例的训练方法的一个实施例。方法200从步骤202开始,其中获取测试向量和训练数据集。在步骤204,选择所述训练数据集的子集以形成词典。所述训练数据集的子集可称为样例。在步骤206,将测试向量与训练数据集的选定子集一起映射为通过稀疏约束值加权的线性组合。所述映射形成新的测试特征集。根据此新的测试特征集,训练数据受某种预定稀疏度的影响而移动到更靠近测试数据。在步骤208,针对所述新的特征集训练语音识别系统所使用的声学模型(多个)。 如上所述,这些SR训练后的声学模型然后被语音识别引擎用于以提高的识别性能对输入的用户语音进行解码。例如,给定测试向量y和来自训练集的样例集hi;将这些样例集放入词典H = Lh1 ; h2... ;hn]中,通过求解受施加于β的稀疏约束影响的y = Hi3,将y表示为训练实例的线性组合。可以将特征Ηβ视为将测试样本y映射回H中的训练实例的线性范围(图2中的步骤206)。已证明与GMM相比,SR方法的帧分类准确性更高,其中不仅Ηβ表示使测试特征移动到更靠近训练,而且它还使这些特征移动到更靠近正确的类别。给定这些新的Ηβ 特征集,针对这些特征充分训练HMM(即,SR训练后的声学模本文档来自技高网...

【技术保护点】

【技术特征摘要】
...

【专利技术属性】
技术研发人员:D·卡涅夫斯基D·纳哈莫B·拉马巴德兰T·N·赛纳斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术