基于决策树的语音辨别方法技术

技术编号:3047031 阅读:207 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种建立至少一个决策树以处理表现语音的样本信号的方法(200)。该方法包括依据音素的分段统计语音模型,提供模型子向量,该模型包括平均值和关联的方差值的诸多向量。然后,对平均值的模型子向量进行统计分析,以提供指示子向量之间相对最大方差的方向预测向量,此后,计算多个预测向量的预测值(240)。依据预测值的范围分析,确定潜在阈值(260)。最后提供有决策能力的决策树(270),把模型子向量分成多个组,这些组是决策树树叶。该决策基于从潜在阈值选择的已选择阈值,已选择阈值通过该模型子向量之间的方差变化来选择,该方差依据该平均值和关联的方差值来确定。本发明专利技术还说明了使用建立决策树方法进行语音辨别(300)的方法。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种语音辨别。本专利技术对基于二元决策树以减少语音辨别搜索空间的大词汇语音辨别库(但不限于此)特别有用。
技术介绍
大词汇语音辨别系统辨别许多接收的发声词。相反,有限词汇语音辨别系统限于可以发声和辨别的较少数量的词。有限词汇语音辨别系统的应用包括少量命令和姓名的辨别。大词汇语音辨别系统的开发正在不断增加,并且正在各种应用中使用这种大词汇语音辨别系统。这种语音辨别系统必需能够以一种响应方式辨别发声词,而且不能在提供一个合适响应之前有明显的延迟。大词汇语音辨别系统使用相关技术来确定发声词(输入语音信号)与声学空间中词特征之间的似然标记(score)。这些特征可以依据声学模型建立,该声学模型不需要来自一个或多个说话者的训练数据,因此被称之为大词汇说话者独立语音辨别系统。对于说话者大词汇语音辨别系统,需要大量的语音模型,以便在声学空间中充分表征在发声输入语音信号中发现的声学特性的词汇。例如,音素/a/的声学特性在词“had”和“ban”中将是不同的,即使由同一个说话者来说话。因此,被称之为语境依赖音素的音素单元需要模仿在不同词中发现的相同音素的不同声音。说话者独立大词汇语音辨别系统通常花费不希望的发现匹配标记的大部分时间。在技术上将输入语音信号与该系统使用的每个声学模型之间的上述匹配标记称之为似然标记。每个声学模型通常由多个高斯概率密度函数(pdf)描述,每个高斯概率密度函数由平均向量和协方差矩阵描述。为了发现输入语音信号与给定模型之间的似然标记,输入必需对每个高斯匹配。然后产生最终似然标记,作为来自模型的每个高斯成员的标记的加权和。每个模型的高斯数目通常是8至64中序列。众所周知,语音模型内的所有高斯不生成给定输入语音信号的高标记。对于明显不同于输入信号值的平均值的一个高斯,当输入位于高斯分配的“尾部”时,该标记非常接近0。这意味着对整个似然标记的这样一种高斯分布将被忽略。因此,仅通过使用模型内高斯的子集可以精确地近似使用所有高斯对一个模型的似然标记的计算。通常使用高斯选择的方法选择模型内的高斯子集,在该方法中,为特定的输入语音信号选择模型组内的高斯的子集。然后使用该子集(又称作高斯最后候选名单)计算每个模型的似然标记。然而高斯最后候选名单基于向量群集,并且为了获得可接受的实时响应,对于大词汇语音辨别系统,群集的数量不必太大。在本说明中,包括权利要求,术语“包括”或者类似术语的用意是指非排它性包含,使包括一系列要素的方法或设备仅仅不包括那些要素,但是可以包括未列出的其它要素。
技术实现思路
根据本专利技术的一个方面,这里提供了建立至少一个决策树以处理表现语音的样本信号的方法,该方法包括以下步骤依据音素的分段统计语音模型,提供模型子向量,该模型包括平均值和关联的方差值的诸多向量;至少统计地分析平均值的部分模型子向量,以提供指示子向量之间相对最大方差的方向的预测向量(projection vector);计算多个预测向量的预测值(projection value);依据预测值的范围分析,选择潜在的阈值;和建立具有决策能力的决策树,以把模型子向量分成多个组,这些组是树的树叶,其中决策基于从潜在阈值选择的已选择阈值,已选择阈值通过所述模型子向量之间的方差的变化来选择,所述方差依据所述平均值和关联的方差值来确定。所述组最好具有定义声学子空间的统计特征。相称地,语音模型基于高斯概率分布。统计分析的步骤最好还由预测向量来表征,所述预测向量通过主成分分析来计算。潜在阈值最好从预测值的子集中选出。相称地,决策基于一个不等式计算。不等式计算涉及乘以一个预测向量的已选择模型子向量的转置与一个所述潜在阈值之间的不等式。子集适合于从具有最大方差的预测值的预测向量中选出。最好从子集中每个预测向量的最小与最大预测值之间的范围中确定潜在阈值。潜在阈值适合于通过把上述范围分成平均间隔的子范围来确定。决策树最好是二元决策树。根据本专利技术的另一个方面,这里提供了一种语音辨别的方法,包括以下步骤提供处理为至少一个特征向量的样本语音信号,该特征向量代表语音信号的频谱特征;把特征向量分成诸多子特征向量;把每个子特征向量施加到对应的决策树上,以获得模型子向量的诸多组,该模型子向量很可能至少指示样本语音信号的一个音素,决策树通过分析从统计语音模型获得的模型子向量来建立,其中决策树具有基于从潜在阈值选择的已选择阈值的决策,已选择阈值通过所述模型子向量之间的方差的变化来选择,所述方差依据所述平均值和与所述模型子向量关联的方差值来确定;从子特征向量的诸多组中选择多个模型子向量,从而识别模型子向量的最后候选名单;和处理该最后候选名单,以提供样本语音信号的一个副本。该副本最好是样本语音信号的文本。该副本可以是一个控制信号。控制信号可以例如激活电子装置或系统的功能。最好是,决策树可以通过建立至少一个决策树的上述方法来建立。附图说明为了容易地理解本专利技术和进行实际实施,下面参考附图对一个优选实施例进行说明。图1是本专利技术的语音辨别系统的示意性方框图; 图2是显示建立决策树以处理表示语音的样本信号的方法的流程图;和图3是显示使用图2的方法建立的决策树进行语音辨别的方法的流程图。具体实施例方式参见图1,图中示出了语音辨别系统1的示意性方框图,包括一个统计语音模型数据库110,它具有连接分段模块120和语音辨别器160的输入的输出。分段模块120具有连接阈值生成器130的一个输入的一个输出,阈值生成器130具有连接决策树建立器140一个输入的一个输出。决策树建立器140的一个输出连接决策树存储器170的一个输入。决策树存储器170具有连接语音辨别器160的一个输入的一个输出。还有一个语音模型变换器150,它具有接收语音信号的一个输入。语音模型变换器150具有连接语音辨别器160一个输入的输出。在图2中,示出了建立一个决策树以处理表示语音的样本信号的方法200。在开始步骤201之后,方法200包括一个依据音素的分段统计语音模型提供模型子向量步骤220。统计语音模型子向量包括平均值和关联的方差值的诸多向量。在本实施例中,统计语音模型被存储在统计语音模型数据库110中,并且基于本领域已知的如具有多种状态的隐藏马尔可夫模型(Hidden Markov Model,即HMM)模仿的三音素。HMM的每个状态由多矩阵高斯概率密度函数模拟。因此,语音模型基于高斯概率分布或者高斯矩阵,其中高斯矩阵{gjm}为以下形式{gim}={Wjm,μjm,∑jm} -(1)其中,wjm是标量加权,μjm是平均值向量,∑jm是协方差矩阵,其每个用于第jHMM状态的第m高斯矩阵。协方差矩阵∑jm通常是对角矩阵,仅具有非零值的主对角线,并且可以被简化成一个方差向量σjm。例如,如果方差向量σjm和平均值向量μjm都是39维向量,则分段模块120在步骤220上把向量μjm和σjm分段成三个相应模型子向量μjm1、μjm2、λjm3和σjm1、σjm2和σjm3。模型子向量λjm1、λjm2、μjm3和σjm1、σjm2和σjm3的每一个是13维向量,其含有来自原始的相应平均值向量μjm或者方差向量σjm的要素。子向量μjm1包括来自平均值向量μjm的第一13个要素。对应的子向量λjm2和μjm本文档来自技高网
...

【技术保护点】
一种建立至少一个决策树以处理表现语音的样本信号的方法,该方法包括以下步骤:依据音素的分段统计语音模型,提供模型子向量,该模型包括平均值和关联的方差值的诸多向量;至少统计地分析平均值的部分模型子向量,以提供指示子向量之间相对最大方差的 方向的预测向量;计算多个预测向量的预测值;依据预测值的范围分析,选择潜在的阈值;和建立具有决策能力的决策树,以把模型子向量分成多个组,这些组是决策树的树叶,其中决策基于从潜在阈值选择的已选择阈值,已选择阈值通过所述模型子向量之间 的方差的变化来选择,所述方差依据所述平均值和关联的方差值来确定。

【技术特征摘要】
【国外来华专利技术】US 2001-11-16 09/993,2751.一种建立至少一个决策树以处理表现语音的样本信号的方法,该方法包括以下步骤依据音素的分段统计语音模型,提供模型子向量,该模型包括平均值和关联的方差值的诸多向量;至少统计地分析平均值的部分模型子向量,以提供指示子向量之间相对最大方差的方向的预测向量;计算多个预测向量的预测值;依据预测值的范围分析,选择潜在的阈值;和建立具有决策能力的决策树,以把模型子向量分成多个组,这些组是决策树的树叶,其中决策基于从潜在阈值选择的已选择阈值,已选择阈值通过所述模型子向量之间的方差的变化来选择,所述方差依据所述平均值和关联的方差值来确定。2.根据权利要求1所述的建立至少一个决策树的方法,其中所述组具有定义声学子空间的统计特征。3.根据权利要求1所述的建立至少一个决策树的方法,其中语音模型基于高斯概率分布。4.根据权利要求1所述的建立至少一个决策树的方法,其中统计分析的步骤还由预测向量来表征,所述预测向量通过主成分分析来计算。5.根据权利要求l所述的建立至少一个决策树的方法,其中潜在阈值从预测值的子集中选出。6.根据权利要求5所述的建立至少一个决策树的方法,其中决策基于一个不等式计算。7.根据权利要求6所述的建立至少一个决策树的方法,其中不等式计算涉及乘以一个预测向量的已选择模型子向量的转置与一个所述潜在阈值之间的不等式。8.根据权利要求5所述的建立至少一个决策树的方法,其中子集从具有最大方差预测值的预测向量中选出。9.根据权利要求8所述的建立至少一个决策树的方法,其中从子集中每个预测向量的最小与最大预测值间的范围中确定潜在阈值。10.根据权利要求9所述的建立至少一个决策树的方法,其中潜在阈值通过把上述范围分成平均间隔的子范...

【专利技术属性】
技术研发人员:李恒舜
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1