【技术实现步骤摘要】
技术介绍
一、专利
本专利技术一般涉及通信领域,尤其涉及用于与说话者无关的话音识别系统的话音模板。二、背景话音识别(VR)是使机器具有模拟智能以识别用户或用户话音命令并便于人类与机器接口的最重要的技术之一。VR还是用于人类语音理解的关键技术。使用从声音语音信号中恢复语言消息的技术的系统被称为话音识别器。这里使用的术语“话音识别器”一般指任何口头用户接口使能设备。话音识别器一般包括声处理器和单词解码器。声处理器析取一序列信息承载特征或矢量,它们对于实现进入的原始语音的VR是必要的。单词解码器解码特征序列或矢量,以产生诸如对应于输入话语的一序列语言文字之类的有意思的和所希望的输出格式。声处理器是话音识别器中的前端语音分析子系统。响应于输入语音信号,声处理器提供适当的表示,以表征时变语音信号。声处理器应删除诸如背景噪声、信道失真、说话者特性以及说话方式之类的无关信息。有效的声处理向话音识别器提供增强的声识别能力。为此,要分析的有用的特征是短时谱包络。通常用于表征短时谱包络的两种谱分析技术是线性预测编码(LPC)和基于滤波器组的谱建模。在美国专利号5,414,796中(该专利转让给本专利技术的受让人,并通过引用而充分结合于此)以及同样通过引用而充分结合于此的L.B.Rabiner和R.W.Schafer的“Digital processing of Speech Signals”(第396页至第453页)(1978年)中描述了示例性LPC技术。出于安全原因,对于VR(通常也称为话音识别)的使用正变得日益重要。例如,VR可用于替代在无线电话机键盘上按压按钮的手动作 ...
【技术保护点】
一种建立用于与说话者无关的语音识别系统的语音模板的方法,其特征在于该方法包括: 对第1组多个话语中的各话语进行分段,以对各话语产生多个时间群集的分段,各时间群集的分段由一谱均值表示; 对所述所有第1组多个话语的多个谱均值进行量化,以产生多个模板矢量; 把所述多个模板矢量的每一个与第2组多个话语相比较,以产生至少一个比较结果; 如果所述至少一个比较结果超过至少一个预定阈值,则将所述第1组多个话语与所述多个模板矢量相匹配,以产生最优匹配路径结果; 根据所述最优匹配路径结果在时间上划分所述第1组多个话语; 重复所述量化、比较、匹配和划分,直到所述至少一个比较结果不超过任一至少一个预定阈值为止。
【技术特征摘要】
US 2000-7-13 09/615,5721.一种建立用于与说话者无关的语音识别系统的语音模板的方法,其特征在于该方法包括对第1组多个话语中的各话语进行分段,以对各话语产生多个时间群集的分段,各时间群集的分段由一谱均值表示;对所述所有第1组多个话语的多个谱均值进行量化,以产生多个模板矢量;把所述多个模板矢量的每一个与第2组多个话语相比较,以产生至少一个比较结果;如果所述至少一个比较结果超过至少一个预定阈值,则将所述第1组多个话语与所述多个模板矢量相匹配,以产生最优匹配路径结果;根据所述最优匹配路径结果在时间上划分所述第1组多个话语;重复所述量化、比较、匹配和划分,直到所述至少一个比较结果不超过任一至少一个预定阈值为止。2.如权利要求1所述的方法,其特征在于所述比较包括计算方差量度。3.如权利要求1所述的方法,其特征在于所述比较包括计算精确度量度。4.如权利要求1所述的方法,其特征在于所述比较包括首先计算方差量度,并且如果所述方差量度不超过第1预定阈值,则其次计算精确度量度。5.如权利要求4所述的方法,其特征在于所述匹配包括如果所述方差量度超过所述第1预定阈值或者所述精确度量度超过第2预定阈值,则使第1话语与所述多个模板矢量相匹配。6.如权利要求1所述的方法,其特征在于所述比较包括执行动态时间翘曲计算。7.如权利要求1所述的方法,其特征在于所述匹配包括执行动态时间翘曲计算。8.如权利要求1所述的方法,其特征在于所述匹配和所述划分包括执行K均值分段计算。9.如权利要求1所述的方法,其特征在于进一步包括检测第1话语的端点。10.一种配置成建立用于与说话者无关的语音识别系统的语音模板的设备,其特征在于该设备包括用于对第1组多个话语中的各话语进行分段,以对各话语产生多个时间群集的分段的装置,各时间群集的分段由一谱均值表示;用于对所述所有第1组多个话语的多个谱均值进行量化,以产生多个模板矢量的装置;用于把所述多个模板矢量的每一个与第2组多个话语相比较,以产生至少一个比较结果的装置;用于如果所述至少一个比较结果超过至少一个预定阈值,则将所述第1组多个话语与所述多个模板矢量相匹配,以产生最优匹配路径结果的装置;用于根据所述最优匹配路径结果在时间上划分所述第1组多个话语的装置;用于重复所述量化、比较、匹配和划分,直到所述至少一个比较结果不超过任一至少一个预定阈值为止的装置。11.一种配置成建立用于与说话者无关的语音识别系统的语音模板的设备,其特征在于该设备包括分段逻辑,配置成对第1组多个话语中的各话语进行分段,以对各话语产生多个时间群集的分段,各时间群集的分段由一谱均值表示;耦合至所述分段逻辑的量化器,配置成对所述所有第1组多个话语的多个谱均值进行量化,以产生多个模板矢量;耦合至所述量化器的收敛测试器,配置成把所述多个模板矢量的每一个与第2组多个话语相比较,以产生至少一个比较结果;耦合至所述量化器和所述收敛测试器的划分逻辑,配置成如果所述至少一个比较结果超过至少一个预定阈值,则将所述第1组多个话语与所述多个模板矢量相匹配,以产生最优匹配路径结果,以及根据所述最优匹配路径结果在时间上划分所述第1组多个话语,其中所述量化器、所述收敛测试器以及所述划分逻辑进一步配置成重复量化、比较、匹配和划分,直到所述至少一个比较结果不超过任一至少一个预定阈值为止。12.如权利要求11所述设备,其特征在于所述至少一个比较结果是方差量度。13.如权利要求11所述设备,其特征在于所述至少一个比较结果是精确度量度。14.如权利要求11所述设备,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。