用于与说话者无关的话音识别系统的构造话音模板的方法和设备技术方案

技术编号:3046978 阅读:215 留言:0更新日期:2012-04-11 18:40
一种用于构造与说话者无关的话音识别系统的话音模板的方法和设备,包括对一训练话语进行分段,以产生时间群集的分段,各分段由一均值表示。对一给定单词的所有话语的均值进行量化,以产生模板矢量。把各模板矢量与测试话语相比较,以产生比较结果。所述比较一般是动态时间翘曲计算。如果比较结果超过至少一个预定阈值,则将训练话语与模板矢量相匹配,以产生最优路径结果,并且根据所述最优路径结果划分所述训练话语。所述划分一般是K均值分段计算。然后可对经划分的话语进行再量化,并与测试话语进行再比较,直到不超过至少一个预定阈值为止。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

技术介绍
一、专利
本专利技术一般涉及通信领域,尤其涉及用于与说话者无关的话音识别系统的话音模板。二、背景话音识别(VR)是使机器具有模拟智能以识别用户或用户话音命令并便于人类与机器接口的最重要的技术之一。VR还是用于人类语音理解的关键技术。使用从声音语音信号中恢复语言消息的技术的系统被称为话音识别器。这里使用的术语“话音识别器”一般指任何口头用户接口使能设备。话音识别器一般包括声处理器和单词解码器。声处理器析取一序列信息承载特征或矢量,它们对于实现进入的原始语音的VR是必要的。单词解码器解码特征序列或矢量,以产生诸如对应于输入话语的一序列语言文字之类的有意思的和所希望的输出格式。声处理器是话音识别器中的前端语音分析子系统。响应于输入语音信号,声处理器提供适当的表示,以表征时变语音信号。声处理器应删除诸如背景噪声、信道失真、说话者特性以及说话方式之类的无关信息。有效的声处理向话音识别器提供增强的声识别能力。为此,要分析的有用的特征是短时谱包络。通常用于表征短时谱包络的两种谱分析技术是线性预测编码(LPC)和基于滤波器组的谱建模。在美国专利号5,414,796中(该专利转让给本专利技术的受让人,并通过引用而充分结合于此)以及同样通过引用而充分结合于此的L.B.Rabiner和R.W.Schafer的“Digital processing of Speech Signals”(第396页至第453页)(1978年)中描述了示例性LPC技术。出于安全原因,对于VR(通常也称为话音识别)的使用正变得日益重要。例如,VR可用于替代在无线电话机键盘上按压按钮的手动作业。当用户在驾驶小汽车的同时始发一电话呼叫时,这是尤其重要的。当使用一不带有VR的电话机时,驾驶员必须从方向盘移开一只手,并在按压按钮以拨打呼叫的同时看电话机键盘。这些行为增加了小汽车事故的可能性。语音使能的电话机(即为语音识别而设计的电话机)将允许驾驶员在发出电话呼叫的同时继续观察道路。并且一种免提小汽车套件系统将额外地允许驾驶员能够在呼叫始发期间将双手保持在方向盘上。语音识别设备被分类成与说话者有关的或与说话者无关的设备。把与说话者有关的设备(这是较普通的)训练成识别某些特定用户的命令。相反,与说话者无关的设备能够接受任何用户的话音命令。为了增加给定的VR系统的性能,不管是与说话者有关还是与说话者无关,都要求训练以使系统配备有效的参数。换句话说,在最优地起作用之前,系统需要学习。与说话者有关的VR设备一般工作于两个阶段中,一训练阶段和一识别阶段。在训练阶段中,VR系统提示用户一次或两次地(一般两次)说出系统词汇表中的各个单词,使得系统能够从这些特定单词或短语中获悉用户的语音的特征。一示例性的免提小汽车套件的单词表可包括键盘上的数字;关键词“呼叫”、“发送”、“拨打”、“取消”、“清除”、“添加”、“删除”、“历史”、“程序”、“是”以及“否”;以及预定数量的通常称为同事、朋友或家人的名字。一旦完成了训练,用户就能够通过说受训的关键词来在识别阶段中始发呼叫,VR设备通过把口头话语与先前训练的话语(存储为模板)相比较并采用最佳的匹配来识别所述关键词。例如,如果姓名“约翰”是受训姓名之一,则用户可通过说出短语“呼叫约翰”来始发对约翰的呼叫。VR系统将识别单词“呼叫”和“约翰”,并将拨打用户早已输入作为约翰的电话号码的号码。与说话者无关的VR设备也使用训练模板,它包括预定大小的预先记录的单词表(如某些控制词、数0至9以及是和否)。必须对大量用户(如100个)说出该单词表中的各个单词进行记录。通常,通过将包含由第1组说话者(如100个说话者)说的单词的测试数据库与包含由第2组说话者(与第1组一样多)说的相同的单词的训练数据库相比较,来构造与说话者无关的VR模板。一般把由一个用户说出的一个单词称为一个话语。在对与测试数据库的话语的收敛进行测试之前,首先把训练数据库的各话语时间归一化并然后量化(一般根据已知技术量化的矢量)。然而,时间归一化技术依赖于仅从具有与先前帧最大差异的个别帧(话语的周期性片段)中获得的信息。提供一种用于建立与说话者无关的VR模板的方法,所述VR模板使用一给定话语中的更多的信息,这将是有利的。还将进一步希望增加常规技术的精确性或收敛,用于根据话语的类型建立与说话者无关的VR模板。从而,存在对于一种构造与说话者无关的语音识别模板的方法的需要,该方法提供增强的精确性并使用话语中的更多量的信息。专利技术概述本专利技术针对一种构造与说话者无关的语音识别模板的方法,该方法提供增强的精确性并使用话语中的更多量的信息。因此,在本专利技术的一个方面中,提供了一种建立语音模板,以用于与说话者无关的语音识别系统的方法。该方法有利地包括对第1组多个话语的各话语进行分段,以对各话语生成多个时间群集段,各时间群集段由一谱均值表示;对所有的所述第1组多个话语的多个谱均值进行量化,以生成多个模板矢量;把所述多个模板矢量的每一个与第2组多个话语相比较,以产生至少一个比较结果;如果所述至少一个比较结果超过至少一个预定阈值,则将所述第1组多个话语与所述多个模板矢量相匹配,以产生最优匹配路径结果;根据所述最优匹配路径结果,在时间上划分所述第1组多个话语;以及重复所述量化、比较、匹配和划分,直到至少一个比较结果不超过任一至少一个预定阈值为止。附图简述附图说明图1是用于构造和实现与说话者无关的话音识别的话音模板的系统框图。图2是可用于图1的系统中的话音识别子系统的框图。图3是说明由诸如图2的子系统之类的话音识别子系统执行的用于识别输入语音采样的方法步骤的流程图。图4是可用于图1的系统中的模板构建子系统的框图。图5是可用于图1的系统中的模板构建子系统的框图。图6是说明由诸如图4的子系统或图5的子系统之类的模板构建子系统执行的用于构造话音模板的方法步骤的流程图。较佳实施例的详细描述根据一个实施例,如图1所示,用于构造和实现与说话者无关的话音识别的话音模板的系统10包括与说话者无关的模板构建子系统12以及语音识别子系统14。与说话者无关的模板构建子系统12耦合至语音识别子系统14。如下参考图4-6所述,使用与说话者无关的模板构建子系统12构造与说话者无关的话音模板。把模板提供给语音识别子系统14,用于如下参考图2-3所述的那样识别来自用户的输入语音。根据一个实施例,如图2所示,语音识别子系统100包括模数转换器(A/D)102、前端声处理器104、特征提取器106、语音模板数据库108、模型比较逻辑110以及判决逻辑112。在某一实施例中,声处理器104和特征提取器106由一个设备实现,如参数提取器。在一个实施例中,声处理器104包括频率分析模块114。在一个实施例中,特征提取器106包括端点检测器116、时间群集语音分段模块118以及语音电平规范器。A/D102耦合至声处理器104。声处理器104耦合至特征提取器106。在一个实施例中,在特征提取器106之内,端点检测器116耦合至时间群集语音分段模块118,后者耦合至幅度量化器120。特征提取器106耦合至模型比较逻辑110。模型比较逻辑110耦合至模板数据库108和判决逻辑112。语音识别子系统100可驻留于例如无线电话机或免提小汽车套本文档来自技高网...

【技术保护点】
一种建立用于与说话者无关的语音识别系统的语音模板的方法,其特征在于该方法包括: 对第1组多个话语中的各话语进行分段,以对各话语产生多个时间群集的分段,各时间群集的分段由一谱均值表示; 对所述所有第1组多个话语的多个谱均值进行量化,以产生多个模板矢量; 把所述多个模板矢量的每一个与第2组多个话语相比较,以产生至少一个比较结果; 如果所述至少一个比较结果超过至少一个预定阈值,则将所述第1组多个话语与所述多个模板矢量相匹配,以产生最优匹配路径结果; 根据所述最优匹配路径结果在时间上划分所述第1组多个话语; 重复所述量化、比较、匹配和划分,直到所述至少一个比较结果不超过任一至少一个预定阈值为止。

【技术特征摘要】
US 2000-7-13 09/615,5721.一种建立用于与说话者无关的语音识别系统的语音模板的方法,其特征在于该方法包括对第1组多个话语中的各话语进行分段,以对各话语产生多个时间群集的分段,各时间群集的分段由一谱均值表示;对所述所有第1组多个话语的多个谱均值进行量化,以产生多个模板矢量;把所述多个模板矢量的每一个与第2组多个话语相比较,以产生至少一个比较结果;如果所述至少一个比较结果超过至少一个预定阈值,则将所述第1组多个话语与所述多个模板矢量相匹配,以产生最优匹配路径结果;根据所述最优匹配路径结果在时间上划分所述第1组多个话语;重复所述量化、比较、匹配和划分,直到所述至少一个比较结果不超过任一至少一个预定阈值为止。2.如权利要求1所述的方法,其特征在于所述比较包括计算方差量度。3.如权利要求1所述的方法,其特征在于所述比较包括计算精确度量度。4.如权利要求1所述的方法,其特征在于所述比较包括首先计算方差量度,并且如果所述方差量度不超过第1预定阈值,则其次计算精确度量度。5.如权利要求4所述的方法,其特征在于所述匹配包括如果所述方差量度超过所述第1预定阈值或者所述精确度量度超过第2预定阈值,则使第1话语与所述多个模板矢量相匹配。6.如权利要求1所述的方法,其特征在于所述比较包括执行动态时间翘曲计算。7.如权利要求1所述的方法,其特征在于所述匹配包括执行动态时间翘曲计算。8.如权利要求1所述的方法,其特征在于所述匹配和所述划分包括执行K均值分段计算。9.如权利要求1所述的方法,其特征在于进一步包括检测第1话语的端点。10.一种配置成建立用于与说话者无关的语音识别系统的语音模板的设备,其特征在于该设备包括用于对第1组多个话语中的各话语进行分段,以对各话语产生多个时间群集的分段的装置,各时间群集的分段由一谱均值表示;用于对所述所有第1组多个话语的多个谱均值进行量化,以产生多个模板矢量的装置;用于把所述多个模板矢量的每一个与第2组多个话语相比较,以产生至少一个比较结果的装置;用于如果所述至少一个比较结果超过至少一个预定阈值,则将所述第1组多个话语与所述多个模板矢量相匹配,以产生最优匹配路径结果的装置;用于根据所述最优匹配路径结果在时间上划分所述第1组多个话语的装置;用于重复所述量化、比较、匹配和划分,直到所述至少一个比较结果不超过任一至少一个预定阈值为止的装置。11.一种配置成建立用于与说话者无关的语音识别系统的语音模板的设备,其特征在于该设备包括分段逻辑,配置成对第1组多个话语中的各话语进行分段,以对各话语产生多个时间群集的分段,各时间群集的分段由一谱均值表示;耦合至所述分段逻辑的量化器,配置成对所述所有第1组多个话语的多个谱均值进行量化,以产生多个模板矢量;耦合至所述量化器的收敛测试器,配置成把所述多个模板矢量的每一个与第2组多个话语相比较,以产生至少一个比较结果;耦合至所述量化器和所述收敛测试器的划分逻辑,配置成如果所述至少一个比较结果超过至少一个预定阈值,则将所述第1组多个话语与所述多个模板矢量相匹配,以产生最优匹配路径结果,以及根据所述最优匹配路径结果在时间上划分所述第1组多个话语,其中所述量化器、所述收敛测试器以及所述划分逻辑进一步配置成重复量化、比较、匹配和划分,直到所述至少一个比较结果不超过任一至少一个预定阈值为止。12.如权利要求11所述设备,其特征在于所述至少一个比较结果是方差量度。13.如权利要求11所述设备,其特征在于所述至少一个比较结果是精确度量度。14.如权利要求11所述设备,...

【专利技术属性】
技术研发人员:毕宁
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1