基于垃圾模型的语音识别处理方法及装置制造方法及图纸

技术编号:12520412 阅读:143 留言:0更新日期:2015-12-17 11:16
本申请提出一种基于垃圾模型的语音识别处理方法和装置,其中,该方法包括:获取待处理的音节列表中与每个音节对应的三音子模型;采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;应用所述多个建模音节生成对应数量的多个垃圾模型。实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,从而提高了建模组网的效率和灵活性,以及提高了语音识别处理的准确性。

【技术实现步骤摘要】
基于垃圾模型的语音识别处理方法及装置
本申请涉及语音识别处理
,尤其涉及一种基于垃圾模型的语音识别处理方法及装置。
技术介绍
语音识别的关键词检测系统中,通常会预先设定一个集内词表,对于集内词表外的词,系统要求有拒绝识别的能力。目前通用的做法是把所有训练数据用来训练一个通用的垃圾模型(Universalgarbagemodel),或者把训练的数据划分为元音(vowel)和辅音(consonant)两类,分别训练两个垃圾模型,用来模拟不同的集外词情况。然而,采用一个或者两个垃圾模型进行语音识别,划分的颗粒度过粗,不能很好的模拟不同的集外词情况,导致识别错误的概率较高,降低了语音识别的准确性。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种基于垃圾模型的语音识别处理方法,该方法实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,从而提高了建模组网的效率和灵活性,以及提高了语音识别处理的准确性。本申请的第二个目的在于提出一种基于垃圾模型的语音识别处理装置。为达上述目的,本申请第一方面实施例提出了一种基于垃圾模型的语音识别处理方法,包括:获取待处理的音节列表中与每个音节对应的三音子模型;采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。本申请实施例的基于垃圾模型的语音识别处理方法,首先获取待处理的音节列表中与每个音节对应的三音子模型;然后采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;进而根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;最后应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。由此,实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,从而提高了建模组网的效率和灵活性,以及提高了语音识别处理的准确性。为达上述目的,本申请第二方面实施例提出了一种基于垃圾模型的语音识别处理装置,包括:第一获取模块,用于获取待处理的音节列表中与每个音节对应的三音子模型;第二获取模块,用于采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;处理模块,用于根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;第一生成模块,用于应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。本申请实施例的基于垃圾模型的语音识别处理装置,通过第一获取模块获取待处理的音节列表中与每个音节对应的三音子模型;通过第二获取模块采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;通过处理模块根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;通过第一生成模块应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。由此,实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,从而提高了建模组网的效率和灵活性,以及提高了语音识别处理的准确性。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本申请一个实施例的基于垃圾模型的语音识别处理方法的流程图;图2是本申请另一个实施例的基于垃圾模型的语音识别处理方法的流程图;图3是本申请另一个实施例的基于垃圾模型的语音识别处理方法的流程图;图4是本申请一个实施例的基于垃圾模型的语音识别处理装置的结构示意图;图5是本申请另一个实施例的基于垃圾模型的语音识别处理装置的结构示意图;图6是本申请另一个实施例的基于垃圾模型的语音识别处理装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的基于垃圾模型的语音识别处理方法及装置。图1是本申请一个实施例的基于垃圾模型的语音识别处理方法的流程图。如图1所示,该基于垃圾模型的语音识别处理方法包括:步骤101,获取待处理的音节列表中与每个音节对应的三音子模型。具体地,根据待处理的音节列表,获取音节列表中与每个音节对应的三音子模型。其中,音节列表包括了待处理的音节集合,音节的数量根据实际应用需要和待建立的垃圾模型数量进行选择,本实施例对此不作限制,例如:四百个、二百个等等。音节列表中的每个音节包括元音和辅音,元音即汉语拼音中的声母,辅音即汉语拼音中的韵母。所谓三音子模型是指元音和元音不能连续出现,或者辅音和辅音不能连续出现的音子模型,即在每个音节的元音之前加上静音,或者在每个音节的辅音之后加上静音。需要注意的是,音节列表中的每个音节可以带音调,也可以不带音调,如果是携带音调的音节,则音调与辅音整体处理。由此可见,三音子模型的类型有很多,从左到右依次包括:静音、元音、辅音;或者,元音、辅音、静音;或者,静音、元音、携音调的辅音;或者,元音、携音调的辅音、静音。因此,对于音节列表中的每个音节都能获取对应的两个三音子模型,为了更加清楚的说明从音节列表中获取与每个音节对应的三音子模型,举例说明如下:音节列表中包括“zhong1”,“guo2”,“kai”三个不同的音节,其中,“zhong1”,“guo2”带音调,“kai”不带音调,与“zhong1”对应的两个三音子模型分别为:sil-zh+ong1,zh-ong1+sil,与“guo2”对应的两个三音子模型分别为:sil-g+uo2,g-uo2+sil;与“kai”对应的两个三音子模型分别为:sil-k+ai,k-ai+sil。其中sil表示静音。步骤102,采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列。根据与每个音节对应的两个三音子模型匹配预先训练的隐马尔可夫模型,其中,隐马尔可夫模型经过对每个三音子模型的状态训练,生成了每个三音子模型与多个状态信息的对应关系,多个状态信息是一个隐含的非显示的参数,用于描述每个三音子模型和语音信号之间的关系。多个状态的数量根据实际应用需要进行设定,例如:语音信号的速度较快,则设置的状态数量较少,语音信号的速度较慢,则设置的状态数量较多。以状态数量为3举例说明如下:假设三音子模型a-b+c,对应到语音数据中的1秒到2秒之间的时间段,那么与该三音子模型对应的三个状态信息的s1,s2,s3,其中,s1对应的是1s到1.3s的状态,s2对应的是1.3s到1.7s的状态,s3对应的是1.7s到2.0s的状态。针对每个音节而言,每个音节对应两个本文档来自技高网...
基于垃圾模型的语音识别处理方法及装置

【技术保护点】
一种基于垃圾模型的语音识别处理方法,其特征在于,包括以下步骤:获取待处理的音节列表中与每个音节对应的三音子模型;采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。

【技术特征摘要】
1.一种基于垃圾模型的语音识别处理方法,其特征在于,包括以下步骤:获取待处理的音节列表中与每个音节对应的三音子模型;采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理;所述根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,包括:计算每两个三音子状态序列之间的距离;将所述距离低于预设的门限值的音节从所述音节列表中删除;若判断获知剩余的音节数量与预先设置的垃圾模型数目相同,则停止删除,若判断获知剩余的音节数量大于预先设置的垃圾模型数目,调整所述门限值,继续删除。2.如权利要求1所述的基于垃圾模型的语音识别处理方法,其特征在于,所述三音子模型的类型,从左到右依次包括:静音、元音、辅音;或者,元音、辅音、静音;或者,静音、元音、携音调的辅音;或者,元音、携音调的辅音、静音。3.如权利要求1或2所述的基于垃圾模型的语音识别处理方法,其特征在于,所述应用所述多个建模音节生成对应数量的多个垃圾模型之后,所述方法还包括:采用所述多个垃圾模型生成拒识网络;应用所述拒识网络和预先建立的识别网络建立语音识别网络。4.如权利要求3所述的基于垃圾模型的语音识别处理方法,其特征在于,还包括:采用所述语音识别网络对输入的语音指令进行识别;若判断获知所述拒识网络的识别权重大于所述识别网络,则确定所述语音指令属于集外词,输出拒识响应;若判断获知所述拒识网络的识别权重小于所述识别网络,则确定所述语音指令属于预设的集内词表,输出识别结果。5.一种基于垃圾模...

【专利技术属性】
技术研发人员:穆向禹彭守业
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1