建立语音识别模型的方法、语音识别方法及对应装置制造方法及图纸

技术编号:15398373 阅读:140 留言:0更新日期:2017-05-22 14:02
本发明专利技术提供了一种建立语音识别模型的方法、语音识别方法及对应装置,将词典和声学模型信息进行融合,得到声学层空间网络;将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。本发明专利技术提供的语音识别模型将语音层信息和声学层信息的耦合关系分解开来,使其成为各自独立的网络,能够实现语言层信息的快速动态更新,基于该语音识别模型实现的语音搜索具有更高的搜索新发生事物和信息的能力。

Method for establishing speech recognition model, speech recognition method and corresponding device

The present invention provides a method and a model for speech recognition speech recognition method and corresponding device, the dictionary and the acoustic model of information fusion, get the acoustic layer space network; language model information is abstracted as a finite state machine and optimize the language layer network; using the acoustic layer space network and the language the formation of language layer network model to predict the network; the acoustic layer space network, network layer language and language model to form the network prediction model for speech recognition. Speech recognition model of the coupling relationship between the voice information layer and acoustic layer information apart, make it become an independent network, can achieve fast dynamic language layer information update, voice of the speech recognition model based on search has higher search ability of new things and information.

【技术实现步骤摘要】
建立语音识别模型的方法、语音识别方法及对应装置
本专利技术涉及计算机应用领域的语音搜索技术,特别涉及一种建立语音识别模型的方法、语音识别方法及对应装置。
技术介绍
语音搜索是近期兴起的一种新颖的搜索技术,给广大互联网用户带来全新的搜索体验,用户可以使用语音进行检索和查询。语音搜索使用语音识别技术把用户的语音内容识别成文本,然后使用文本搜索技术将搜索结果返回给用户,可见在语音搜索中语音识别是关键核心环节。现有语音识别技术主要采用以下几种技术:其一、基于加权有限状态机(WFST)的语音识别系统,使用WFST技术把语音识别的声学层信息和语言层信息集成在一个网络中,进行确定化、最小化、空边去除等操作后,得到一个紧凑的WFST网络,然后基于该紧凑的WFST网络进行识别。其二、基于两遍解码的WFST的语音识别系统,构建两个WFST网络,在进行语音识别时,进行两遍解码:第一遍解码使用较小的WFST网络,在第一遍解码的识别结果基础之上,第二遍解码使用较大的WFST网络得到最终的识别结果。由于语音搜索任务中语音识别系统的语言层信息约束需要实时更新,更新频率越快,语音识别系统对新信息的语音识别能力越强。但现有技术的上述第一种方式虽然语音识别速度较快,但往往需要耗费大量的时间和计算机内存,这就限制了可以使用的语言模型的体积。并且由于语言层和声学层耦合在一起,每次语言层的更新都涉及到整个网络的更新,导致更新速度很慢,大大降低了搜索新发生事物和信息的能力。第二种方式识别速度较慢,且两个WFST网络的构建导致语言层的更新涉及到两个网络的更新,更新速度也很慢,同样影响搜索新发生事物和信息的能力。
技术实现思路
有鉴于此,本专利技术提供了一种建立语音识别模型的方法、语音识别方法及对应装置,以便于实现语言层的快速更新,从而提高搜索新发生事物和信息的能力。具体技术方案如下:一种建立语音识别模型的方法,该方法包括:S1、将词典和声学模型信息进行融合,得到声学层空间网络;S2、将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;S3、利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。根据本专利技术一优选实施例,所述步骤S1具体包括:将所述词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络。根据本专利技术一优选实施例,所述语言模型信息为n-gram语言模型;所述步骤S2具体包括:将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。根据本专利技术一优选实施例,所述步骤S3具体包括:利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到所述语言模型预测网络。一种语音识别方法,基于上述方法建立的语音识别模型,该语音识别方法包括:A1、对输入语音进行声学特征提取;A2、基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。根据本专利技术一优选实施例,在所述步骤A2中基于提取的声学特征逐步执行步骤A21至步骤A23;A21、进行声学模型的打分计算;A22、查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;A23、利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,并将查找到的节点对应的词压入词栈,基于当前解码路径转至步骤A21;A24、待针对所述输入语音的声学特征执行完所述步骤A21至步骤A23后,通过回溯词栈的方式确定最优解码路径作为所述输入语音的识别结果。一种建立语音识别模型的装置,该装置包括:声学层构建单元,用于将词典和声学模型信息进行融合,得到声学层空间网络;语言层构建单元,用于将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;预测模型构建单元,用于利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。根据本专利技术一优选实施例,所述声学层构建单元具体包括:第一构建子单元,用于将所述词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;第二构建子单元,用于将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;优化子单元,用于采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络。根据本专利技术一优选实施例,所述语言模型信息为n-gram语言模型;所述语言层构建单元具体将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。根据本专利技术一优选实施例,预测模型构建单元具体利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到所述语言模型预测网络。一种语音识别装置,基于上述装置建立的语音识别模型,该语音识别装置包括:特征提取单元,用于对输入语音进行声学特征提取;语音解码单元,用于基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。根据本专利技术一优选实施例,所述语音解码单元具体包括:声学层打分子单元,用于进行声学模型的打分计算;声学层内扩展子单元,用于基于提取的声学特征逐步查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;声学层间扩展子单元,用于利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,基于当前解码路径触发所述声学层打分子单元;词栈收集子单元,用于将所述声学层间扩展子单元查找到的节点对应的词压入词栈,待所述声学层内扩展子单元和所述声学层间扩展子单元针对所述输入语音的声学特征执行完查找后,通过回溯词栈的方式确定最优解码路径作为所述输入语音的识别结果。由以上技术方案可以看出,本专利技术提供的语音识别模型将语音层信息和声学层信息的耦合关系分解开来,使其成为各自独立的网络,其中语言层网络在更新时不会受到声学层网络的牵连,能够实现快速的实时动态更新,基于该语音识别模型实现的语音搜索具有更高的搜索新发生事物和信息的能力。【附图说明】图1为本本文档来自技高网
...
建立语音识别模型的方法、语音识别方法及对应装置

【技术保护点】
一种建立语音识别模型的方法,其特征在于,该方法包括:S1、将词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络;S2、将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;S3、利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。

【技术特征摘要】
1.一种建立语音识别模型的方法,其特征在于,该方法包括:S1、将词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络;S2、将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;S3、利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。2.根据权利要求1所述的方法,其特征在于,所述语言模型信息为n-gram语言模型;所述步骤S2具体包括:将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。3.根据权利要求1所述的方法,其特征在于,所述步骤S3具体包括:利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到所述语言模型预测网络。4.一种语音识别方法,其特征在于,基于如权利要求1至3任一权项所述方法建立的语音识别模型,该语音识别方法包括:A1、对输入语音进行声学特征提取;A2、基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。5.根据权利要求4所述的语音识别方法,其特征在于,在所述步骤A2中基于提取的声学特征逐步执行步骤A21至步骤A23;A21、进行声学模型的打分计算;A22、查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;A23、利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,并将查找到的节点对应的词压入词栈,基于当前解码路径转至步骤A21;A24、待针对所述输入语音的声学特征执行完所述步骤A21至步骤A23后,通过回溯词栈的方式确定最优解码路径作为所述输入语音的识别结果。6.一种建立语音识别模型的装置,其特征在于,该装置包括:声学层构建单元,用于将词典和声学模型信息进行融合,得到声学层空间网络;语言层构建单元,用于将语...

【专利技术属性】
技术研发人员:贾磊钱胜万广鲁
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1