语音识别方法、装置、终端和计算机可读存储介质制造方法及图纸

技术编号:17163359 阅读:24 留言:0更新日期:2018-02-01 21:17
本发明专利技术公开了一种语音识别方法,包括根据采集到的语音的声学特征,计算所述语音与解码网络中的音素序列的声学相似概率;其中所述解码网络包括多组音素序列;每一组音素序列对应一个预设的命令词内容或对应噪音内容;根据所述声学相似概率,获得所述语音与所述音素序列的匹配概率;将所述语音识别为匹配概率最高的音素序列所对应的内容。相应地,本发明专利技术还公开一种语音识别装置、终端和计算机可读存储介质。本发明专利技术实现避免将噪音识别为命令词,且无需在语音识别后计算置信度,达到降低误识别率的效果。

Speech recognition methods, devices, terminals and computer readable storage media

The invention discloses a method of speech recognition, including according to the acoustic characteristics of speech acquisition to the calculation of the voice acoustic phoneme sequence and decoding in the network is similar to the probability; wherein the decoding network comprises a plurality of phoneme sequences; phoneme sequences of each group corresponding to a preset command word content or the corresponding noise according to the content; the acoustic similarity probability, the probability of obtaining matching speech with the phoneme sequence; the speech recognition for matching corresponding phoneme sequences of the highest probability content. Accordingly, the invention also discloses a speech recognition device, a terminal and a computer readable storage medium. The invention avoids the recognition of noise as a command word, and does not need to calculate confidence after speech recognition, so as to reduce the effect of false recognition rate.

【技术实现步骤摘要】
语音识别方法、装置、终端和计算机可读存储介质
本专利技术实施例涉及语音识别技术,尤其涉及一种语音识别方法、装置、终端和计算机可读存储介质。
技术介绍
在语音命令词识别技术中,误识别一直是一个比较难以解决的问题。命令词识别之所以误识别率比较高,是因为现有技术的命令词识别方法普遍是通过构造解码网络来实现,该解码网络中包含多组与预设的命令词对应的音素序列。输入任何语音都会根据该语音从解码网络中搜索出一个最为匹配的音素序列,因此导致误识别。目前解决将噪音识别为命令词的方法是计算识别结果的置信度,当置信度大于预设的阈值时表示识别正确,当置信度小于该阈值时表示没有识别到命令词。由于置信度的计算依赖很多因素,尤其受环境影响会导致置信度的值变化范围很大。在嘈杂环境下,经常会出现正确的识别结果置信度很低但错误的识别结果置信度却很高的情况,使得误识别率依然很高。
技术实现思路
本专利技术提供一种语音命令的识别方法、装置、终端及计算机可读存储介质,以实现避免将噪音识别为命令词,且无需在语音识别后计算置信度,达到降低误识别率的效果。第一方面,本专利技术实施例提供了一种语音识别方法,包括:根据采集到的语音的声学特征,计算所述语音与解码网络中的音素序列的声学相似概率;其中,所述解码网络包括多组音素序列;每一组音素序列对应一个预设的命令词内容或对应噪音内容;根据所述声学相似概率,获得所述语音与所述音素序列的匹配概率;将所述语音识别为匹配概率最高的音素序列所对应的内容。第二方面,本专利技术还提供了一种语音识别装置,包括:计算模块,用于根据采集到的语音的声学特征,计算所述语音与解码网络中的音素序列的声学相似概率;其中,所述解码网络包括多组音素序列;每一组音素序列对应一个预设的命令词内容或对应噪音内容;匹配模块,用于根据所述声学相似概率,获得所述语音与所述音素序列的匹配概率;识别模块,用于将所述语音识别为匹配概率最高的音素序列所对应的内容。第三方面,本专利技术还提供了一种终端,所述终端包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例提供的语音识别方法。第四方面,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例提供的语音识别方法。本专利技术通过在解码网络中增加噪音内容对应的音素序列,采集到的语音可以在解码网络中搜索最匹配音素序列时就被识别为噪音或命令词,无需在解码网络搜索音素序列后对搜索结果进行置信度计算,从而解决现有技术采用受环境音素影响的置信度计算方法造成误识别率高的问题,实现避免将噪音识别为命令词,且降低误识别率的效果。附图说明图1是本专利技术实施例一提供的语音识别方法的流程图;图2是本专利技术实施例二提供的语音识别方法的流程图;图3是本专利技术实施例三提供的语音识别装置的结构示意图;图4是本专利技术实施例四提供的终端的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的语音识别方法的流程图,本实施例可适用于命令词识别的情况,该方法可以由语音识别装置来执行,具体包括如下步骤:步骤110、根据采集到的语音的声学特征,计算所述语音与解码网络中的音素序列的声学相似概率;其中,所述解码网络包括多组音素序列;每一组音素序列对应一个预设的命令词内容或对应噪音内容;由于本专利技术实施例是应用于对语音命令的识别,任意非命令词语音对于命令词识别而言都是干扰,因此都是噪音,则本专利技术实施例所述噪音指任意非命令词语音。具体地,解码网络可以通过多个音素节点构成互连网络,互连网络中串联的音素节点组成音素序列。在语音识别领域,一个音素与解码网络中的音素的声学相似概率,一般通过构建解码网络中的音素的声学模型来实现,声学相似概率指以语音的声学特征为输入对应的声学模型输出的概率。步骤120、根据所述声学相似概率,获得所述语音与所述音素序列的匹配概率;其中,为了简化识别过程的数据处理,可直接以声学相似概率作为匹配概率;但应用于识别要求高的场景,作为高识别率的语音识别方法,匹配概率除包含声学相似概率信息外,还可以包含其他的信息,例如,对于使用加权有限状态转换器构造的解码网络,匹配概率还包含音素序列的权重信息,该权重信息可涉及音素序列在实际应用中出现的概率,即语言模型概率。例如,在命令词识别场景中,部分命令词在实际应用出现的概率较高,如“音量调大”、“关机”等,而部分命令词在实际应用出现的概率较低,在两者声学特征相近的情况下,可以设置前者所对应的音素序列权重高于后者所对应的音素序列权重。此外,权重信息还可以根据语音识别方法的实施过程中的识别率来调整。步骤130、将所述语音识别为匹配概率最高的音素序列所对应的内容。上述步骤的工作原理是在解码网络中增加噪音内容对应的音素序列,会根据录入的噪音的声学特征使得噪音与解码网络中的噪音内容对应的音素序列匹配,使得基于声学特征识别出录入的噪音,能避免将非命令词识别为命令词,且相比于现有技术采用识别后计算置信度的方法,本实施例避免将噪音识别为命令词的方案不受环境音素影响,大大降低误识别率。为了降低误识别率,提高将噪音与解码网络中噪音内容对应的音素序列匹配的可能性,本实施例提供一种优选实施方式。具体地,步骤110、根据采集到的语音的声学特征,计算所述语音与解码网络中的音素序列的声学相似概率,具体包括:获取预先训练的解码网络中音素序列的声学模型;其中,训练噪音内容对应的声学模型所采用的噪音样本包括多个两两之间声学特征差值大于预设的阈值的语音样本;根据采集到的语音的声学特征,采用所述声学模型计算所述语音与解码网络中的音素序列的声学相似概率。在上述优选实施方式中,训练噪音声学模型的噪音样本包括多个两两之间声学特征差值大于预设的阈值的语音样本,即,噪音声学模型是采用多个差异较大的语音样本训练得到的,例如嘈杂的环境声音和大量互不相同的非命令词短语等。使用大量差异大的语音样本训练的到的声学模型所对应的音素序列会趋向于与各种声音之间差异最小化的自然声音,更容易与各种非命令词语音匹配。而训练命令词声学模型的命令词样本一般是用不同口音朗读的命令词语音,命令词样本之间的声学特征差异不大,因此仅对于命令词相近的声音声学相似概率高。因此,上述优选实施方式能提高将噪音与解码网络中噪音内容对应的音素序列匹配的可能性,降低误识别率。进一步地,所述解码网络是使用加权有限状态转换器构造的;则步骤120、所述根据所述声学相似概率,获得所述语音与所述音素序列的匹配概率,具体包括:计算所述声学相似概率与所述音素序列的权重的和值,作为所述语音与所述音素序列的匹配概率。当然,也可以计算声学相似概率与权重的乘积作为匹配概率。进一步地,所述解码网络还包括与静音内容对应的音素序列。增加静音内容对应的音素序列可提高用户体验。因为可以对噪音和静音做出区分,向用户反馈不一样的信号。例如,噪音可能是由于用户说错语音造成,因此可输出提示用户重说的信息,对于静音,可能是用户不小心触本文档来自技高网...
语音识别方法、装置、终端和计算机可读存储介质

【技术保护点】
一种语音识别方法,其特征在于,包括:根据采集到的语音的声学特征,计算所述语音与解码网络中的音素序列的声学相似概率;其中,所述解码网络包括多组音素序列,每一组音素序列对应一个预设的命令词内容或对应噪音内容;根据所述声学相似概率,获得所述语音与所述音素序列的匹配概率;将所述语音识别为匹配概率最高的音素序列所对应的内容。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:根据采集到的语音的声学特征,计算所述语音与解码网络中的音素序列的声学相似概率;其中,所述解码网络包括多组音素序列,每一组音素序列对应一个预设的命令词内容或对应噪音内容;根据所述声学相似概率,获得所述语音与所述音素序列的匹配概率;将所述语音识别为匹配概率最高的音素序列所对应的内容。2.如权利要求1所述的语音识别方法,其特征在于,所述解码网络是使用加权有限状态转换器构造的;所述根据所述声学相似概率,获得所述语音与所述音素序列的匹配概率,具体包括:计算所述声学相似概率与所述音素序列的权重的和值,作为所述语音与所述音素序列的匹配概率。3.如权利要求2所述的语音识别方法,其特征在于,还包括:若确认采集到的语音为噪音,且将所述语音识别为预先设定的命令词,则提高所述解码网络中噪音内容对应的音素序列的权重。4.如权利要求1-3任一所述的语音识别方法,其特征在于,所述解码网络还包括与静音内容对应的音素序列。5.如权利要求1-3任一所述的语音识别方法,其特征在于,所述根据采集到的语音的声学特征,计算所述语音与解码网络中的音素序列的声学相似概率,具体包括:获取预先训练的解码网络中音素序列的声学模型;其中,训练噪音内容对应的声学模型所采用的噪音样本包括多个两两之间声学特征差值大于预设的阈值的语音样本;根据采集到的语音的声学特征,采用所述声学模型计算所述语音与解码网络中的音素序列的声学相似概率。6.一种语音识别装置,其特征在于...

【专利技术属性】
技术研发人员:何金来雷宇
申请(专利权)人:北京智能管家科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1