连续语音识别方法、装置、设备和存储介质制造方法及图纸

技术编号:19323360 阅读:22 留言:0更新日期:2018-11-03 12:20
本发明专利技术公开了连续语音识别方法、装置、设备和存储介质。通过将待识别连续语音的当前帧进行预处理得到语音转换数据;根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,连续语音识别结构包括加权有限状态转换器WFST和语义结束状态节点;若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的搜索路径按照路径累积代价进行排序;根据按照路径累积代价进行排序的结果,取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果,达到结构改造简单和搜索效率高的技术效果。

Continuous speech recognition method, device, device and storage medium

The invention discloses a continuous speech recognition method, device, device and storage medium. The speech conversion data is obtained by preprocessing the current frame of the continuous speech to be recognized, and the state node path information of the current frame is generated by forward searching the speech conversion data in the continuous speech recognition structure. The continuous speech recognition structure includes the weighted finite state converter WFST and the semantic end state section. Points; if the path information of state nodes includes semantic end state nodes, the search paths corresponding to the semantic end state nodes in the path information of state nodes are sorted according to the cumulative cost of the path; according to the result of sorting according to the cumulative cost of the path, the search path with the minimum cumulative cost of the path is chosen as the best one. Search path, and output the search results of the best search path, to achieve the technical effect of simple structural transformation and high search efficiency.

【技术实现步骤摘要】
连续语音识别方法、装置、设备和存储介质
本专利技术实施例涉及语音处理技术,尤其涉及一种连续语音识别方法、装置、设备和存储介质。
技术介绍
在移动互联网及万物互联的大背景下,连续语音识别作为一种人机交互手段正在起着举足轻重的作用,其被广泛应用于生活中。在实际应用中,面对大篇幅的连续语音输入,在识别过程中需要对实时的识别结果进行断句,对断句的部分重新进行识别,以便更新实时的识别结果,从而在保证实时识别的基础上,增加识别的准确性。专利技术人在实现本专利技术的过程中,发现现有技术存在如下缺陷:一方面,现有的对连续语音的断句位置仅仅依赖于语音段和非语音段的判别。而实际上,断句的复杂性在于不能仅仅靠识别是否为语音段,而还需要考虑语义的完整性。例如,在实际的语音识别中,常面临的语速慢、停顿长等问题都会导致断句位置的误判,从而影响到识别的准确性。另一方面,加权有限状态转换器(WeightedFinite-StateTransducers,WFST)被广泛用于连续语音识别领域,是目前较为成熟的技术方案。由于WFST中并非所有状态都可能作为语音输入结束的状态节点,因此,不论是获取最终结果,或者是获取中间的临时结果,都需要先判断对应帧的状态节点中哪些状态节点可能作为语音输入结束的状态节点,再在这些状态节点中找到最优的结果。每次在海量的状态节点中查找其语义结束概率,并进一步判断该状态节点是否可以作为终止状态,需要消耗大量的时间,效率极低。
技术实现思路
本专利技术提供一种连续语音识别方法、装置、设备和存储介质,以解决语音输入结束状态节点判断复杂和识别过程复杂的问题。第一方面,本专利技术实施例提供了一种连续语音识别方法,该方法包括:将待识别连续语音的当前帧进行预处理得到语音转换数据;根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器WFST和语义结束状态节点;所述加权有限状态转换器WFST中的第一状态节点与所述语义结束状态节点之间设置有前向边;所述第一状态节点为所述加权有限状态转换器WFST中语义结束概率不为0的状态节点;所述前向边的权重值等于所述加权有限状态转换器WFST结构中状态节点对应的所述语义结束概率;所述状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;若所述状态节点路径信息中包括语义结束状态节点,则将所述状态节点路径信息中所述语义结束状态节点对应的搜索路径按照路径累积代价进行排序;根据所述按照路径累积代价进行排序的结果,取出所述路径累积代价最小的搜索路径作为最佳搜索路径,并输出所述最佳搜索路径的搜索结果。可选的,所述根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,包括:根据所述语音转换数据在所述连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个所述状态节点对应的搜索路径;根据各所述搜索路径计算各所述状态节点对应的路径累积代价;整合所述状态节点、所述状态节点对应的搜索路径和所述路径累积代价生成所述当前帧的状态节点路径信息。可选的,所述根据各所述搜索路径计算各所述状态节点对应的路径累积代价,包括:累计各所述搜索路径经过的所述连续语音识别结构前向边上权重,并结合声学模型代价计算各所述状态节点对应的路径累积代价。可选的,在根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息之后,还包括:若所述当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为所述待识别连续语音的最后一帧,则将所述待识别连续语音的下一帧作为当前帧,并继续前向搜索。第二方面,本专利技术实施例提供了一种连续语音识别方法,该方法包括:将待识别连续语音的当前帧进行预处理得到语音转换数据;根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器WFST和语义结束状态节点;所述加权有限状态转换器WFST中的第一状态节点与所述语义结束状态节点之间设置有前向边;所述第一状态节点为所述加权有限状态转换器WFST中语义结束概率不为0的状态节点;所述前向边的权重值等于所述加权有限状态转换器WFST结构中状态节点对应的所述语义结束概率;所述状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;若所述状态节点路径信息中包括语义结束状态节点,则将所述状态节点路径信息中所述语义结束状态节点对应的状态节点路径信息保存到语义结束状态节点路径信息;获取所述语义结束状态节点路径信息中的所有所述状态节点路径信息;从所述语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出所述最佳搜索路径的搜索结果。可选的,所述根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,包括:根据所述语音转换数据在所述连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个所述状态节点对应的搜索路径;根据各所述搜索路径计算各所述状态节点对应的路径累积代价;整合所述状态节点、所述状态节点对应的搜索路径和所述路径累积代价生成所述当前帧的状态节点路径信息。可选的,所述根据各所述搜索路径计算各所述状态节点对应的路径累积代价,包括:累计各所述搜索路径经过的所述连续语音识别结构前向边上权重,并结合声学模型代价计算各所述状态节点对应的路径累积代价。可选的,在根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息之后,还包括:若所述当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为所述待识别连续语音的最后一帧,则将所述待识别连续语音的下一帧作为当前帧,并继续前向搜索。第三方面,本专利技术实施例还提供了一种连续语音识别装置,该装置包括:预处理模块,用于将待识别连续语音的当前帧进行预处理得到语音转换数据;状态节点路径信息生成模块,用于根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器WFST和语义结束状态节点;所述加权有限状态转换器WFST中的第一状态节点与所述语义结束状态节点之间设置有前向边;所述第一状态节点为所述加权有限状态转换器WFST中语义结束概率不为0的状态节点;所述前向边的权重值等于所述加权有限状态转换器WFST结构中状态节点对应的所述语义结束概率;所述状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;搜索路径排序模块,用于若所述状态节点路径信息中包括语义结束状态节点,则将所述状态节点路径信息中所述语义结束状态节点对应的搜索路径按照路径累积代价进行排序;搜索结果输出模块,用于根据所述按照路径累积代价进行排序的结果,取出所述路径累积代价最小的搜索路径作为最佳搜索路径,并输出所述最佳搜索路径的搜索结果。第四方面,本专利技术实施例还提供了一种连续语音识别装置,该装置包括:预处理模块,用于将待识别连续语音的当前帧进行预处理得到语音转换数据;状态节点路径信息生成模块,用于根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器WFST和语义本文档来自技高网...

【技术保护点】
1.一种连续语音识别方法,其特征在于,包括:将待识别连续语音的当前帧进行预处理得到语音转换数据;根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器WFST和语义结束状态节点;所述加权有限状态转换器WFST中的第一状态节点与所述语义结束状态节点之间设置有前向边;所述第一状态节点为所述加权有限状态转换器WFST中语义结束概率不为0的状态节点;所述前向边的权重值等于所述加权有限状态转换器WFST结构中状态节点对应的所述语义结束概率;所述状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;若所述状态节点路径信息中包括语义结束状态节点,则将所述状态节点路径信息中所述语义结束状态节点对应的搜索路径按照路径累积代价进行排序;根据所述按照路径累积代价进行排序的结果,取出所述路径累积代价最小的搜索路径作为最佳搜索路径,并输出所述最佳搜索路径的搜索结果。

【技术特征摘要】
1.一种连续语音识别方法,其特征在于,包括:将待识别连续语音的当前帧进行预处理得到语音转换数据;根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器WFST和语义结束状态节点;所述加权有限状态转换器WFST中的第一状态节点与所述语义结束状态节点之间设置有前向边;所述第一状态节点为所述加权有限状态转换器WFST中语义结束概率不为0的状态节点;所述前向边的权重值等于所述加权有限状态转换器WFST结构中状态节点对应的所述语义结束概率;所述状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;若所述状态节点路径信息中包括语义结束状态节点,则将所述状态节点路径信息中所述语义结束状态节点对应的搜索路径按照路径累积代价进行排序;根据所述按照路径累积代价进行排序的结果,取出所述路径累积代价最小的搜索路径作为最佳搜索路径,并输出所述最佳搜索路径的搜索结果。2.根据权利要求1所述的连续语音识别方法,其特征在于,所述根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,包括:根据所述语音转换数据在所述连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个所述状态节点对应的搜索路径;根据各所述搜索路径计算各所述状态节点对应的路径累积代价;整合所述状态节点、所述状态节点对应的搜索路径和所述路径累积代价生成所述当前帧的状态节点路径信息。3.根据权利要求2所述的连续语音识别方法,其特征在于,所述根据各所述搜索路径计算各所述状态节点对应的路径累积代价,包括:累计各所述搜索路径经过的所述连续语音识别结构前向边上权重,并结合声学模型代价计算各所述状态节点对应的路径累积代价。4.根据权利要求1所述的连续语音识别方法,其特征在于,在根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息之后,还包括:若所述当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为所述待识别连续语音的最后一帧,则将所述待识别连续语音的下一帧作为当前帧,并继续前向搜索。5.一种连续语音识别方法,其特征在于,包括:将待识别连续语音的当前帧进行预处理得到语音转换数据;根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器WFST和语义结束状态节点;所述加权有限状态转换器WFST中的第一状态节点与所述语义结束状态节点之间设置有前向边;所述第一状态节点为所述加权有限状态转换器WFST中语义结束概率不为0的状态节点;所述前向边的权重值等于所述加权有限状态转换器WFST结构中状态节点对应的所述语义结束概率;所述状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;若所述状态节点路径信息中包括语义结束状态节点,则将所述状态节点路径信息中所述语义结束状态节点对应的状态节点路径信息保存到语义结束状态节点路径信息;获取所述语义结束状态节点路径信息中的所有所述状态节点路径信息;从所述语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出所述最佳搜索路径的搜索结果。6.根据权利要求5所述的连续语音识别方法,其特征在于,所述根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,包括:根据所述语音转换数据在所述连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个所述状态节点对应的搜索路径;根据各所述搜索路径计算各所述状态节点对应的路径...

【专利技术属性】
技术研发人员:李忠杰
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1