语音识别方法与装置制造方法及图纸

技术编号:15507907 阅读:123 留言:0更新日期:2017-06-04 02:24
本发明专利技术涉及一种语音识别方法,包括:接收第一语音输入,并将所接收的第一语音输入转换为第一数字信号;将所述第一数字信号传送至云端;接收根据所述第一数字信号生成的第一后处理结果;接收第二语音输入,并所接收的第二语音输入转换为第二数字信号;利用第一语音识别模型对所述第二数字信号进行第一语音识别;将所述第一后处理结果与对所述第二数字信号进行的第一语音识别的识别结果进行比较;根据所述比较的结果执行相应动作。本发明专利技术还涉及一种相应的语音识别装置。

Speech recognition method and apparatus

The invention relates to a speech recognition method comprises: receiving a first voice input, and converts the first voice input received for the first digital signal; the first digital signal transmitted to the cloud; receiving according to the first results postprocessing of the first digital signal generation; receiving second voice input, and received second speech input is converted to second digital signal; the first speech recognition on the second digital signal using the first speech recognition model; compare the first identification results and postprocessing of the second digital signal the first speech recognition results; execute the corresponding action according to the result of the comparison. The invention also relates to a corresponding speech recognition device.

【技术实现步骤摘要】
语音识别方法与装置
本专利技术涉及一种语音识别方法及装置,特别地,涉及一种基于云端语音识别的低时延语音识别方法与相应的装置。
技术介绍
移动设备尤其是智能手机等一般采用多种交互方式,而其中以语音识别为主要技术的语音交互是移动设备上重要的交互方式。语音识别(SpeechRecognition)技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是语音中的内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列并进行相应的操作。语音识别的主流技术是基于因马尔科夫模型(HiddenMarkovModel,HMM),常用的是连续分布的HMM模型,称为CDHMM。在语音识别任务中,一般需要声学模型(AcousticModel)和语言模型(LanguageModel)。对于移动设备来说,语音识别任务的运算量很大,特别是一些信息查询任务是大词表连续语音识别(LargeVocabularyContinuousSpeechRecognition,LVCSR),需要较大的运算量。一种解决方案是采用基于云端的语音识别。通过在移动客户端把语音或者语音特征上传到云端(亦即,服务器端),在服务器端进行语音识别,然后把语音识别的结果传到移动客户端。通过云端的配合,使得移动客户端的运算量比较小,并将主要的运算量集中在云端服务器,这样有利于采用更为复杂的、准确率更好的语音识别算法,同时可以方便地和其他的应用服务结合起来。然而,这种全然由云端进行语音识别计算的缺点是传输的延时较大,从客户端语音录制完毕,到云端服务器处理完毕,再到客户端获得云端服务器进行语音识别处理所得到的相关信息、并作出正确的动作,其间发生的延时一般都在几百毫秒到秒级别,用户的体验较差。
技术实现思路
基于此,有必要提供一种降低延迟的语音识别方法,以及相应的语音识别装置。一种语音识别方法,包括:接收第一语音输入,并将所接收的第一语音输入转换为第一数字信号;将所述第一数字信号传送至云端;接收根据所述第一数字信号生成的第一后处理结果;接收第二语音输入,并将所接收的第二语音输入转换为第二数字信号;利用第一语音识别模型对所述第二数字信号进行第一语音识别;将所述第一后处理结果与对所述第二数字信号进行的第一语音识别的识别结果进行比较,以确定所述语音识别的结果。优选地,所述第一后处理结果包括多个可能的后处理结果,其中所述将第一后处理结果与对第二数字信号进行的第一语音识别的识别结果进行比较包括:将所述对第二数字信号进行的第一语音识别的识别结果与所述多个可能的后处理结果进行比较;确定所述多个可能的后处理结果中与所述对第二数字信号进行的第一语音识别的识别结果最相似的后处理结果为所述比较的结果。优选地,所述第一语音识别模型为基于声韵母的声学模型和语言模型。优选地,所述方法进一步包括:利用第一语音识别模型对所述第一数字信号进行第一语音识别;将所述第一后处理结果与对所述第一数字信号、第二数字信号进行所述第一语音识别的识别结果进行比较。优选地,所述方法进一步包括:将所述第二数字信号传送至云端;接收根据所述第一数字信号、第二数字信号生成的第二后处理结果;接收第三语音输入,并所接收的第三语音输入转换为第三数字信号;利用第一语音识别模型对所述第三数字信号进行第一语音识别;将所述第二后处理结果与对所述第一数字信号、第二数字信号、第三数字信号进行的第一语音识别的识别结果进行比较,以确定所述语音识别的结果。优选地,所述方法进一步包括:根据所述比较的结果执行相应动作。一种语音识别方法,包括:接收第一数字信号,所述第一数字信号是根据第一语音输入而生成的;利用第二语音识别模型对所述第一数字信号进行第二语音识别;根据对所述第一数字信号进行第二语音识别的识别结果,利用后处理模型进行后处理,得到第一后处理结果;输出所述第一后处理结果。优选地,所述第二语音识别模型为基于音素三音子的声学模型和统计语言模型。优选地,所述统计语言模型为基于词的三元统计语言模型(3-Gram)模型。优选地,所述后处理模型为阶数高于第二语音识别模型的语言模型。优选地,第二语音识别的声学模型为阶数高于所述第一语音识别模型的声学模型。优选地,所述后处理模型为基于词的六元统计语言模型(6-Gram)模型。优选地,所述后处理模型采用预设地域的兴趣点列表进行。优选地,所述方法进一步包括:接收第二数字信号,所述第二数字信号是根据第二语音输入而生成的;利用第二语音识别模型对所述第二数字信号进行第二语音识别;根据对所述第一数字信号以及所述第二数字信号进行第二语音识别的识别结果,利用后处理模型进行后处理,得到第二后处理结果;输出所述第二后处理结果。一种语音识别装置,包括:语音采集模块,用于接收语音输入,并将所接收的语音转换为相对应的数字信号;第一通信模块,与所述语音采集模块相连,用于将所述数字信号传送至云端,并用于接收根据所述数字信号而生成的后处理结果;第一语音识别模块,与所述语音采集模块相连,用于根据所述数字信号进行第一语音识别;判断模块,与所述语音识别模块及所述通信模块相连,用于将所述后处理结果与所述语音识别模块进行第一语音识别的识别结果进行比较;以生成比较结果。优选地,所述语音识别装置进一步包括动作模块,与所述判断模块相连,用于根据所述判断模块的比较结果而执行相对应的动作。优选地,所述后处理结果包括多个可能的后处理结果,所述判断模块用于将所述多个可能的后处理结果与所述语音识别模块进行第一语音识别的识别结果进行比较,并将与所述语音识别模块进行第一语音识别的识别结果最相似的后处理结果作为所述比较结果。优选地,所述第一语音识别模块利用基于声韵母的声学模型和语言模型进行所述第一语音识别。优选地,所述第一语音识别模块用于将间隔预设时间的第一数字信号、第二数字信号进行所述第一语音识别;所述判断模块用于将根据所述第一数字信号而生成的后处理结果与所述第一语音识别模块将第一数字信号、第二数字信号进行第一语音识别的识别结果进行比较;以生成比较结果。一种语音识别装置,包括:第二通信模块,用于接收根据所采集的语音输入转换而成的相对应的数字信号;第二语音识别模块,与所述第二通信模块相连,用于利用第二语音识别模型对所述数字信号进行第二语音识别;后处理模块,与所述第二语音识别模块相连,用于利用后处理模型根据所述语音识别模块对所述数字信号进行第二语音识别的识别结果进行后处理,并得到后处理结果;其中所述第二通信模块还用于将所述后处理结果输出。优选地,所述第二语音识别模型为基于音素三音子的声学模型和统计语言模型。优选地,所述统计语言模型为基于词的三元统计语言模型(3-Gram)模型。优选地,所述后处理模型为阶数高于第二语音识别模型的语言模型。优选地,所述后处理模型为基于词的六元统计语言模型(6-Gram)模型。优选地,所述后处理模型采用预设地域的兴趣点列表进行。优选地,所述语音识别模块用于将间隔预设时间的第一数字信号、第二数字信号进行所述第二语音识别;所述后处理模块用于根据所述语音识别模块对所述第一数字信号以及所述第二数字信号进行第二语音识别的识别结果,利用后处理模型进行后处理,得到第二后处理结果。根据本专利技术各实施方式的语音本文档来自技高网
...
语音识别方法与装置

【技术保护点】
一种语音识别方法,其特征在于,包括:接收第一语音输入,并将所接收的第一语音输入转换为第一数字信号;将所述第一数字信号传送至云端;接收根据所述第一数字信号生成的第一后处理结果;接收第二语音输入,并将所接收的第二语音输入转换为第二数字信号;利用第一语音识别模型对所述第二数字信号进行第一语音识别;将所述第一后处理结果与对所述第二数字信号进行的第一语音识别的识别结果进行比较,以确定所述语音识别的结果。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:接收第一语音输入,并将所接收的第一语音输入转换为第一数字信号;将所述第一数字信号传送至云端;接收根据所述第一数字信号生成的第一后处理结果;接收第二语音输入,并将所接收的第二语音输入转换为第二数字信号;利用第一语音识别模型对所述第二数字信号进行第一语音识别;将所述第一后处理结果与对所述第二数字信号进行的第一语音识别的识别结果进行比较,以确定所述语音识别的结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述第一后处理结果包括多个可能的后处理结果,其中所述将第一后处理结果与对第二数字信号进行的第一语音识别的识别结果进行比较包括:将所述对第二数字信号进行的第一语音识别的识别结果与所述多个可能的后处理结果进行比较;确定所述多个可能的后处理结果中与所述对第二数字信号进行的第一语音识别的识别结果最相似的后处理结果为所述比较的结果。3.根据权利要求1所述的语音识别方法,其特征在于,进一步包括:利用第一语音识别模型对所述第一数字信号进行第一语音识别;将所述第一后处理结果与对所述第一数字信号、第二数字信号进行所述第一语音识别的识别结果进行比较。4.根据权利要求1所述的语音识别方法,其特征在于,进一步包括:将所述第二数字信号传送至云端;接收根据所述第一数字信号、第二数字信号生成的第二后处理结果;接收第三语音输入,并所接收的第三语音输入转换为第三数字信号;利用第一语音识别模型对所述第三数字信号进行第一语音识别;将所述第二后处理结果与对所述第一数字信号、第二数字信号、第三数字信号进行的第一语音识别的识别结果进行比较,以确定所述语音识别的结果。5.一种语音识别方法,其特征在于,包括:接收第一数字信号,所述第一数字信号是根据第一语音输入而生成的;利用第二语音识别模型对所述第一数字信号进行第二语音识别;根据对所述第一数字信号进行第二语音识别的识别结果,利用后处理模型进行后处理,得到第一后处理结果;输出所述第一后处理结果。6.根据权利要求5所述的语音识别方法,其特征在于,进一步包括:接收第二数字信号,所述第二数字信号是根据第二语音输入而生成的;利用第二语音识别模型对所述第二数字信号进...

【专利技术属性】
技术研发人员:黄石磊王昕刘轶程刚
申请(专利权)人:深圳市北科瑞声科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1