语音识别方法、装置、用户设备及存储介质制造方法及图纸

技术编号:18897335 阅读:30 留言:0更新日期:2018-09-08 12:21
本发明专利技术实施例提供一种语音识别方法、装置、计算机设备及存储介质,接收到用户输入的语音信号后,同时采用高频解码器和通用解码器对语音信号进行解码,解码过程中,采用高频解码器获得至少一个第一解码结果,采用通用解码器获得至少一个第二解码结果,根据至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果。该过程中,高频解码器和通用解码器分别使用不同的语音模型进行解码,可以平衡高频识别的准确性和通用识别的泛化性,避免将通用语言模型和高频语言模型融合造成的准确性和泛化性无法兼顾的问题,从而提升了语音识别的准确率。

Speech recognition method, device, user equipment and storage medium

The embodiment of the invention provides a speech recognition method, device, computer equipment and storage medium. After receiving the voice signal input by the user, the voice signal is decoded by a high frequency decoder and a general decoder. In the decoding process, at least one first decoding result is obtained by a high frequency decoder, and the pass is adopted. The decoder obtains at least one second decoding result, and determines the optimal decoding result according to at least one first decoding result and the at least one second decoding result. In this process, high-frequency decoder and general decoder use different speech models to decode, which can balance the accuracy of high-frequency recognition and generalization of general recognition, avoid the accuracy and generalization problems caused by the fusion of general language model and high-frequency language model, and thus improve speech recognition. The accuracy rate.

【技术实现步骤摘要】
语音识别方法、装置、用户设备及存储介质
本申请涉及语音识别
,尤其涉及一种语音识别方法、装置、用户设备及存储介质。
技术介绍
语音识别技术是将人类说话的声音识别并转换为文本的技术,是实现人机交互的重要途径之一。根据语音来源距离的不同,可以将语音信号分为近场语音信号和远场语音信号。目前的语音识别系统主要针对近场语音进行识别,传统的语音识别系统包括解码器、语言模型和声学模型三部分。近场语音识别过程中,解码器接收用户输入的语音信号,在解码空间上构建多条解码路径,将语音信号遍历每一条解码路径,基于声学模型和语音模型打分,得到每一条解码路径的声学模型得分和语音模型得分,基于得分确定出最优解码路径,根据最优解码路径输出最终的识别结果。而在远场语音识别场景下,例如智能音响等设备的使用过程中,用户和设备之间的距离较远,由于语音信号强度的衰减、室内环境的混响、周围噪声的干扰等因素,继续采用适用于近场语音识别的语音识别系统会大大降低语音识别的准确率。为提升远场语音识别的准确率,针对远场语音识别场景训练语音模块,将训练处的语言模型与传统的语言模型进行融合,以提升远场识别的准确率。上述针对远场语音识别场景训练特定的语言模型的方式,无法有效提升远场语音识别的准确率。
技术实现思路
本申请提供一种语音识别方法、装置、计算机设备及存储介质,以克服语音识别准确率低的问题。第一方面,本专利技术实施例提供一种语音识别方法,包括:接收用户输入的语音信号;采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结果,其中,所述高频解码器中的解码路径根据所述用户的高频语音指令确定;采用通用解码器对所述语音信号进行解码,得到至少一个第二解码结果;从所述至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果。在一种可能的设计中,所述采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结果,包括:将所述语音信号遍历所述高频解码器的解码空间的每一条解码路径,得到与各条解码路径分别对应的第一候选解码结果;采用高频语言模型和声学模型对全部第一候选解码结果进行打分,得到与各个第一候选解码结果分别对应的得分,其中,所述高频语言模型是根据所述用户的所述高频语音指令训练得到的;根据各个第一候选解码结果分别对应的得分,确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果,其中,M为自然数。进一步的,所述根据各个第一候选解码结果分别对应的得分,确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果,包括:将各个第一候选解码结果对应的语言层得分和声学层得分相加,得到与所述第一候选解码结果对应的总得分;从所述第一候选解码结果中确定总得分大于预设分数阈值的M个第一候选解码结果,所述M个第一候选解码结果作为M个所述第一解码结果。在一种可能的设计中,所述采用通用解码器对所述语音信号进行解码,得到至少一个第二解码结果,包括:将所述语音信号遍历所述通用解码器的解码空间的每一条解码路径,得到与各条解码路径分别对应的第二候选解码结果;采用通用语言模型和声学模型对全部第二候选解码结果进行打分,得到与各个第二候选解码结果分别对应的得分;根据各个第二候选解码结果分别对应的得分,确定得分较高的前N个候选解码结果作为N个所述第二解码结果,其中,N为自然数。进一步的,所述根据各个第二候选解码结果分别对应的得分,确定得分较高的前N个第二候选解码结果作为N个所述第二解码结果,包括:将各个第二候选解码结果对应的语言层得分和声学层得分相加,得到与所述第二候选解码结果对应的总得分;从所述第二候选解码结果中确定总得分大于预设分数阈值的N个第二候选解码结果,所述N个第二候选解码结果作为N个所述第二解码结果。在一种可能的设计中,所述从所述至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果,包括:通过线性回归模型对所述至少一个第一解码结果和所述至少一个第二解码结果进行打分,得到与各个第一解码结果对应的得分以及与各个第二解码结果对应的得分;其中,所述线性回归模型融合声学模型特征和语言模型特征;从所述第一解码结果和第二解码结果中确定得分最高的解码结果作为最优解码结果。进一步的,所述线性回归模型还融合下述特征中的一个或者多个特征:语义特征、解码特征、声学置信度特征、上下文特征、语义特征、用户特征。在一种可能的设计中,所述语音信号具体为远场语音信号。第二方面,本专利技术实施例提供一种语音识别装置,包括:接收模块,用于接收用户输入的语音信号;高频解码模块,用于采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结果,其中,所述高频解码器中的解码路径根据所述用户的高频语音指令确定;通用解码模块,用于采用通用解码器对所述语音信号进行解码,得到至少一个第二解码结果;确定模块,用于从所述至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果。在一种可能的设计中,所述高频解码模块,具体用于将所述语音信号遍历所述高频解码器的解码空间的每一条解码路径,得到与各条解码路径分别对应的第一候选解码结果;采用高频语言模型和声学模型对全部第一候选解码结果进行打分,得到与各个第一候选解码结果分别对应的得分,其中,所述高频语言模型是根据所述用户的所述高频语音指令训练得到的;根据各个第一候选解码结果分别对应的得分,确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果,其中,M为自然数。进一步的,所述高频解码模块,在根据各个第一候选解码结果分别对应的得分,确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果时,具体用于将各个第一候选解码结果对应的语言层得分和声学层得分相加,得到与所述第一候选解码结果对应的总得分;从所述第一候选解码结果中确定总得分大于预设分数阈值的M个第一候选解码结果,所述M个第一候选解码结果作为M个所述第一解码结果。在一种可能的设计中,所述通用解码模块,具体用于将所述语音信号遍历所述通用解码器的解码空间的每一条解码路径,得到与各条解码路径分别对应的第二候选解码结果;采用通用语言模型和声学模型对全部第二候选解码结果进行打分,得到与各个第二候选解码结果分别对应的得分;根据各个第二候选解码结果分别对应的得分,确定得分较高的前N个候选解码结果作为N个所述第二解码结果,其中,N为自然数。进一步的,所述通用解码模块,在根据各个第二候选解码结果分别对应的得分,确定得分较高的前N个第二候选解码结果作为N个所述第二解码结果时,具体用于将各个第二候选解码结果对应的语言层得分和声学层得分相加,得到与所述第二候选解码结果对应的总得分;从所述第二候选解码结果中确定总得分大于预设分数阈值的N个第二候选解码结果,所述N个第二候选解码结果作为N个所述第二解码结果。在一种可能的设计中,所述确定模块,具体用于通过线性回归模型对所述至少一个第一解码结果和所述至少一个第二解码结果进行打分,得到与各个第一解码结果对应的得分以及与各个第二解码结果对应的得分;其中,所述线性回归模型融合声学模型特征和语言模型特征;从所述第一解码结果和第二解码结果中确定得分最高的解码结果作为最优解码结果。进一步的,所述线性回归模型还融合下述特征中的一个或者多个特征:语义特征、解码特征、声学置信度特征、上下文特征本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:接收用户输入的语音信号;采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结果,其中,所述高频解码器中的解码路径根据所述用户的高频语音指令确定;采用通用解码器对所述语音信号进行解码,得到至少一个第二解码结果;从所述至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:接收用户输入的语音信号;采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结果,其中,所述高频解码器中的解码路径根据所述用户的高频语音指令确定;采用通用解码器对所述语音信号进行解码,得到至少一个第二解码结果;从所述至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果。2.根据权利要求1所述的方法,其特征在于,所述采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结果,包括:将所述语音信号遍历所述高频解码器的解码空间的每一条解码路径,得到与各条解码路径分别对应的第一候选解码结果;采用高频语言模型和声学模型对全部第一候选解码结果进行打分,得到与各个第一候选解码结果分别对应的得分,其中,所述高频语言模型是根据所述用户的所述高频语音指令训练得到的;根据各个第一候选解码结果分别对应的得分,确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果,其中,M为自然数。3.根据权利要求2所述的方法,其特征在于,所述根据各个第一候选解码结果分别对应的得分,确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果,包括:将各个第一候选解码结果对应的语言层得分和声学层得分相加,得到与所述第一候选解码结果对应的总得分;从所述第一候选解码结果中确定总得分大于预设分数阈值的M个第一候选解码结果,所述M个第一候选解码结果作为M个所述第一解码结果。4.根据权利要求1所述的方法,其特征在于,所述采用通用解码器对所述语音信号进行解码,得到至少一个第二解码结果,包括:将所述语音信号遍历所述通用解码器的解码空间的每一条解码路径,得到与各条解码路径分别对应的第二候选解码结果;采用通用语言模型和声学模型对全部第二候选解码结果进行打分,得到与各个第二候选解码结果分别对应的得分;根据各个第二候选解码结果分别对应的得分,确定得分较高的前N个候选解码结果作为N个所述第二解码结果,其中,N为自然数。5.根据权利要求4所述的方法,其特征在于,所述根据各个第二候选解码结果分别对应的得分,确定得分较高的前N个第二候选解码结果作为N个所述第二解码结果,包括:将各个第二候选解码结果对应的语言层得分和声学层得分相加,得到与所述第二候选解码结果对应的总得分;从所述第二候选解码结果中确定总得分大于预设分数阈值的N个第二候选解码结果,所述N个第二候选解码结果作为N个所述第二解码结果。6.根据权利要求1~5任一项所述的方法,其特征在于,所述从所述至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果,包括:通过线性回归模型对所述至少一个第一解码结果和所述至少一个第二解码结果进行打分,得到与各个第一解码结果对应的得分以及与各个第二解码结果对应的得分;其中,所述线性回归模型融合声学模型特征和语言模型特征;从所述第一解码结果和第二解码结果中确定得分最高的解码结果作为最优解码结果。7.根据权利要求6所述的方法,其特征在于,所述线性回归模型还融合下述特征中的一个或者多个特征:语义特征、解码特征、声学置信度特征、上下文特征、语义特征、用户特征。8.根据权利要求1~5任一项所述的方法,其特征在于,所述语音信号具体为远场语音信号。9.一种语音识别装置,其特征在于,包括:接收模块,用于接收用户输入的语音信号;高频解码模块,用于采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结...

【专利技术属性】
技术研发人员:付晓寅陈涛
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1