The embodiment of the invention provides a speech recognition method, device, computer equipment and storage medium. After receiving the voice signal input by the user, the voice signal is decoded by a high frequency decoder and a general decoder. In the decoding process, at least one first decoding result is obtained by a high frequency decoder, and the pass is adopted. The decoder obtains at least one second decoding result, and determines the optimal decoding result according to at least one first decoding result and the at least one second decoding result. In this process, high-frequency decoder and general decoder use different speech models to decode, which can balance the accuracy of high-frequency recognition and generalization of general recognition, avoid the accuracy and generalization problems caused by the fusion of general language model and high-frequency language model, and thus improve speech recognition. The accuracy rate.
【技术实现步骤摘要】
语音识别方法、装置、用户设备及存储介质
本申请涉及语音识别
,尤其涉及一种语音识别方法、装置、用户设备及存储介质。
技术介绍
语音识别技术是将人类说话的声音识别并转换为文本的技术,是实现人机交互的重要途径之一。根据语音来源距离的不同,可以将语音信号分为近场语音信号和远场语音信号。目前的语音识别系统主要针对近场语音进行识别,传统的语音识别系统包括解码器、语言模型和声学模型三部分。近场语音识别过程中,解码器接收用户输入的语音信号,在解码空间上构建多条解码路径,将语音信号遍历每一条解码路径,基于声学模型和语音模型打分,得到每一条解码路径的声学模型得分和语音模型得分,基于得分确定出最优解码路径,根据最优解码路径输出最终的识别结果。而在远场语音识别场景下,例如智能音响等设备的使用过程中,用户和设备之间的距离较远,由于语音信号强度的衰减、室内环境的混响、周围噪声的干扰等因素,继续采用适用于近场语音识别的语音识别系统会大大降低语音识别的准确率。为提升远场语音识别的准确率,针对远场语音识别场景训练语音模块,将训练处的语言模型与传统的语言模型进行融合,以提升远场识别的准确率。上述针对远场语音识别场景训练特定的语言模型的方式,无法有效提升远场语音识别的准确率。
技术实现思路
本申请提供一种语音识别方法、装置、计算机设备及存储介质,以克服语音识别准确率低的问题。第一方面,本专利技术实施例提供一种语音识别方法,包括:接收用户输入的语音信号;采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结果,其中,所述高频解码器中的解码路径根据所述用户的高频语音指令确定;采用通用解码 ...
【技术保护点】
1.一种语音识别方法,其特征在于,包括:接收用户输入的语音信号;采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结果,其中,所述高频解码器中的解码路径根据所述用户的高频语音指令确定;采用通用解码器对所述语音信号进行解码,得到至少一个第二解码结果;从所述至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果。
【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:接收用户输入的语音信号;采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结果,其中,所述高频解码器中的解码路径根据所述用户的高频语音指令确定;采用通用解码器对所述语音信号进行解码,得到至少一个第二解码结果;从所述至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果。2.根据权利要求1所述的方法,其特征在于,所述采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结果,包括:将所述语音信号遍历所述高频解码器的解码空间的每一条解码路径,得到与各条解码路径分别对应的第一候选解码结果;采用高频语言模型和声学模型对全部第一候选解码结果进行打分,得到与各个第一候选解码结果分别对应的得分,其中,所述高频语言模型是根据所述用户的所述高频语音指令训练得到的;根据各个第一候选解码结果分别对应的得分,确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果,其中,M为自然数。3.根据权利要求2所述的方法,其特征在于,所述根据各个第一候选解码结果分别对应的得分,确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果,包括:将各个第一候选解码结果对应的语言层得分和声学层得分相加,得到与所述第一候选解码结果对应的总得分;从所述第一候选解码结果中确定总得分大于预设分数阈值的M个第一候选解码结果,所述M个第一候选解码结果作为M个所述第一解码结果。4.根据权利要求1所述的方法,其特征在于,所述采用通用解码器对所述语音信号进行解码,得到至少一个第二解码结果,包括:将所述语音信号遍历所述通用解码器的解码空间的每一条解码路径,得到与各条解码路径分别对应的第二候选解码结果;采用通用语言模型和声学模型对全部第二候选解码结果进行打分,得到与各个第二候选解码结果分别对应的得分;根据各个第二候选解码结果分别对应的得分,确定得分较高的前N个候选解码结果作为N个所述第二解码结果,其中,N为自然数。5.根据权利要求4所述的方法,其特征在于,所述根据各个第二候选解码结果分别对应的得分,确定得分较高的前N个第二候选解码结果作为N个所述第二解码结果,包括:将各个第二候选解码结果对应的语言层得分和声学层得分相加,得到与所述第二候选解码结果对应的总得分;从所述第二候选解码结果中确定总得分大于预设分数阈值的N个第二候选解码结果,所述N个第二候选解码结果作为N个所述第二解码结果。6.根据权利要求1~5任一项所述的方法,其特征在于,所述从所述至少一个第一解码结果和所述至少一个第二解码结果中,确定最优解码结果,包括:通过线性回归模型对所述至少一个第一解码结果和所述至少一个第二解码结果进行打分,得到与各个第一解码结果对应的得分以及与各个第二解码结果对应的得分;其中,所述线性回归模型融合声学模型特征和语言模型特征;从所述第一解码结果和第二解码结果中确定得分最高的解码结果作为最优解码结果。7.根据权利要求6所述的方法,其特征在于,所述线性回归模型还融合下述特征中的一个或者多个特征:语义特征、解码特征、声学置信度特征、上下文特征、语义特征、用户特征。8.根据权利要求1~5任一项所述的方法,其特征在于,所述语音信号具体为远场语音信号。9.一种语音识别装置,其特征在于,包括:接收模块,用于接收用户输入的语音信号;高频解码模块,用于采用高频解码器对所述语音信号进行解码,得到至少一个第一解码结...
【专利技术属性】
技术研发人员:付晓寅,陈涛,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。