The present disclosure provides a speech recognition method, device, device and computer readable storage medium. The method includes obtaining the first acoustic decoding information through the first acoustic model and obtaining the second acoustic decoding information through the second acoustic model for the input speech signal, wherein the second acoustic model is generated through the joint modeling of acoustics and language. The method also includes determining the first group of candidate recognition results based on the first acoustic decoding information and the second group of candidate recognition results based on the second acoustic decoding information, and then determining the final recognition results for the speech signal based on the two groups of candidate recognition results. The embodiment of the disclosure proposes a speech recognition scheme based on double decoding, which makes use of the acoustic diversity of one acoustic model to make up for the disadvantage of less acoustic paths of the other acoustic model. The two decoding paths are independent of each other and expand the decoding space, so as to improve the accuracy of speech recognition.
【技术实现步骤摘要】
语音识别方法、装置、设备以及计算机可读存储介质
本公开的实施例总体上涉及语音识别
,并且更具体地涉及基于双解码的语音识别方法、装置、设备以及计算机可读存储介质。
技术介绍
语音识别是指通过计算机把语音信号转换为对应的文本的过程,其将人类语音中的词汇内容转换为实际的文字输出,是实现人与机器交互的主要途径之一。近年来,随着深度学习技术在语音识别领域的广泛引用,语音识别的准确率得到了极大的提升。此外,由于智能设备的不断普及,使用语音进行识别的场合已经变得非常丰富。例如,语音识别技术已经广泛应用于语音输入法,语音拨号、车载导航等各种场合。语音识别技术结合自然语言处理以及语音合成等技术,可以产生更多复杂应用,例如智能音箱、会议同声传译、智能客服助理等。语音识别的准确率决定了语音相关产品用户的使用体验,直接影响着交互过程中后续的语义理解、对话生成等模块,因此,随着语音识别使用场景的不断丰富,对语音识别的准确率提出了更高的要求。随着人工智能的不断发展,各种语音识别技术也在推陈出新,不断提升语音识别的准确率。从早期的高斯混合模型-隐马尔科夫模型(GMM-HMM)声学建模方法,到应用深度神经网络(DNN)结构来替换GMM建模开启了语音识别的深度学习时代。其后,使用卷积神经网络(CNN)、基于门的循环神经网络(GRU)和长短时记忆网络(LSTM)等网络结构以替换DNN模型,都显著提升了神经网络模型的建模精度。再然后,端到端(End-to-End)的连接时序分类(CTC)模型被用于语音识别,声学模型结构完全由统一的神经网络结 ...
【技术保护点】
1.一种语音识别方法,包括:/n针对输入的语音信号,通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息,所述第一声学模型通过声学建模而生成并且所述第二声学模型通过声学和语言的联合建模而生成;/n分别根据所述第一声学解码信息和所述第二声学解码信息,确定第一组候选识别结果和第二组候选识别结果;以及/n基于所述第一组候选识别结果和所述第二组候选识别结果,确定针对所述语音信号的识别结果。/n
【技术特征摘要】
1.一种语音识别方法,包括:
针对输入的语音信号,通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息,所述第一声学模型通过声学建模而生成并且所述第二声学模型通过声学和语言的联合建模而生成;
分别根据所述第一声学解码信息和所述第二声学解码信息,确定第一组候选识别结果和第二组候选识别结果;以及
基于所述第一组候选识别结果和所述第二组候选识别结果,确定针对所述语音信号的识别结果。
2.根据权利要求1所述的方法,其中所述第一声学模型是连接时序分类(CTC)模型,所述第二声学模型是流式多级的截断注意力(SMLTA)模型,并且通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息包括:
基于所述语音信号,通过所述连接时序分类(CTC)模型获得所述第一声学解码信息,所述第一声学解码信息包括与所述语音信号有关的尖峰信息;以及
基于所述语音信号和所述尖峰信息,通过所述流式多级的截断注意力(SMLTA)模型中的注意力解码器获得所述第二声学解码信息。
3.根据权利要求2所述的方法,其中确定第一组候选识别结果和第二组候选识别结果包括:
由连接时序分类(CTC)解码器根据所述第一声学解码信息来确定所述第一组候选识别结果;以及
由流式多级的截断注意力(SMLTA)解码器根据所述第二声学解码信息来确定所述第二组候选识别结果。
4.根据权利要求3所述的方法,其中:
确定所述第一组候选识别结果包括:根据第一语言模型和所述第一声学解码信息来确定所述第一组候选识别结果,并且
确定所述第二组候选识别结果包括:根据第二语言模型和所述第二声学解码信息来确定所述第二组候选识别结果,
其中所述第一语言模型与所述第二语言模型不同。
5.根据权利要求1所述的方法,其中确定针对所述语音信号的识别结果包括:
基于所述第一组候选识别结果和所述第二组候选识别结果的组合,获得第三组候选识别结果;
提取所述第三组候选识别结果中的每个候选识别结果的多个特征;以及
基于每个候选识别结果的多个特征,确定针对所述语音信号的所述识别结果。
6.根据权利要求5所述的方法,其中提取所述第三组候选识别结果中的每个候选识别结果的多个特征包括:
获得每个候选识别结果的声学特征和语言特征;以及
确定每个候选识别结果的领域特征。
7.根据权利要求6所述的方法,其中提取所述第三组候选识别结果中的每个候选识别结果的多个特征还包括:
提取与每个候选识别结果相关联的以下至少一个特征:置信度特征、语义特征、相似度特征、以及用户特征。
8.根据权利要求1所述的方法,其中所述第一组候选识别结果包括所确定的所述识别结果,而所述第二组候选识别结果不包括所确定的所述识别结果。
9.一种语音识别装置,包括:
声学信息获得模块,被配置为针对输入的语音信号,通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息,所述第一声学模型通过声学建模而生成并且所述第二声学模型通过声学和语言的联合建模而生成;
候选结果确定模块,被配置为分别根据所述第一...
【专利技术属性】
技术研发人员:彭星源,邵俊尧,贾磊,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。