语音识别方法、装置、设备以及计算机可读存储介质制造方法及图纸

技术编号:22724235 阅读:21 留言:0更新日期:2019-12-04 06:19
本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括针对输入的语音信号,通过第一声学模型获得第一声学解码信息并且通过第二声学模型获得第二声学解码信息,其中第二声学模型是通过声学和语言的联合建模而生成的。方法还包括根据第一声学解码信息确定第一组候选识别结果并且根据第二声学解码信息确定第二组候选识别结果,然后基于这两组候选识别结果来确定针对语音信号的最终识别结果。本公开的实施例提出了一种基于双解码的语音识别方案,利用一个声学模型的声学多样性来弥补另一个声学模型声学路径较少的缺点,两个解码路径彼此独立,扩展了解码空间,从而能够提高语音识别的准确率。

Speech recognition method, device, equipment and computer readable storage medium

The present disclosure provides a speech recognition method, device, device and computer readable storage medium. The method includes obtaining the first acoustic decoding information through the first acoustic model and obtaining the second acoustic decoding information through the second acoustic model for the input speech signal, wherein the second acoustic model is generated through the joint modeling of acoustics and language. The method also includes determining the first group of candidate recognition results based on the first acoustic decoding information and the second group of candidate recognition results based on the second acoustic decoding information, and then determining the final recognition results for the speech signal based on the two groups of candidate recognition results. The embodiment of the disclosure proposes a speech recognition scheme based on double decoding, which makes use of the acoustic diversity of one acoustic model to make up for the disadvantage of less acoustic paths of the other acoustic model. The two decoding paths are independent of each other and expand the decoding space, so as to improve the accuracy of speech recognition.

【技术实现步骤摘要】
语音识别方法、装置、设备以及计算机可读存储介质
本公开的实施例总体上涉及语音识别
,并且更具体地涉及基于双解码的语音识别方法、装置、设备以及计算机可读存储介质。
技术介绍
语音识别是指通过计算机把语音信号转换为对应的文本的过程,其将人类语音中的词汇内容转换为实际的文字输出,是实现人与机器交互的主要途径之一。近年来,随着深度学习技术在语音识别领域的广泛引用,语音识别的准确率得到了极大的提升。此外,由于智能设备的不断普及,使用语音进行识别的场合已经变得非常丰富。例如,语音识别技术已经广泛应用于语音输入法,语音拨号、车载导航等各种场合。语音识别技术结合自然语言处理以及语音合成等技术,可以产生更多复杂应用,例如智能音箱、会议同声传译、智能客服助理等。语音识别的准确率决定了语音相关产品用户的使用体验,直接影响着交互过程中后续的语义理解、对话生成等模块,因此,随着语音识别使用场景的不断丰富,对语音识别的准确率提出了更高的要求。随着人工智能的不断发展,各种语音识别技术也在推陈出新,不断提升语音识别的准确率。从早期的高斯混合模型-隐马尔科夫模型(GMM-HMM)声学建模方法,到应用深度神经网络(DNN)结构来替换GMM建模开启了语音识别的深度学习时代。其后,使用卷积神经网络(CNN)、基于门的循环神经网络(GRU)和长短时记忆网络(LSTM)等网络结构以替换DNN模型,都显著提升了神经网络模型的建模精度。再然后,端到端(End-to-End)的连接时序分类(CTC)模型被用于语音识别,声学模型结构完全由统一的神经网络结构所替代,这极大的简化了声学模型结构和训练难度,识别率得以进一步的提高。近年来,建立在注意力(Attention)机制的端到端LAS(Listen,AttendandSpell)结构,将声学和语言进行联合建模的方式,进一步提升了语音识别的准确率。
技术实现思路
根据本公开的示例实施例,提供了一种语音识别方法、装置、设备以及计算机可读存储介质。在本公开的第一方面中,提供了一种语音识别方法。该方法包括:针对输入的语音信号,通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息,其中第一声学模型通过声学建模而生成并且第二声学模型通过声学和语言的联合建模而生成;分别根据第一声学解码信息和第二声学解码信息,确定第一组候选识别结果和第二组候选识别结果;以及基于第一组候选识别结果和第二组候选识别结果,确定针对语音信号的识别结果。在本公开的第二方面中,提供了一种语音识别装置。该装置包括:声学信息获得模块,被配置为针对输入的语音信号,通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息,其中第一声学模型通过声学建模而生成并且第二声学模型通过声学和语言的联合建模而生成;候选结果确定模块,被配置为分别根据第一声学解码信息和第二声学解码信息,确定第一组候选识别结果和第二组候选识别结果;以及识别结果确定模块,被配置为基于第一组候选识别结果和第二组候选识别结果,确定针对语音信号的识别结果。在本公开的第三方面中,提供了一种电子设备,其包括一个或多个处理器以及存储装置,其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行,使得电子设备实现根据本公开的各个实施例的方法或过程。在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的各个实施例的方法或过程。应当理解,本
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了根据本公开的实施例的语音识别的处理过程的示意图;图2示出了根据本公开的实施例的语音识别方法的流程图;图3示出了根据本公开的实施例的基于双解码的语音识别过程的示意图;图4示出了根据本公开的实施例的基于流式多级的截断注意力(SMLTA)和连接时序分类(CTC)双解码的语音识别过程的示意图;图5示出了根据本公开的实施例的基于CTC尖峰信息的SMLTA模型的示例架构的示意图;图6示出了根据本公开的融合多特征的SMLTA和CTC双解码调优过程的示意图;图7示出了根据本公开的实施例的语音识别装置的框图;以及图8示出了能够实施本公开的多个实施例的电子设备的框图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。连接时序分类(CTC)模型是一种端到端的模型,其被用于大规模词汇量的语音识别,使得混合DNN+HMM的声学模型结构完全被统一的神经网络结构所替代,这大大简化了声学模型的结构和训练难度,使得语音识别系统的准确率得到进一步提升。此外,CTC模型的输出结果中可以包括语音信号的尖峰信息。注意力(Attention)模型是对编码器-解码器模型的扩展,其能够提升在较长序列上预测的效果。首先使用GRU或LSTM模型对输入的音频特征编码得到隐含特征,然后通过注意力模型对这些隐含特征的不同部分分配相应的权重,最后解码器根据建模粒度的不同输出对应的结果。这种声学和语言模型联合建模的方式能够进一步化简语音识别系统的复杂度。流式多级的截断注意力(StreamingMulti-LayerTruncatedAttention,简称为SMLTA)模型是一种基于CTC和注意力的流式语音识别模型,其中流式表示可以直接对语音的小片段(而不是必须整句),进行一个个片段地增量解码,多级表示堆叠多层注意力模型,而截断则表示利用CTC模型的尖峰信息,把语音切割成一个一个小片段,注意力模型建模和解码可以在这些小片段上展开。SMLTA将传统的全局的注意力建模转换成局部注意力建模,所以这个过程也是一个可以流式实现的过程,无论多长的句子,都可以通过截段来实现流式解码和精准的局部注意力建模,因而实现了流式解码。本申请的专利技术人发现,在通过声学和语言模型联合建模而生成的声学模型(例如注意力模型、或者基于注意力机制的SMLTA模型)的解码过程中,通过语言信息将搜索路径约束在更为准确的空间内进行解码,显著提高了语音识别本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,包括:/n针对输入的语音信号,通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息,所述第一声学模型通过声学建模而生成并且所述第二声学模型通过声学和语言的联合建模而生成;/n分别根据所述第一声学解码信息和所述第二声学解码信息,确定第一组候选识别结果和第二组候选识别结果;以及/n基于所述第一组候选识别结果和所述第二组候选识别结果,确定针对所述语音信号的识别结果。/n

【技术特征摘要】
1.一种语音识别方法,包括:
针对输入的语音信号,通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息,所述第一声学模型通过声学建模而生成并且所述第二声学模型通过声学和语言的联合建模而生成;
分别根据所述第一声学解码信息和所述第二声学解码信息,确定第一组候选识别结果和第二组候选识别结果;以及
基于所述第一组候选识别结果和所述第二组候选识别结果,确定针对所述语音信号的识别结果。


2.根据权利要求1所述的方法,其中所述第一声学模型是连接时序分类(CTC)模型,所述第二声学模型是流式多级的截断注意力(SMLTA)模型,并且通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息包括:
基于所述语音信号,通过所述连接时序分类(CTC)模型获得所述第一声学解码信息,所述第一声学解码信息包括与所述语音信号有关的尖峰信息;以及
基于所述语音信号和所述尖峰信息,通过所述流式多级的截断注意力(SMLTA)模型中的注意力解码器获得所述第二声学解码信息。


3.根据权利要求2所述的方法,其中确定第一组候选识别结果和第二组候选识别结果包括:
由连接时序分类(CTC)解码器根据所述第一声学解码信息来确定所述第一组候选识别结果;以及
由流式多级的截断注意力(SMLTA)解码器根据所述第二声学解码信息来确定所述第二组候选识别结果。


4.根据权利要求3所述的方法,其中:
确定所述第一组候选识别结果包括:根据第一语言模型和所述第一声学解码信息来确定所述第一组候选识别结果,并且
确定所述第二组候选识别结果包括:根据第二语言模型和所述第二声学解码信息来确定所述第二组候选识别结果,
其中所述第一语言模型与所述第二语言模型不同。


5.根据权利要求1所述的方法,其中确定针对所述语音信号的识别结果包括:
基于所述第一组候选识别结果和所述第二组候选识别结果的组合,获得第三组候选识别结果;
提取所述第三组候选识别结果中的每个候选识别结果的多个特征;以及
基于每个候选识别结果的多个特征,确定针对所述语音信号的所述识别结果。


6.根据权利要求5所述的方法,其中提取所述第三组候选识别结果中的每个候选识别结果的多个特征包括:
获得每个候选识别结果的声学特征和语言特征;以及
确定每个候选识别结果的领域特征。


7.根据权利要求6所述的方法,其中提取所述第三组候选识别结果中的每个候选识别结果的多个特征还包括:
提取与每个候选识别结果相关联的以下至少一个特征:置信度特征、语义特征、相似度特征、以及用户特征。


8.根据权利要求1所述的方法,其中所述第一组候选识别结果包括所确定的所述识别结果,而所述第二组候选识别结果不包括所确定的所述识别结果。


9.一种语音识别装置,包括:
声学信息获得模块,被配置为针对输入的语音信号,通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息,所述第一声学模型通过声学建模而生成并且所述第二声学模型通过声学和语言的联合建模而生成;
候选结果确定模块,被配置为分别根据所述第一...

【专利技术属性】
技术研发人员:彭星源邵俊尧贾磊
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1