一种语音识别方法、装置、介质及计算设备制造方法及图纸

技术编号:34948443 阅读:13 留言:0更新日期:2022-09-17 12:24
本公开的实施方式提供了一种语音识别方法,包括:将待识别语音对应的语音特征,输入至预先训练完成的语音识别模型,并由编码器进行特征编码;响应于当前编码层为辅助任务层,由第一分类器对当前辅助任务层的输出向量进行分类,确定第一分类结果;将所述第一分类结果,以及所述当前辅助任务层的输出向量,输入至所述特征融合层,得到融合特征,并将所述融合特征输入至下一编码层;响应于所述编码器编码完成,由第二分类器对所述编码器的输出向量进行分类,确定第二分类结果,并通过对所述第二分类结果进行解码,确定出与所述待识别语音对应的文本序列。在以上过程中,可以实现对声学信息和文本序列的上下文信息的融合,提高语音识别的准确度。别的准确度。别的准确度。

【技术实现步骤摘要】
一种语音识别方法、装置、介质及计算设备


[0001]本公开的实施方式涉及语音识别
,更具体地,本公开的实施方式涉及一种语音识别方法、装置、介质及计算设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]自动语音识别技术(Automatic Speech Recognition,ASR)是指将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。随着人工智能技术的发展,语音识别已经在日常生活中得到了广泛的应用,例如,智能手机的语音助手、聊天软件中的语音转文字功能、智能音箱的语音控制等。
[0004]然而,人类的语音非常复杂,比如世界上有很多种语言,每种语言有不同的方言,而不同的人又有不同的说话习惯,这些都可能导致语音识别失败。因此,如何提高语音识别的准确度,让语音识别技术更好的服务于人类,仍然是当前领域的重要研究方向之一。

技术实现思路

[0005]在本上下文中,本公开的实施方式期望提供一种语音识别方法及装置。
[0006]在本公开实施方式的第一方面中,提供了一种语音识别方法,包括:
[0007]将待识别语音对应的语音特征,输入至预先训练完成的语音识别模型,并由编码器进行特征编码;其中,所述语音识别模型包括所述编码器、第一分类器和第二分类器;所述编码器包括多个编码层,每个编码层的输出向量作为与所述编码层相连的下一编码层的输入向量;所述编码层至少包括辅助任务层和特征融合层;所述语音识别模型基于所述辅助任务层的第一损失函数,以及所述编码器的第二损失函数进行训练;
[0008]响应于当前编码层为辅助任务层,由所述第一分类器对当前辅助任务层的输出向量进行分类,确定所述待识别语音对应的第一分类结果;
[0009]将所述第一分类结果,以及所述当前辅助任务层的输出向量,输入至所述特征融合层,以由所述特征融合层基于上下文特征和所述当前辅助任务层的输出向量表征的语音特征进行特征融合,得到融合特征,并将所述融合特征输入至下一编码层;其中,所述上下文特征是基于所述第一分类结果得到;
[0010]响应于所述编码器编码完成,由所述第二分类器对所述编码器的输出向量进行分类,确定所述待识别语音对应的第二分类结果,并通过对所述第二分类结果进行解码,确定出与所述待识别语音对应的文本序列。
[0011]在本公开实施方式的第二方面中,提供了一种语音识别装置,包括:
[0012]输入模块,将待识别语音对应的语音特征,输入至预先训练完成的语音识别模型,并由编码器进行特征编码;其中,所述语音识别模型包括所述编码器、第一分类器和第二分类器;所述编码器包括多个编码层,每个编码层的输出向量作为与所述编码层相连的下一
编码层的输入向量;所述编码层至少包括辅助任务层和特征融合层;所述语音识别模型基于所述辅助任务层的第一损失函数,以及所述编码器的第二损失函数进行训练;
[0013]第一分类模块,响应于当前编码层为辅助任务层,由所述第一分类器对当前辅助任务层的输出向量进行分类,确定所述待识别语音对应的第一分类结果;
[0014]特征融合模块,将所述第一分类结果,以及所述当前辅助任务层的输出向量,输入至所述特征融合层,以由所述特征融合层基于上下文特征和所述当前辅助任务层的输出向量表征的语音特征进行特征融合,得到融合特征,并将所述融合特征输入至下一编码层;其中,所述上下文特征是基于所述第一分类结果得到;
[0015]第二分类模块,响应于所述编码器编码完成,由所述第二分类器对所述编码器的输出向量进行分类,确定所述待识别语音对应的第二分类结果;
[0016]解码模块,通过对所述第二分类结果进行解码,确定出与所述待识别语音对应的文本序列。
[0017]在本公开实施方式的第三方面中,提供了一种存储介质;其上存储有计算机指令,该指令被处理器执行时实现任一所述语音识别方法。
[0018]在本公开实施方式的第四方面中,提供了一种计算设备,包括:
[0019]处理器;以及,用于存储处理器可执行指令的存储器;
[0020]其中,所述处理器通过运行所述可执行指令以实现任一所述语音识别方法。
[0021]本公开以上的实施方式,至少具有如下的有益效果:
[0022]通过以上技术方案,在基于编码器对语音特征进行特征编码的过程中,通过对辅助任务层的输出向量进行分类,将分类结果和输出向量输入至特征融合层进行特征融合,实现声学信息和文本序列的上下文信息的融合,从而让模型可以学习到多种信息,提高语音识别的准确度;并且,在训练语音识别模型时,模型的参数不仅依赖于编码器的损失函数,还依赖于辅助任务层的损失函数,从而可以缓解梯度消失的问题。
[0023]在上述过程中,一方面,通过基于辅助任务层的输出向量进行分类,并基于分类结果将文本序列的上下文信息引入到模型中,从而利用辅助任务层协助模型学习到多种信息;另一方面,通过将辅助任务层的输出向量以及分类结果输入至特征融合层进行特征融合,实现声学信息和文本序列的上下文信息的融合,从而提高语音识别的准确度。另外,通过基于辅助任务层的损失函数协助进行模型的训练,可以缓解仅使用编码器的损失函数进行训练时梯度消失的问题。
附图说明
[0024]通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
[0025]图1示意性地示出了一种相关技术中所涉及的语音识别模型的结构示意图;
[0026]图2示意性地示出了根据本公开实施方式的一种语音识别方法的流程图;
[0027]图3示意性地示出了根据本公开实施方式的一种编码器的结构的示意图;
[0028]图4示意性地示出了根据本公开实施方式的一种特征融合的示意图;
[0029]图5示意性地示出了根据本公开实施方式的又一种特征融合的示意图;
[0030]图6示意性地示出了根据本公开实施方式的又一种语音识别方法的示意图;
[0031]图7示意性地示出了根据本公开实施方式的一种语音识别模型的结构的示意图;
[0032]图8示意性地示出了根据本公开实施方式的一种语音识别模型的训练过程的示意图;
[0033]图9示意性地示出了根据本公开实施方式的一种语音识别装置的框图;
[0034]图10示意性地示出了根据本公开实施方式的一种语音识别介质的示意图;
[0035]图11示意性地示出了根据本公开实施方式的一种能够实现上述方法的电子设备的示意图。
[0036]在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0037]下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:将待识别语音对应的语音特征,输入至预先训练完成的语音识别模型,并由编码器进行特征编码;其中,所述语音识别模型包括所述编码器、第一分类器和第二分类器;所述编码器包括多个编码层,每个编码层的输出向量作为与所述编码层相连的下一编码层的输入向量;所述编码层至少包括辅助任务层和特征融合层;所述语音识别模型基于所述辅助任务层的第一损失函数,以及所述编码器的第二损失函数进行训练;响应于当前编码层为辅助任务层,由所述第一分类器对当前辅助任务层的输出向量进行分类,确定所述待识别语音对应的第一分类结果;将所述第一分类结果,以及所述当前辅助任务层的输出向量,输入至所述特征融合层,以由所述特征融合层基于上下文特征和所述当前辅助任务层的输出向量表征的语音特征进行特征融合,得到融合特征,并将所述融合特征输入至下一编码层;其中,所述上下文特征是基于所述第一分类结果得到;响应于所述编码器编码完成,由所述第二分类器对所述编码器的输出向量进行分类,确定所述待识别语音对应的第二分类结果,并通过对所述第二分类结果进行解码,确定出与所述待识别语音对应的文本序列。2.根据权利要求1所述的方法,所述编码层包括首端编码层和末端编码层,以及位于两者之间的多个辅助任务层和多个特征融合层;其中,与所述特征融合层相邻的上一编码层为上一辅助任务层,与所述特征融合层相邻的下一编码层为下一辅助任务层;所述上一辅助任务层的输出作为所述特征融合层的输入,所述特征融合层的输出作为所述下一辅助任务层的输入;所述将所述融合特征输入至下一编码层,包括:将所述融合特征输入至与所述特征融合层相邻的所述下一辅助任务层。3.根据权利要求2所述的方法,所述通过对所述第二分类结果进行解码,确定出与所述待识别语音对应的文本序列,包括:响应于所述当前辅助任务层编码完成,通过路径搜索算法对所述第一分类结果进行解码,确定出解码结果;响应于所述解码结果对应的路径置信度未达到为所述当前辅助任务层预设的阈值,继续确定后续编码层的输出向量;响应于所述解码结果对应的路径置信度达到为所述当前辅助任务层预设的阈值,将所述解码结果确定为所述待识别语音对应的文本序列。4.根据权利要求1所述的方法,所述语音识别模型的训练过程包括:将训练样本集输入至待训练的语音识别模型;所述训练样本包括语音样本对应的语音序列,以及所述语音样本对应的文本序列;由所述编码器对所述语音样本对应的语音特征进行特征编码;根据所述第一分类结果,以及所述文本序列,计算所述第一损失函数;根据所述第二分类结果,以及所述文本序列,计算所述第二损失函数;针对所述第一损失函数和所述第二损失函数,根据预设的权重计算第三损失函数;对所述语音识别模型进行迭代训练,直至所述第三损失函数收敛,获得训练后的语音识别模型。
5.根据权利要求1所述的方法,在将所述待识别语音对应的语音特征,输入至预先训练完成的语音识别模型之前,所述方法还包括:获取所述待识别语音,并将...

【专利技术属性】
技术研发人员:杨玉婷李雨珂杜彬彬杨卫强朱浩齐周森
申请(专利权)人:杭州网易智企科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1