一种语音识别方法、装置、介质及计算设备制造方法及图纸

技术编号：34948443 阅读：13 留言：0更新日期：2022-09-17 12:24

本公开的实施方式提供了一种语音识别方法，包括：将待识别语音对应的语音特征，输入至预先训练完成的语音识别模型，并由编码器进行特征编码；响应于当前编码层为辅助任务层，由第一分类器对当前辅助任务层的输出向量进行分类，确定第一分类结果；将所述第一分类结果，以及所述当前辅助任务层的输出向量，输入至所述特征融合层，得到融合特征，并将所述融合特征输入至下一编码层；响应于所述编码器编码完成，由第二分类器对所述编码器的输出向量进行分类，确定第二分类结果，并通过对所述第二分类结果进行解码，确定出与所述待识别语音对应的文本序列。在以上过程中，可以实现对声学信息和文本序列的上下文信息的融合，提高语音识别的准确度。别的准确度。别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法、装置、介质及计算设备

[0001]本公开的实施方式涉及语音识别
，更具体地，本公开的实施方式涉及一种语音识别方法、装置、介质及计算设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]自动语音识别技术(Automatic Speech Recognition，ASR)是指将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。随着人工智能技术的发展，语音识别已经在日常生活中得到了广泛的应用，例如，智能手机的语音助手、聊天软件中的语音转文字功能、智能音箱的语音控制等。
[0004]然而，人类的语音非常复杂，比如世界上有很多种语言，每种语言有不同的方言，而不同的人又有不同的说话习惯，这些都可能导致语音识别失败。因此，如何提高语音识别的准确度，让语音识别技术更好的服务于人类，仍然是当前领域的重要研究方向之一。

技术实现思路

[0005]在本上下文中，本公开的实施方式期望提供一种语音识别方法及装置。
[0006]在本公开实施方式的第一方面中，提供了一种语音识别方法，包括：
[0007]将待识别语音对应的语音特征，输入至预先训练完成的语音识别模型，并由编码器进行特征编码；其中，所述语音识别模型包括所述编码器、第一分类器和第二分类器；所述编码器包括多个编码层，每个编码层的输出向量作为与所述编码层相连的下一编码层的输入向量；所述编码...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，包括：将待识别语音对应的语音特征，输入至预先训练完成的语音识别模型，并由编码器进行特征编码；其中，所述语音识别模型包括所述编码器、第一分类器和第二分类器；所述编码器包括多个编码层，每个编码层的输出向量作为与所述编码层相连的下一编码层的输入向量；所述编码层至少包括辅助任务层和特征融合层；所述语音识别模型基于所述辅助任务层的第一损失函数，以及所述编码器的第二损失函数进行训练；响应于当前编码层为辅助任务层，由所述第一分类器对当前辅助任务层的输出向量进行分类，确定所述待识别语音对应的第一分类结果；将所述第一分类结果，以及所述当前辅助任务层的输出向量，输入至所述特征融合层，以由所述特征融合层基于上下文特征和所述当前辅助任务层的输出向量表征的语音特征进行特征融合，得到融合特征，并将所述融合特征输入至下一编码层；其中，所述上下文特征是基于所述第一分类结果得到；响应于所述编码器编码完成，由所述第二分类器对所述编码器的输出向量进行分类，确定所述待识别语音对应的第二分类结果，并通过对所述第二分类结果进行解码，确定出与所述待识别语音对应的文本序列。2.根据权利要求1所述的方法，所述编码层包括首端编码层和末端编码层，以及位于两者之间的多个辅助任务层和多个特征融合层；其中，与所述特征融合层相邻的上一编码层为上一辅助任务层，与所述特征融合层相邻的下一编码层为下一辅助任务层；所述上一辅助任务层的输出作为所述特征融合层的输入，所述特征融合层的输出作为所述下一辅助任务层的输入；所述将所述融合特征输入至下一编码层，包括：将所述融合特征输入至与所述特征融合层相邻的所述下一辅助任务层。3.根据权利要求2所述的方法，所述通过对所述第二分类结果进行解码，确定出与所述待识别语音对应的文本序列，包括：响应于所述当前辅助任务层编码完成，通过路径搜索算法对所述第一分类结果进行解码，确定出解码结果；响应于所述解码结果对应的路径置信度未达到为所述当前辅助任务层预设的阈值，继续确定后续编码层的输出向量；响应于所述解码结果对应的路径置信度达到为所述当前辅助任务层预设的阈值，将所述解码结果确定为所述待识别语音对应的文本序列。4.根据权利要求1所述的方法，所述语音识别模型的训练过程包括：将训练样本集输入至待训练的语音识别模型；所述训练样本包括语音样本对应的语音序列，以及所述语音样本对应的文本序列；由所述编码器对所述语音样本对应的语音特征进行特征编码；根据所述第一分类结果，以及所述文本序列，计算所述第一损失函数；根据所述第二分类结果，以及所述文本序列，计算所述第二损失函数；针对所述第一损失函数和所述第二损失函数，根据预设的权重计算第三损失函数；对所述语音识别模型进行迭代训练，直至所述第三损失函数收敛，获得训练后的语音识别模型。
5.根据权利要求1所述的方法，在将所述待识别语音对应的语音特征，输入至预先训练完成的语音识别模型之前，所述方法还包括：获取所述待识别语音，并将...

【专利技术属性】
技术研发人员：杨玉婷，李雨珂，杜彬彬，杨卫强，朱浩齐，周森，
申请(专利权)人：杭州网易智企科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人