语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：30425412 阅读：63 留言：0更新日期：2021-10-24 16:57

本申请是关于一种语音识别方法、装置、计算机设备及存储介质，涉及语音识别技术领域。所述方法包括：通过声学模型对语音信号进行处理，获得所述语音信号中各个语音帧对应的音素识别结果；对所述各个语音帧对应的所述音素识别结果中的空输出的概率进行抑制调整，以降低所述音素识别结果中的空输出的概率与各个音素的概率的比值；将调整后的所述各个语音帧对应的所述音素识别结果输入解码图，获得所述语音信号对应的识别文本序列。本方案能够在人工智能领域的语音识别场景中，提高模型的识别准确性。确性。确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、计算机设备及存储介质

[0001]本申请涉及语音识别
，特别涉及一种语音识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音识别是一种将语音识别为文本的技术，其在各种人工智能(Artificial Intelligence，AI)场景中具有广泛的应用。
[0003]语音识别框架通常包含声学模型部分和解码部分，其中，声学模型部分用于将识别输入的语音信号中的各个语音帧的音素，解码部分通过识别出的各个语音帧的音素，输出语音信号的文本序列。在相关技术中，通过递归神经网络转移机(Recurrent Neural Network Transducer，RNN
‑
T)来实现声学模型，是业内研究的重点之一。
[0004]然而，RNN
‑
T模型在音素识别过程中引入了空输出的概念，即预测某个语音帧上不包含有效的音素，空输出的引入，在一些应用场景中会导致后续解码过程的错误率上升，尤其是导致删除错误的增多，影响语音识别的准确性。

技术实现思路

>[0005]本申请本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：通过声学模型对语音信号进行处理，获得所述语音信号中各个语音帧对应的音素识别结果；所述音素识别结果用于指示对应的语音帧在音素空间中的概率分布；所述音素空间中包含各个音素以及一个空输出；所述声学模型是通过语音信号样本，以及所述语音信号样本中各个语音帧的实际音素训练得到的；对所述各个语音帧对应的所述音素识别结果中的空输出的概率进行抑制调整，以降低所述音素识别结果中的空输出的概率与各个音素的概率的比值；将调整后的所述各个语音帧对应的所述音素识别结果输入解码图，获得所述语音信号对应的识别文本序列。2.根据权利要求1所述的方法，其特征在于，所述对所述各个语音帧对应的所述音素识别结果中的空输出的概率进行抑制调整，包括：通过以下调整方式中的至少一种，对所述各个语音帧对应的所述音素识别结果进行调整：降低所述各个语音帧对应的所述音素识别结果中的空输出的概率；以及，提高所述各个语音帧对应的所述音素识别结果中的各个音素的概率。3.根据权利要求2所述的方法，其特征在于，所述降低所述各个语音帧对应的所述音素识别结果中的空输出的概率，包括：将所述各个语音帧对应的所述音素识别结果中的空输出的概率乘以第一权重，所述第一权重小于1且大于0。4.根据权利要求2所述的方法，其特征在于，所述降低所述各个语音帧对应的所述音素识别结果中的空输出的概率，包括：将所述各个语音帧对应的所述音素识别结果中的各个音素的概率乘以第二权重，所述第二权重大于1。5.根据权利要求1所述的方法，其特征在于，所述将调整后的所述各个语音帧对应的所述音素识别结果输入解码图，获得所述语音信号对应的识别文本序列，包括：响应于目标音素识别结果中的空输出的概率满足指定条件，将所述目标音素识别结果输入所述解码图，获得所述目标音素识别结果对应的识别文本；其中，所述目标音素识别结果是所述各个语音帧对应的所述音素识别结果中的任意一个。6.根据权利要求5所述的方法，其特征在于，所述指定条件包括：所述目标音素识别结果中的空输出的概率小于概率阈值。7.根据权利要求6所述的方法，其特征在于，所述将调整后的所述各个语音帧对应的所述音素识别结果输入解码图，获得所述语音信号对应的识别文本序列之前，还包括：获取阈值影响参数，所述阈值影响参数包括环境音强度、指定时间段内语音识别失败的次数、以及用户设置信息中的至少一种；基于所述阈值影响参数，确定所述概率阈值。8.根据权利要求1所述的方法，其特征在于，所述通过声学模型对语音信号进行处理，获得所述语音信号中各个语音帧对应的音素识别结果，包括：
对目标语音帧进行特征提取，获得所述目标语音帧的特...

【专利技术属性】
技术研发人员：孙思宁，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人