语音识别模型的训练方法、语音识别方法和系统技术方案

技术编号：31928586 阅读：32 留言：0更新日期：2022-01-15 13:16

本发明专利技术实施例公开了一种语音识别模型的训练方法、语音识别方法和系统，涉及语音识别技术领域。该实施例包括：将音频训练样本输入声学编码器，对音频训练样本进行编码表示，确定声学编码状态向量；将预设的词表输入语言预测器中，确定文本预测向量；将文本预测向量线输入文本映射层，得到文本输出概率分布；根据音频训练样本对应的目标文本序列和文本输出概率分布，计算第一损失函数；将文本预测向量和声学编码状态向量输入联合网络，计算第二损失函数，根据第一损失函数和第二损失函数进行迭代优化，直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整，提高了该语义识别模型的建模能力，从而提高了该语音识别模型的准确率。识别模型的准确率。识别模型的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别模型的训练方法、语音识别方法和系统

[0001]本申请涉及语音识别
，尤其涉及一种语音识别模型的训练方法、语音识别方法和系统。

技术介绍

[0002]基于Transducer的语音识别模型在国内外获得了广泛的应用，其典型特点是能够直接适配流式语音识别任务。其虽然引入了语言预测器，但是其语言建模能力不足，经研究发现，语言预测器在真实推理中并没有起到类似语言模型的作用，而更多的承担了消除重复标签的功能，其建模语言之间依赖关系的能力还有进一步提升的空间。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题，本专利技术实施例提供一种语音识别模型的训练方法、语音识别方法、语音识别系统、电子设备和计算机可读存储介质。
[0004]第一方面，本专利技术实施例提供了一种语音识别模型的训练方法，所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络，所述方法包括：将音频训练样本输入所述声学编码器，以对所述音频训练样本进行编码表示，确定所述音频训练样本的声学编码状态向量；将预设的词表输入所述语言预测器中，确定所述预设的词表中每一标签的文本预测向量；将所述文本预测向量输入所述文本映射层，确定所述文本预测向量映射至所述预设的词表中每一标签的概率，得到文本输出概率分布；根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布，计算第一损失函数；将所述文本预测向量和所述声学编码状态向量输入所述联合网络，计算第二损失函数，并根据所述第一损失函数和所述第二损失函数进行迭代...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型的训练方法，其特征在于，所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络，所述方法包括：将音频训练样本输入所述声学编码器，以对所述音频训练样本进行编码表示，确定所述音频训练样本的声学编码状态向量；将预设的词表输入所述语言预测器中，确定所述预设的词表中每一标签的文本预测向量；将所述文本预测向量线输入所述文本映射层，确定所述文本预测向量映射至所述预设的词表中每一标签的概率，得到文本输出概率分布；根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布，计算第一损失函数；将所述文本预测向量和所述声学编码状态向量输入所述联合网络，计算第二损失函数，并根据所述第一损失函数和所述第二损失函数进行迭代优化，直至满足停止条件。2.根据权利要求1所述的方法，其特征在于，据所述第一损失函数和所述第二损失函数进行迭代优化包括：根据所述第一损失函数和所述第二损失函数，确定第三损失函数；根据所述第三损失函数进行迭代优化。3.根据权利要求2所述的方法，其特征在于，所述第一损失函数为交叉熵损失函数，所述第二损失函数为Transducer损失函数。4.根据权利要求3所述的方法，其特征在于，所述方法还包括根据下式确定第三损失函数：其中，L表示第三损失函数，表示第一损失函数，表示第二损失函数，表示预设的权重。5.根据权利要求1所述的方法，其特征在于，将音频训练样本输入所述声学编码器，以对所述音频训练样本进行编码表示包括：将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征，并对所述音频训练样本的声学特征进行编码表示。6.一种语音识别方法，其特征在于，所述方法应用于权利要求1
‑
5任一项所训练得到的语音识别模型，所述语音识别模型包括：声学编码器、语言预测器、文本映射层和联合网络；所述方法包括：将待识别音频输入所述声学编码器进行编码表示，确定所述待识别音频的声学编码状态向量；将预设的词表输入所述语言预测器，确定所述预设的词表中每一标签的文本预测向量；将所述文本预测向量输入所述文本映射层，以将所述文本预测向量映射至所述预设的词表，确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率；将所述文本预测向量和所述声...

【专利技术属性】
技术研发人员：陶建华，田正坤，易江燕，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人