一种端到端长时语音识别方法技术

技术编号：30408748 阅读：21 留言：0更新日期：2021-10-20 11:21

本发明专利技术提供了一种端到端长时语音识别方法。该方法包括：选取语料库为训练数据集，对训练数据集中的语音数据进行数据预处理和特征提取，生成语音特征；构造融合外部语言模型和长时语音识别算法的改进的RNN

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端长时语音识别方法

[0001]本专利技术涉及语音识别
，尤其涉及一种端到端长时语音识别方法。

技术介绍

[0002]语音作为信息传递最直接有效的方式，是人们彼此感情交流和思想传递最主要的途径。自动语音识别(Automatic Speech Recognition,ASR)技术是指将语音信号正确地识别为对应的文本内容或命令，让机器听懂人类语言并执行相关操作。随着计算机的广泛应用，ASR技术成为实现简单便捷的人机智能交互的关键技术，逐渐成为了热门的研究领域。随着深度学习和语音识别技术的进步和发展，基于端到端的语音识别模型凭借强大的建模能力和学习能力相较于传统语音识别技术显著提高了语音识别准确率。不同于传统的语音识别系统，端到端模型解决了需要对语音数据做对齐预处理的问题，并且可以直接得到输入语音波形或特征和输出文本内容之间的映射关系，简化了模型训练流程。使得语音识别技术被广泛应用在智能家居、无人驾驶、安防监控等多个领域，应用前景十分广阔。
[0003]伴随着语音识别技术快速发展，语音识别在特定的应用环境中需要面对大量长时语音的场景，例长篇演讲和会话级别的语音识别或者是机器人电话交互过程中用户说的是不间断的长时语音。目前对于长句识别的解决方案是将长语句分割固定长度的片段，然后独立地识别每个片段，但分段边界存在单词切割问题，无法有效地从分段片段中恢复原始单词。重叠推理策略解码将长语句分割成重叠的多片段解决单词切割问题，但会在解码阶段大大增加额外的计算量。因此，如何针对长时语音识别任务的特点，构建更加适用...

【技术保护点】

【技术特征摘要】
1.一种端到端长时语音识别方法，其特征在于，包括：选取语料库为训练数据集，对所述训练数据集中的语音数据进行数据预处理和特征提取，生成语音特征，并组成测试和验证数据集；构造融合外部语言模型和长时语音识别算法的改进的RNN
‑
T模型，将所述语音特征输入所述改进的RNN
‑
T模型进行训练，得到训练好的改进的RNN
‑
T模型；将训练好的改进的RNN
‑
T模型作为互学习知识蒸馏算法中的教师模型，利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型，并利用测试和验证数据集对学生模型进行测试和验证，得到训练和验证好的学生模型；利用所述训练和验证好的学生模型对待识别的长时语音数据进行识别，输出语音识别结果。2.根据权利要求1所述的方法，其特征在于，所述的选取语料库为训练数据集，对所述训练数据集中的语音数据进行数据预处理和特征提取，生成语音特征，并组成测试和验证数据集，包括：选取AISHELL
‑
1语料库为训练数据集，利用Sox音频处理工具对AISHELL
‑
1中的语音数据进行合成长时语音数据处理，调用kaldi工具包对合成的长时语音数据进行特征提取处理，生成验证和测试学生网络的语音特征，利用语音特征组成测试和验证数据集。3.根据权利要求1所述的方法，其特征在于，所述的构造融合外部语言模型和长时语音识别算法的改进的RNN
‑
T模型，包括：构造改进的RNN
‑
T模型，所述改进的RNN
‑
T模型完成语音识别任务、语言建模任务和指导语言建模的知识蒸馏任务，所述语音识别任务中将训练数据的语音特征x
t
输入到编码网络中得到声学信息高级表示将声学信息高级表示长时语音识别算法得到的输出c
k
和预测网络得到的输出在联合网络中进行融合，计算得到语音识别任务损失L
RNN
‑
T
；语言建模任务在RNN
‑
T模型通过预测网络进行语言建模的基础上加入训练好的外部语言模型，训练好的外部语言模型根据先前非空标签y
u
‑1为预测网络提供软化标签，指导预测网络的语言建模，将蒸馏损失函数L
kd
与预测网络语言建模的损失函数L
LM
加权相加作为预测网络语言模型的优化函数。4.根据权利要求3所述的方法，其特征在于，所述的长时语音识别算法包括模拟长时音频训练模块和跨句上下文模块，所述模拟长时音频训练模块通过修改模型隐层初始状态模拟长时音频训练，实现等价长时语音识别模型训练，所述跨句上下文模块，用于保留跨句历史上下文信息。5.根据权利要求4所述的方法，其特征在于：所述的模拟长时音频训练模块，具体用于在训练到第k条语句时，对模型隐层状态进行初始化，用第k
‑
1条语句训练结束后编码网络和预测网络的最终隐层状态E
k
‑1(T)和P
k
‑1(U)来初始化E
k
(0)和P
k
(0)，在模拟长时音频训练过程中设置随机种子，控制模拟长音频句子的长度，在训练RNN
‑
T模型过程中设置传递LSTM状态的概率P＝0.5，否则将LSTM的初始状态置为0向量，如式(2
‑
4)所示：
所述的跨句上下文模块，具体用于将模型预测的历史语句文本输入进入跨距上下文模块进行特征编码得到使用注意力机制对和历史上下文向量c
k
‑1计算得到注意力分数α
u,i
，使用文本特征与注意力得分计算得到当前语句的历史上下文向量c
k
，计算过程如式(2
‑
5)至(2
‑
6)所示...

【专利技术属性】
技术研发人员：明悦，邹俊伟，温志刚，李泽瑞，吕柏阳，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人