端到端语音转写模型的训练方法、系统、装置制造方法及图纸

技术编号：23100703 阅读：33 留言：0更新日期：2020-01-14 20:54

本发明专利技术属于电子信号处理技术领域，具体涉及一种端到端语音转写模型的训练方法、系统、装置，旨在解决端到端语音转写模型无法很好的学习语音数据的对齐信息的问题。本系统方法包括提取语音训练数据的特征，得到语音特征序列；通过GMM‑HMM模型对语音特征序列进行强制对齐，得到对齐标注，并对各帧语音特征进行拼接；基于拼接后的语音特征序列和文本标注训练数据，对端到端语音转写模型进行训练，得到预设词表中每个词的概率分布及负对数损失值；获取对齐损失值；将对齐损失值和负对数损失值进行加权平均，得到联合损失值，并通过后向传播算法更新模型的参数；迭代训练模型。本发明专利技术能够准确的学习语音数据的对齐信息。

Training method, system and device of end-to-end speech transcribing model

全部详细技术资料下载

【技术实现步骤摘要】
端到端语音转写模型的训练方法、系统、装置
本专利技术属于电子信号处理
，具体涉及一种端到端语音转写模型的训练方法、系统、装置。
技术介绍
语音识别作为人机交互的入口，是人工智能领域中一个重要的研究方向。传统的语音识别方法一般使用基于高斯混合模型-隐马尔科夫模型的混合模型(GMM-HMM)，整个系统存在很多部件，分别训练，性能难以满足需求。随着深度学习技术的在语音识别中的深入应用，端到端语音识别取得令人瞩目的成绩。尤其是最近提出的基于循环神经网络的端到端语音转写模型(RNNTransducerModel)，不仅极大的简化了语音识别系统的步骤，提高了识别精度，而且能够进行流式的解码以应用于在线语音识别任务。但是端到端语音转写模型存在着训练困难，不能很好的学习到语音文本的对齐信息等问题。因此，本专利技术提出了一种端到端语音转写模型的训练方法。
技术实现思路
为了解决现有技术中的上述问题，即为了解决端到端语音转写模型无法很好的学习语音数据的对齐信息，导致语音识别精度低的问题，本专利技术第一方面，提出了一种端到端语音转写模型的训练方法，该方法包括：步骤S100，获取语音训练数据和对应的文本标注训练数据，并提取所述语音训练数据的特征，得到语音特征序列；步骤S200，通过GMM-HMM模型对所述语音特征序列进行强制对齐，得到帧级别的对齐标注，并对所述语音特征序列中各帧语音特征进行拼接处理；步骤S300，基于拼接处理后的语音特征序列和所述文本标注训练数据，通过端到端语音转写模型获取预...

【技术保护点】
1.一种端到端语音转写模型的训练方法，其特征在于，该方法包括以下步骤：/n步骤S100，获取语音训练数据和对应的文本标注训练数据，并提取所述语音训练数据的特征，得到语音特征序列；/n步骤S200，通过GMM-HMM模型对所述语音特征序列进行强制对齐，得到帧级别的对齐标注，并对所述语音特征序列中各帧语音特征进行拼接处理；/n步骤S300，基于拼接处理后的语音特征序列和所述文本标注训练数据，通过端到端语音转写模型获取预设词表中每个词的概率分布；并根据所述概率分布通过前向-后向算法得到负对数损失值；/n步骤S400，基于所述对齐标注和所述概率分布，获取对齐损失值；/n步骤S500，对所述对齐损失值和所述负对数损失值进行加权平均，得到联合损失值，并根据所述联合损失值通过后向传播算法更新所述端到端语音转写模型的参数；/n步骤S600，循环执行步骤S300-S500，直至达到预设的训练结束条件，得到训练好的端到端语音转写模型。/n

【技术特征摘要】
1.一种端到端语音转写模型的训练方法，其特征在于，该方法包括以下步骤：
步骤S100，获取语音训练数据和对应的文本标注训练数据，并提取所述语音训练数据的特征，得到语音特征序列；
步骤S200，通过GMM-HMM模型对所述语音特征序列进行强制对齐，得到帧级别的对齐标注，并对所述语音特征序列中各帧语音特征进行拼接处理；
步骤S300，基于拼接处理后的语音特征序列和所述文本标注训练数据，通过端到端语音转写模型获取预设词表中每个词的概率分布；并根据所述概率分布通过前向-后向算法得到负对数损失值；
步骤S400，基于所述对齐标注和所述概率分布，获取对齐损失值；
步骤S500，对所述对齐损失值和所述负对数损失值进行加权平均，得到联合损失值，并根据所述联合损失值通过后向传播算法更新所述端到端语音转写模型的参数；
步骤S600，循环执行步骤S300-S500，直至达到预设的训练结束条件，得到训练好的端到端语音转写模型。

2.根据权利要求1所述的端到端语音转写模型的训练方法，其特征在于，所述端到端语音转写模型基于长短时记忆网络构建，其包括声学编码器、语言预测网络、联合网络；所述声学编码器其结构为4层双向长短时记忆网络；所述语言预测网络其结构为两层单向长短时记忆网络；所述联合网络其结构为前馈神经网络。

3.根据权利要求1所述的端到端语音转写模型的训练方法，其特征在于，步骤S100中“提取所述语音训练数据的特征”，其方法为：所述特征为梅尔频率倒谱系数或梅尔滤波器组系数。

4.根据权利要求1所述的端到端语音转写模型的训练方法，其特征在于，步骤S200中“对所述语音特征序列中各帧语音特征进行拼接处理”，其方法为：获取所述语音特征序列中的第T帧语音特征的前三帧语音特征和后一帧语音特征，与其进行拼接；若第T-3帧语音特征、第T-2帧语音特征、第T-1帧语音特征、第T+1帧语音特征中任一帧语音特征不存在，则将其对应的位置填充为0。

5.根据权利要求1-4任一项所述的端到端语音转写模型的训练方法，其特征在于，步骤S200和步骤S300之间还包括降采样处理步骤：
对所述对齐标注和拼接处理后的语音特征序列中的语音特征进行降采样处理；降采样处理后的每帧语音特征和对齐标注长度相等。

6.根据权利要求1所述的端到端语音转写模型的训练方法，其特征在于，所述负对数损失值，其计算方法为：
L1＝-lnp(y|x)
其中，L1为负对数损失值，y为文本...

【专利技术属性】
技术研发人员：陶建华，田正坤，易江燕，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人