一种端到端长时语音识别方法技术

技术编号:30408748 阅读:21 留言:0更新日期:2021-10-20 11:21
本发明专利技术提供了一种端到端长时语音识别方法。该方法包括:选取语料库为训练数据集,对训练数据集中的语音数据进行数据预处理和特征提取,生成语音特征;构造融合外部语言模型和长时语音识别算法的改进的RNN

【技术实现步骤摘要】
一种端到端长时语音识别方法


[0001]本专利技术涉及语音识别
,尤其涉及一种端到端长时语音识别方法。

技术介绍

[0002]语音作为信息传递最直接有效的方式,是人们彼此感情交流和思想传递最主要的途径。自动语音识别(Automatic Speech Recognition,ASR)技术是指将语音信号正确地识别为对应的文本内容或命令,让机器听懂人类语言并执行相关操作。随着计算机的广泛应用,ASR技术成为实现简单便捷的人机智能交互的关键技术,逐渐成为了热门的研究领域。随着深度学习和语音识别技术的进步和发展,基于端到端的语音识别模型凭借强大的建模能力和学习能力相较于传统语音识别技术显著提高了语音识别准确率。不同于传统的语音识别系统,端到端模型解决了需要对语音数据做对齐预处理的问题,并且可以直接得到输入语音波形或特征和输出文本内容之间的映射关系,简化了模型训练流程。使得语音识别技术被广泛应用在智能家居、无人驾驶、安防监控等多个领域,应用前景十分广阔。
[0003]伴随着语音识别技术快速发展,语音识别在特定的应用环境中需要面对大量长时语音的场景,例长篇演讲和会话级别的语音识别或者是机器人电话交互过程中用户说的是不间断的长时语音。目前对于长句识别的解决方案是将长语句分割固定长度的片段,然后独立地识别每个片段,但分段边界存在单词切割问题,无法有效地从分段片段中恢复原始单词。重叠推理策略解码将长语句分割成重叠的多片段解决单词切割问题,但会在解码阶段大大增加额外的计算量。因此,如何针对长时语音识别任务的特点,构建更加适用于长时语音场景下的语音识别模型,是一个亟待解决的问题。
[0004]二十世纪五十年代是语音识别技术研究的萌芽期,贝尔实验室开发的自动数字识别机,标志着语音识别技术研究真正意义上的开始,由此开启了语音识别技术的研究热潮。语音识别技术的发展可以分为传统语音识别、基于深度学习的语音识别、端到端语音识别三个阶段。传统语音识别以GMM

HMM的语音识别模型为了主流框架,并取得了令人瞩目的成果。直至进入21世纪,深度学习(Deep Learning)技术的发展极大促进了语音识别技术的进步,使得识别精度大大提高,基于深度学习的语音识别技术得到迅速发展。基于端到端网络模型是近几年提出的语音识别系统,该模型通过一个神经网络模型可以直接建立输入语音波形和输出文本内容之间的映射关系,而不再需要对系统中各个模块单独训练,简化了语音识别流程。目前,现有实现端到端模型的方法主要有三种:基于连接时序分类技术(Connectionist Temporal Classification,CTC),基于注意力机制的编码器

解码器模型(Attention

based Model),基于循环神经网络转换器(Recurrent Neural Network Transducer,RNN

T)。其中RNN

T模型针对CTC模型的不足设计出来的,它将声学特征和语言信息整合在一起,同时考虑到声学和语言信息,解决了CTC中存在的输出独立假设问题,是本专利技术研究改进的重点部分之一。
[0005]近几年,深度学习受到极大关注,并在语音识别、计算机视觉等领域取得了成功的应用。随着深度学习的快速发展,深度神经网络的设计日益复杂,深度学习领域的模型压缩
技术也随之迅速发展。如何在保证模型性能的前提下,有效减少深度神经网络模型的计算量和储存空间成为了研究的热点。现阶段模型压缩技术主要包括:网络剪枝、量化、低秩分解、紧凑网络设计和知识蒸馏(Knowledge Distillation,KD)。
[0006]其中知识蒸馏能够将深度较深的模型压缩成较浅的模型,通过模仿大模型的输出将复杂大模型中提取的有用知识传递到简单的小模型中,并有助于降低模型时间和空间复杂度。也是本专利技术研究改进的重点部分之一。
[0007]如上所述,现有语音识别方法包括:基于CTC模型假设当前帧的输出与历史输出之间是条件独立的缺点,RNN

T模型通过引入预测网络来弥补CTC条件独立假设且不具备语言建模能力的问题。RNN

T模型将语言信息和声学信息整合在一起,同时进行联合优化,其模型结构图如图1所示。RNN

T模型主要由编码网络(Encoder Network)、预测网络(Prediction Network)和联合网络(Joint Network)共同构成。
[0008]上述现有技术中的语音识别方法的缺点为:
[0009](1)RNN

T模型训练困难。RNN

T模型训练需要大量的语音

文本对数据才能实现模型的收敛,达到较好的识别性能。在实际应用中构建语音

文本语料需要高昂的成本,所以标注数据稀少。训练的RNN

T模型过程中欠缺语言学知识,语言建模能力不足,(即预测网络存在训练不充分)使得RNN

T模型存在训练困难的问题。
[0010](2)长时语音识别鲁棒性较差。语音识别技术需要面对大量长时语音的特定场景,例如持续半分钟以上的长篇演讲和会话级别的语音识别。受限于硬件计算设备和训练数据与测试数据不匹配等因素影响。RNN

T模型通常是基于在句子层次上训练的,长时语句被分割成短语句音频片段,使得训练模型在计算上是可行的。但是这会导致在识别长时语音时产生训练和测试数据不匹配的问题,基于短句级别训练数据训练的语音识别模型对于长时语音的识别鲁棒性较差,大大降低模型的识别性能。对于长篇演讲和会话级别的语音识别,依然面临挑战。
[0011]如上所述,知识蒸馏是时现有使用较为广泛的一种模型压缩,其基于师生学习的训练方式。核心思想是通过知识迁移,使用预训练的大网络作为教师模型,指导一个运行速度更快、参数量更小的网络作为学生模型,将教师模型输出的“软化标签”(Soft Target)作为知识传递给学生模型,以提升学生模型的性能。图2为现有技术中的一种帧级别和序列级别知识蒸馏算法实现原理图。
[0012]上述现有技术中的模型压缩方法的缺点为:模型参数量大且计算复杂度高。为了进一步提升模型的识别性能,现有算法不断增加网络模型层数,设计更加复杂的网络结构。然而,在提高识别性能的同时,这些策略普遍存在模型参数量大且计算复杂度高的问题。这导致模型计算效率较低,难以在对实时性有要求的实际环境中使用。针对语音识别模型计算量庞大和参数冗余的问题,序列级知识蒸馏算法对于减少模型冗余参数,减少模型的参数量,降低模型时间和空间复杂度有着重要作用。但是序列级知识蒸馏的效果易受参数设施和模型初始化等信息影响,模型泛化能力较差。

技术实现思路

[0013]本专利技术的实施例提供了一种端到端长时语音识别方法,以实现对端到端长时语音数据进行有效地识别。
[0014]为了实现上述目的,本专利技术采取了如下技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端长时语音识别方法,其特征在于,包括:选取语料库为训练数据集,对所述训练数据集中的语音数据进行数据预处理和特征提取,生成语音特征,并组成测试和验证数据集;构造融合外部语言模型和长时语音识别算法的改进的RNN

T模型,将所述语音特征输入所述改进的RNN

T模型进行训练,得到训练好的改进的RNN

T模型;将训练好的改进的RNN

T模型作为互学习知识蒸馏算法中的教师模型,利用互学习知识蒸馏算法训练互学习知识蒸馏算法中的学生模型,并利用测试和验证数据集对学生模型进行测试和验证,得到训练和验证好的学生模型;利用所述训练和验证好的学生模型对待识别的长时语音数据进行识别,输出语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述的选取语料库为训练数据集,对所述训练数据集中的语音数据进行数据预处理和特征提取,生成语音特征,并组成测试和验证数据集,包括:选取AISHELL

1语料库为训练数据集,利用Sox音频处理工具对AISHELL

1中的语音数据进行合成长时语音数据处理,调用kaldi工具包对合成的长时语音数据进行特征提取处理,生成验证和测试学生网络的语音特征,利用语音特征组成测试和验证数据集。3.根据权利要求1所述的方法,其特征在于,所述的构造融合外部语言模型和长时语音识别算法的改进的RNN

T模型,包括:构造改进的RNN

T模型,所述改进的RNN

T模型完成语音识别任务、语言建模任务和指导语言建模的知识蒸馏任务,所述语音识别任务中将训练数据的语音特征x
t
输入到编码网络中得到声学信息高级表示将声学信息高级表示长时语音识别算法得到的输出c
k
和预测网络得到的输出在联合网络中进行融合,计算得到语音识别任务损失L
RNN

T
;语言建模任务在RNN

T模型通过预测网络进行语言建模的基础上加入训练好的外部语言模型,训练好的外部语言模型根据先前非空标签y
u
‑1为预测网络提供软化标签,指导预测网络的语言建模,将蒸馏损失函数L
kd
与预测网络语言建模的损失函数L
LM
加权相加作为预测网络语言模型的优化函数。4.根据权利要求3所述的方法,其特征在于,所述的长时语音识别算法包括模拟长时音频训练模块和跨句上下文模块,所述模拟长时音频训练模块通过修改模型隐层初始状态模拟长时音频训练,实现等价长时语音识别模型训练,所述跨句上下文模块,用于保留跨句历史上下文信息。5.根据权利要求4所述的方法,其特征在于:所述的模拟长时音频训练模块,具体用于在训练到第k条语句时,对模型隐层状态进行初始化,用第k

1条语句训练结束后编码网络和预测网络的最终隐层状态E
k
‑1(T)和P
k
‑1(U)来初始化E
k
(0)和P
k
(0),在模拟长时音频训练过程中设置随机种子,控制模拟长音频句子的长度,在训练RNN

T模型过程中设置传递LSTM状态的概率P=0.5,否则将LSTM的初始状态置为0向量,如式(2

4)所示:
所述的跨句上下文模块,具体用于将模型预测的历史语句文本输入进入跨距上下文模块进行特征编码得到使用注意力机制对和历史上下文向量c
k
‑1计算得到注意力分数α
u,i
,使用文本特征与注意力得分计算得到当前语句的历史上下文向量c
k
,计算过程如式(2

5)至(2

6)所示...

【专利技术属性】
技术研发人员:明悦邹俊伟温志刚李泽瑞吕柏阳
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1