一种对比预测编码自监督结构联合训练的语音识别方法技术

技术编号:28379754 阅读:23 留言:0更新日期:2021-05-08 00:07
本发明专利技术公开了一种对比预测编码自监督结构联合训练的语音识别方法,包括:获取无标签和有标签的语音数据集,并进行预处理;构建包含语音识别主任务和对比预测编码自监督结构联合训练的模型;将无标签的语音数据集作为对比预测编码自监督结构的输入,将有标签的语音数据集作为语音识别主任务的输入,对模型进行联合训练;将待识别的语音数据输入至训练后的模型,获得语音识别结果。该方法通过设计语音识别主任务和对比预测编码自监督结构联合训练的模型框架,可以使得模型学习到的语音表征既满足语音的结构信息,又适应于语音识别任务,相比于传统的语音识别监督学习方法,有更好的语音识别效果和泛化性能。

【技术实现步骤摘要】
一种对比预测编码自监督结构联合训练的语音识别方法
本专利技术涉及语音识别
,尤其涉及一种对比预测编码自监督结构联合训练的语音识别方法。
技术介绍
语音识别属于序列转换技术,它将语音序列转换为文本序列。传统的语音识别方法大多是监督学习方法,通过离散傅里叶变换和梅尔滤波器组技术提取语音序列的特征,然后利用CTC、Transformer等端到端的模型来进行预测。由于这种特征提取方法没有考虑语音信号的“共性”或“不变性”,得到的特征可能丢失了一些重要的语义和结构的信息,泛化性能较差,对于数据资源缺乏的小语种识别问题,识别效果不佳。
技术实现思路
本专利技术的目的是提供一种对比预测编码自监督结构联合训练的语音识别方法,能够提升语音识别结果的准确率,并提升模型泛化能力。本专利技术的目的是通过以下技术方案实现的:一种对比预测编码自监督结构联合训练的语音识别方法,包括:获取无标签和有标签的语音数据集,并进行预处理;构建包含语音识别主任务和对比预测编码自监督结构联合训练的模型;对预处理得到的无标签语音数据集的训练集、以及有标签语音数据集的训练集各自进行特征提取,获得相应的语音特征向量,并将两个训练集对应的语音特征向量各自输入至对比预测编码自监督结构、语音识别主任务,从而对模型进行联合训练;将待识别的语音数据输入至训练后的模型,获得语音识别结果。由上述本专利技术提供的技术方案可以看出,通过设计语音识别主任务和对比预测编码自监督结构联合训练的模型框架,可以使得模型学习到的语音表征既满足语音的结构信息,又适应于语音识别任务,相比于传统的语音识别监督学习方法,有更好的语音识别效果和泛化性能。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种对比预测编码自监督结构联合训练的语音识别方法的流程图;图2为本专利技术实施例提供的语音识别预处理后一条语音数据样例的示意图;图3为本专利技术实施例提供的语音识别主任务和自监督结构联合训练的模型框架示意图;图4为本专利技术实施例提供的对比预测编码自监督结构示意图;图5为本专利技术实施例提供的具体的网络结构示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种对比预测编码自监督结构联合训练的语音识别方法,如图1所示,其主要包括:步骤1、获取无标签和有标签的语音数据集,并进行预处理。本专利技术实施例中,将无标签和有标签的语音数据集,分别记为{X1}、{X2,Y2};其中,X为语音数据,Y为语音标签数据;将无标签语音数据集划分为训练集与验证集,将有标签的语音数据集划分为训练集、两个验证集及两个测试集;训练集、验证集、测试集各自应用于模型的训练、验证及测试。示例性的,无标签和有标签的语音数据集可以为无标签Librispeech语音数据集和有标签Librispeech语音数据集。图2提供了预处理后的一条语音数据样例,Espnet使用脚本data2json.sh将语音数据集相关的文件都打包到一个json文件中,整体结构分为两个部分:input和output,input对应于该条语音的特征以及特征的shape(表示维度),output对应于该条语音的文本及其数字表示。步骤2、构建包含语音识别主任务和对比预测编码自监督结构联合训练的模型。如图3所示,为语音识别主任务和对比预测编码自监督结构联合训练的模型框架。其中,共享网络层可以看作一个特征提取网络,该特征提取网络输出的向量可看作语音的特征向量。有标签数据集划分出的训练集的特征向量作为语音识别主任务的输入,无标签数据集划分出的训练集的特征向量作为自监督任务的输入。如图4所示,直观刻画了对比预测编码自监督结构。其中,x为输入的语音数据(具体为无标签数据集划分出的训练集),x经过特征提取网络得到语音特征向量z,(具体为训练集的语音特征向量),z经过上下文网络得到上下文表征c(具体为经过上下文网络得到的上下文表征)。对比预测编码自监督结构的损失函数为具体公式为其中zi+k为语音特征向量z的第i+k帧,i+k小于等于训练集的总帧长,ci为上下文表征c的第i帧,z*为训练集中随机采样的语音帧x*的语音特征向量,k为步长,用来刻画时间步长相差恰好为k的语音信息的相似度,通过极小化损失函数Lk(),使得zi+k与ci的相似度远大于随机向量z*与ci的相似度,K是最大步长;由于利用的是语音的连续性,因此,只有相邻的若干帧才满足这样的性质,因此,k需要是一个比较小的值,示例性的,在实验中可以设置K=12,则k=1,2,...,12,总的损失即为L1+L2+...+L12;当然,实际应用中最大步长K的具体数值可以根据实际情况或者经验自行调整,本专利技术不做具体数值的限定。由于语音相邻帧的信息相似度更高,即zi+k与ci的相似度远大于z*与ci的相似度。因此,对比预测编码自监督结构通过对比损失函数losscpc使模型学习的语音表征满足语音的“连续性”这一结构信息。步骤3、对预处理得到的无标签语音数据集的训练集、以及有标签语音数据集的训练集各自进行特征提取,获得相应的语音特征向量,并将两个训练集对应的语音特征向量各自输入至对比预测编码自监督结构、语音识别主任务,从而对模型进行联合训练。本专利技术实施例中,所述对比预测编码自监督结构的损失函数为对比损失函数,记为语音识别主任务的损失函数为CTC损失函数,记为模型通过上述两个损失函数加权相加的方式来结合自监督结构与语音识别主任务,则联合训练的总损失函数为:其中,λ为对比损失函数的权重系数;为来自无标签的语音数据集{X1}的训练集,为来自有标签的语音数据集{X2,Y2}的训练集。示例性的,经过调参后,权重系数λ可取0.2。本专利技术实施例中,模型训练时使用Adam优化器,迭代训练到模型收敛或达到预设的训练步数。之后,通过无标签语音数据集的验证集、以及有标签语音数据集的两个验证集(devclean和devother)验证训练后的模型的性能,以及通过测试集统计训练后的模型的词错率,作为模型的评价指标。验证集devclean和devother中,clean代表数据集很干净、没有噪声干扰、识别结果词错率较低,other数据集包含了噪声数据,识别结果词错率较高,后续所涉及的测试集testclean和testother也是类似原理划分的数据集。上述测试任务为模型的解码实验,表1直观的刻画了模型的解码结本文档来自技高网...

【技术保护点】
1.一种对比预测编码自监督结构联合训练的语音识别方法,其特征在于,包括:/n获取无标签和有标签的语音数据集,并进行预处理;/n构建包含语音识别主任务和对比预测编码自监督结构联合训练的模型;/n对预处理得到的无标签语音数据集的训练集、以及有标签语音数据集的训练集各自进行特征提取,获得相应的语音特征向量,并将两个训练集对应的语音特征向量各自输入至对比预测编码自监督结构、语音识别主任务,从而对模型进行联合训练;/n将待识别的语音数据输入至训练后的模型,获得语音识别结果。/n

【技术特征摘要】
1.一种对比预测编码自监督结构联合训练的语音识别方法,其特征在于,包括:
获取无标签和有标签的语音数据集,并进行预处理;
构建包含语音识别主任务和对比预测编码自监督结构联合训练的模型;
对预处理得到的无标签语音数据集的训练集、以及有标签语音数据集的训练集各自进行特征提取,获得相应的语音特征向量,并将两个训练集对应的语音特征向量各自输入至对比预测编码自监督结构、语音识别主任务,从而对模型进行联合训练;
将待识别的语音数据输入至训练后的模型,获得语音识别结果。


2.根据权利要求1所述的一种对比预测编码自监督结构联合训练的语音识别方法,其特征在于,将无标签和有标签的语音数据集,分别记为{X1}、{X2,Y2};其中,X为语音数据,Y为语音标签数据;将无标签语音数据集划分为训练集与验证集,将有标签的语音数据集划分为训练集、两个验证集及两个测试集;训练集、验证集、测试集各自应用于模型的训练、验证及测试。


3.根据权利要求2所述的一种对比预测编码自监督结构联合训练的语音识别方法,其特征在于,
模型训练时使用Adam优化器,迭代训练到模型收敛或达到预设的训练步数;
之后,通过无标签语音数据集的验证集、以及有标签语音数据集的两个验证集验证训练后的模型的性能,...

【专利技术属性】
技术研发人员:杨周旺王昊杜叶倩
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1