一种对比预测编码自监督结构联合训练的语音识别方法技术

技术编号：28379754 阅读：23 留言：0更新日期：2021-05-08 00:07

本发明专利技术公开了一种对比预测编码自监督结构联合训练的语音识别方法，包括：获取无标签和有标签的语音数据集，并进行预处理；构建包含语音识别主任务和对比预测编码自监督结构联合训练的模型；将无标签的语音数据集作为对比预测编码自监督结构的输入，将有标签的语音数据集作为语音识别主任务的输入，对模型进行联合训练；将待识别的语音数据输入至训练后的模型，获得语音识别结果。该方法通过设计语音识别主任务和对比预测编码自监督结构联合训练的模型框架，可以使得模型学习到的语音表征既满足语音的结构信息，又适应于语音识别任务，相比于传统的语音识别监督学习方法，有更好的语音识别效果和泛化性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种对比预测编码自监督结构联合训练的语音识别方法
本专利技术涉及语音识别
，尤其涉及一种对比预测编码自监督结构联合训练的语音识别方法。
技术介绍
语音识别属于序列转换技术，它将语音序列转换为文本序列。传统的语音识别方法大多是监督学习方法，通过离散傅里叶变换和梅尔滤波器组技术提取语音序列的特征，然后利用CTC、Transformer等端到端的模型来进行预测。由于这种特征提取方法没有考虑语音信号的“共性”或“不变性”，得到的特征可能丢失了一些重要的语义和结构的信息，泛化性能较差，对于数据资源缺乏的小语种识别问题，识别效果不佳。
技术实现思路
本专利技术的目的是提供一种对比预测编码自监督结构联合训练的语音识别方法，能够提升语音识别结果的准确率，并提升模型泛化能力。本专利技术的目的是通过以下技术方案实现的：一种对比预测编码自监督结构联合训练的语音识别方法，包括：获取无标签和有标签的语音数据集，并进行预处理；构建包含语音识别主任务和对比预测编码自监督结构联合训练的模型；对预处理得到的无标签语音数据集的训练集、以及有标签语音数据集的训练集各自进行特征提取，获得相应的语音特征向量，并将两个训练集对应的语音特征向量各自输入至对比预测编码自监督结构、语音识别主任务，从而对模型进行联合训练；将待识别的语音数据输入至训练后的模型，获得语音识别结果。由上述本专利技术提供的技术方案可以看出，通过设计语音识别主任务和对比预测编码自监督结构联合训练的模型框架，可以使...

【技术保护点】
1.一种对比预测编码自监督结构联合训练的语音识别方法，其特征在于，包括：/n获取无标签和有标签的语音数据集，并进行预处理；/n构建包含语音识别主任务和对比预测编码自监督结构联合训练的模型；/n对预处理得到的无标签语音数据集的训练集、以及有标签语音数据集的训练集各自进行特征提取，获得相应的语音特征向量，并将两个训练集对应的语音特征向量各自输入至对比预测编码自监督结构、语音识别主任务，从而对模型进行联合训练；/n将待识别的语音数据输入至训练后的模型，获得语音识别结果。/n

【技术特征摘要】
1.一种对比预测编码自监督结构联合训练的语音识别方法，其特征在于，包括：
获取无标签和有标签的语音数据集，并进行预处理；
构建包含语音识别主任务和对比预测编码自监督结构联合训练的模型；
对预处理得到的无标签语音数据集的训练集、以及有标签语音数据集的训练集各自进行特征提取，获得相应的语音特征向量，并将两个训练集对应的语音特征向量各自输入至对比预测编码自监督结构、语音识别主任务，从而对模型进行联合训练；
将待识别的语音数据输入至训练后的模型，获得语音识别结果。

2.根据权利要求1所述的一种对比预测编码自监督结构联合训练的语音识别方法，其特征在于，将无标签和有标签的语音数据集，分别记为{X1}、{X2,Y2}；其中，X为语音数据，Y为语音标签数据；将无标签语音数据集划分为训练集与验证集，将有标签的语音数据集划分为训练集、两个验证集及两个测试集；训练集、验证集、测试集各自应用于模型的训练、验证及测试。

3.根据权利要求2所述的一种对比预测编码自监督结构联合训练的语音识别方法，其特征在于，
模型训练时使用Adam优化器，迭代训练到模型收敛或达到预设的训练步数；
之后，通过无标签语音数据集的验证集、以及有标签语音数据集的两个验证集验证训练后的模型的性能，...

【专利技术属性】
技术研发人员：杨周旺，王昊，杜叶倩，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人