改进的预训练方法、电子设备和存储介质技术

技术编号：38848955 阅读：24 留言：0更新日期：2023-09-17 09:58

本发明专利技术公开改进的预训练方法、电子设备和存储介质，其中，预训练方法，用于预训练模型，所述预训练模型包括单元生成模块和主干网络，包括：利用所述主干网络对语音进行降采样得到第一语音表征，使用掩码对所述第一语音表征中的部分语音表征进行遮蔽得到第二语音表征，对所述第二语音表征进行聚合得到输出语音表征；对于所述输出语音表征的被遮蔽部分，与所述单元生成模块提取的离散目标计算损失，并在所述主干网络中进行梯度反向传播。本申请实施例提出了一个通过无监督算法提升自监督语音表征学习的框架，优化自监督学习的训练目标，在ASR任务上效果超过最先进的模型，同时在多项非ASR任务上取得好的效果。ASR任务上取得好的效果。ASR任务上取得好的效果。

全部详细技术资料下载

【技术实现步骤摘要】
改进的预训练方法、电子设备和存储介质

[0001]本申请实施例涉及预训练模型
，特别是涉及一种改进的预训练方法、电子设备和存储介质。

技术介绍

[0002]相关技术中，HuBERT是最常见的预训练模型，使用离线目标提取器，将目标使用K
‑
means算法聚类后作为离散标签进行预训练，效果一般。PBERT使用有监督训练的音素标注器获得音素标签后进行预训练，效果好于HuBERT，但只在两个下游任务上进行测评。CTCBERT使用有监督训练的音素标注器获得音素标签后进行预训练，并额外使用CTC损失(Connectionist Temporal Classification，连接主义时态分类)改善预训练效果，效果好于HuBERT和PBERT，但没有在除了ASR(Automatic Speech Recognition，语音识别)以外的下游任务上测试性能。
[0003]专利技术人在实现本申请的过程中发现，出现上述问题主要是由于HuBERT预训练的离散标签质量较差，PBERT虽然预训练的离散标签质量相对HuBERT有提升，但依然较差，CTCBERT的论文实验不充分，不能说明通用型。

技术实现思路

[0004]本专利技术实施例提供了一种改进的预训练方法、电子设备和存储介质，用于至少解决上述技术问题之一。
[0005]第一方面，本专利技术实施例提供了一种改进自监督学习目标的预训练方法，包括：获取说话人验证模型所有层的实值权重；将所述所有层的实值权重映射到固定整数集；或动态确定每一层...

【技术保护点】

【技术特征摘要】
1.一种改进的预训练方法，用于预训练模型，其中，所述预训练模型包括单元生成模块和主干网络，包括：利用所述主干网络对语音进行降采样得到第一语音表征，使用掩码对所述第一语音表征中的部分语音表征进行遮蔽得到第二语音表征，对所述第二语音表征进行聚合得到输出语音表征；对于所述输出语音表征的被遮蔽部分，与所述单元生成模块提取的离散目标计算损失，并在所述主干网络中进行梯度反向传播。2.根据权利要求1所述的方法，其中，所述对于所述输出语音表征的被遮蔽部分，与所述单元生成模块提取的离散目标计算损失包括：获取所述单元生成模块生成的离散目标；使用上下文关联模块基于所述离散目标生成上下文关联的离散目标；将所述输出语音表征中的被遮蔽部分与所述上下文关联的离散目标计算损失。3.根据权利要求2所述的方法，其中，所述上下文关联的单元通过以下任一方式生成：逻辑三音、物理三音或音素片音素聚类，其中，所述逻辑三音为从上文的单音和下文的单音生成中间单音，所述物理三音为构建决策树来处理稀疏的逻辑三音的状态绑定，所述音素片为将高频率的伪单音自动合并为新的带标注目标。4.根据权利要求1所述的方法，其中，所述主干网络包括一个...

【专利技术属性】
技术研发人员：俞凯，马子阳，郑之胜，杨冠柔，陈谐，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人