改进的预训练方法、电子设备和存储介质技术

技术编号:38848955 阅读:24 留言:0更新日期:2023-09-17 09:58
本发明专利技术公开改进的预训练方法、电子设备和存储介质,其中,预训练方法,用于预训练模型,所述预训练模型包括单元生成模块和主干网络,包括:利用所述主干网络对语音进行降采样得到第一语音表征,使用掩码对所述第一语音表征中的部分语音表征进行遮蔽得到第二语音表征,对所述第二语音表征进行聚合得到输出语音表征;对于所述输出语音表征的被遮蔽部分,与所述单元生成模块提取的离散目标计算损失,并在所述主干网络中进行梯度反向传播。本申请实施例提出了一个通过无监督算法提升自监督语音表征学习的框架,优化自监督学习的训练目标,在ASR任务上效果超过最先进的模型,同时在多项非ASR任务上取得好的效果。ASR任务上取得好的效果。ASR任务上取得好的效果。

【技术实现步骤摘要】
改进的预训练方法、电子设备和存储介质


[0001]本申请实施例涉及预训练模型
,特别是涉及一种改进的预训练方法、电子设备和存储介质。

技术介绍

[0002]相关技术中,HuBERT是最常见的预训练模型,使用离线目标提取器,将目标使用K

means算法聚类后作为离散标签进行预训练,效果一般。PBERT使用有监督训练的音素标注器获得音素标签后进行预训练,效果好于HuBERT,但只在两个下游任务上进行测评。CTCBERT使用有监督训练的音素标注器获得音素标签后进行预训练,并额外使用CTC损失(Connectionist Temporal Classification,连接主义时态分类)改善预训练效果,效果好于HuBERT和PBERT,但没有在除了ASR(Automatic Speech Recognition,语音识别)以外的下游任务上测试性能。
[0003]专利技术人在实现本申请的过程中发现,出现上述问题主要是由于HuBERT预训练的离散标签质量较差,PBERT虽然预训练的离散标签质量相对HuBERT有提升,但依然较差,CTCBERT的论文实验不充分,不能说明通用型。

技术实现思路

[0004]本专利技术实施例提供了一种改进的预训练方法、电子设备和存储介质,用于至少解决上述技术问题之一。
[0005]第一方面,本专利技术实施例提供了一种改进自监督学习目标的预训练方法,包括:获取说话人验证模型所有层的实值权重;将所述所有层的实值权重映射到固定整数集;或动态确定每一层的实值权重对应的二值权重,以更好地匹配实值权重分布。
[0006]第二方面,本专利技术实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术上述任一项改进自监督学习目标的预训练方法。
[0007]第三方面,本专利技术实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本专利技术上述任一项改进自监督学习目标的预训练方法。
[0008]第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项改进自监督学习目标的预训练方法。
[0009]本申请实施例提出了一个通过无监督算法提升自监督语音表征学习的框架,优化自监督学习的训练目标,在ASR任务上效果超过最先进的模型,同时在多项非ASR任务上取得好的效果。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1为本专利技术一实施例提供的一种改进的预训练方法的流程图;
[0012]图2为本专利技术一实施例提供的系统整体框图;
[0013]图3为本专利技术一实施例提供的LibriSpeech语料库的误码率:
[0014]图4为本专利技术一实施例提供的对不同上下文关联单元的探索;
[0015]图5为本专利技术一实施例提供的在各种下游任务上评估语音表示能力;
[0016]图6为本专利技术一实施例提供的电子设备的结构示意图。
具体实施方式
[0017]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]请参考图1,其示出了本专利技术一实施例提供的一种改进的预训练方法的流程图,用于预训练模型,其中,所述预训练模型包括单元生成模块和主干网络。
[0019]如图1所示,在步骤101中,利用所述主干网络对语音进行降采样得到第一语音表征,使用掩码对所述第一语音表征中的部分语音表征进行遮蔽得到第二语音表征,对所述第二语音表征进行聚合得到输出语音表征;
[0020]在步骤102中,对于所述输出语音表征的被遮蔽部分,与所述单元生成模块提取的离散目标计算损失,并在所述主干网络中进行梯度反向传播。
[0021]在本实施例中,提出了一个通过无监督算法提升自监督语音表征学习的框架,优化自监督学习的训练目标,在ASR任务上效果超过最先进的模型,同时在多项非ASR任务上取得好的效果。
[0022]在一些可选的实施例中,所述对于所述输出语音表征的被遮蔽部分,与所述单元生成模块提取的离散目标计算损失包括:获取所述单元生成模块生成的离散目标;使用上下文关联模块基于所述离散目标生成上下文关联的离散目标;将所述输出语音表征中的被遮蔽部分与所述上下文关联的离散目标计算损失。
[0023]在进一步可选的实施例中,所述上下文关联的单元通过以下任一方式生成:逻辑三音、物理三音、音素片或音素聚类,其中,所述逻辑三音为从上文的单音和下文的单音生成中间单音,所述物理三音为构建决策树来处理稀疏的逻辑三音的状态绑定,所述音素片为将高频率的伪单音自动合并为新的带标注目标,所述音素聚类为采用迭代的重新聚类和重新训练来提高表示能力。
[0024]在一些可选的实施例中,所述主干网络包括一个编码器网络和一个上下文网络,所述编码器网络为一维卷积神经网络组成的多层网络,所述上下文网络为Transformer组成的多层网络。
[0025]在进一步可选的实施例中,所述编码器网络为7层的一维卷积神经网络,所述上下
文网络为12层的Transformer。
[0026]在一些可选的实施例中,所述单元生成模块包括一个wav2vec 2.0和一个修改后的wav2vec 2.0,其中,所述修改后的wav2vec

U 2.0在帧级获得单音伪单元。
[0027]在进一步可选的实施例中,使用所述预训练方法训练后的预训练模型用于关键词识别、意图分类和情感识别。
[0028]以下,通过专利技术人的具体实验来验证本申请相对于现有技术的改进和有益效果。
[0029]本领域技术人员要解决上述技术问题,通常采用增大数据量,增大网络参数的解决方案。
[0030]本申请实施例的方案从优化自监督训练目标的质量角度考虑问题,不容易想到。
[0031]请参考图2,其示出了系统整体框图。其中,中英文对照如下:Unit Generation单元生成,Context

Dependent unit generation上下文关联单元生成,Mo本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进的预训练方法,用于预训练模型,其中,所述预训练模型包括单元生成模块和主干网络,包括:利用所述主干网络对语音进行降采样得到第一语音表征,使用掩码对所述第一语音表征中的部分语音表征进行遮蔽得到第二语音表征,对所述第二语音表征进行聚合得到输出语音表征;对于所述输出语音表征的被遮蔽部分,与所述单元生成模块提取的离散目标计算损失,并在所述主干网络中进行梯度反向传播。2.根据权利要求1所述的方法,其中,所述对于所述输出语音表征的被遮蔽部分,与所述单元生成模块提取的离散目标计算损失包括:获取所述单元生成模块生成的离散目标;使用上下文关联模块基于所述离散目标生成上下文关联的离散目标;将所述输出语音表征中的被遮蔽部分与所述上下文关联的离散目标计算损失。3.根据权利要求2所述的方法,其中,所述上下文关联的单元通过以下任一方式生成:逻辑三音、物理三音或音素片音素聚类,其中,所述逻辑三音为从上文的单音和下文的单音生成中间单音,所述物理三音为构建决策树来处理稀疏的逻辑三音的状态绑定,所述音素片为将高频率的伪单音自动合并为新的带标注目标。4.根据权利要求1所述的方法,其中,所述主干网络包括一个...

【专利技术属性】
技术研发人员:俞凯马子阳郑之胜杨冠柔陈谐
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1