一种多语种语音预训练方法及相关方法和设备技术

技术编号:39515959 阅读:11 留言:0更新日期:2023-11-25 18:53
本发明专利技术提供了一种多语种语音预训练方法及相关方法和设备,多语种语音预训练方法包括:采用第一训练语音对,以能够获取不同语种的训练语音中共通的语义信息为目标,对构建的语音预训练模型进行训练,得到第一语音预训练模型,其中,第一训练语音对包括两条语种不同

【技术实现步骤摘要】
一种多语种语音预训练方法及相关方法和设备


[0001]本专利技术涉及语音处理
,尤其涉及一种多语种语音预训练方法及相关方法和设备


技术介绍

[0002]在全球化环境下,人们会在不同的语言和文化背景下沟通和交流,人与人之间在采用语音进行交流时,由于所使用的语言不同,常常会出现理解障碍,为了高效地解决由语种差异所导致的一系列语音交流问题,研究多语种语音预训练变得愈发重要

[0003]多语种语音预训练指的是,利用不同语种的训练语音对构建的语音预训练模型进行训练,让模型能够学习不同语种语音的语义表征

在预训练结束后,可将训练后的语音预训练模型应用于下游任务
(
比如语音同传

语音翻译

多语种语音识别等任务
)
,以提升下游任务的效果

[0004]目前的多语种语音预训练方法大多为,基于语音预训练模型对一语种的训练语音进行分词,得到语音单元序列,对语音单元序列中的部分语音单元进行掩蔽处理,基于语音预训练模型对掩蔽后语音单元序列进行编码,得到语义特征,根据语义特征预测掩蔽处的语音单元,根据预测结果对语音训练模型进行参数更新,采用多语种训练语音集中的训练语音,按上述方式对语音预训练模型进行训练,直至满足训练结束条件

[0005]然而,采用上述的多语种语音预训练方法对语音预训练模型进行训练时,语音预训练模型能够学习到的知识有限,这会导致最终训练得到的语音预训练模型的性能不佳,进一步的,将其应用于下游任务时,会导致对下游任务效果的提升不明显


技术实现思路

[0006]有鉴于此,本专利技术提供了一种多语种语音预训练方法及相关方法和设备,用以解决采用现有的多语种语音预训练方法对语音预训练模型进行训练时,语音预训练模型能够学习到的知识有限,从而导致最终训练得到的语音预训练模型性能不佳,进而导致将其应用于下游任务时,对下游任务的效果提升不明显的问题,其技术方案如下:
[0007]第一方面,提供了一种多语种语音预训练方法,包括:
[0008]采用第一训练语音对,以能够获取不同语种的训练语音中共通的语义信息为目标,对构建的语音预训练模型进行训练,得到第一语音预训练模型,其中,所述第一训练语音对包括两条语种不同

内容语义不同的训练语音;
[0009]采用第二训练语音对,以能够将不同语种语音的语义对齐为目标,对第一语音预训练模型进行训练,得到第二语音预训练模型,作为目标语音预训练模型,其中,所述第二训练语音对包括两条语种不同

内容语义相同的训练语音

[0010]可选的,所述采用第一训练语音对,以能够获取不同语种的训练语音中共通的语义信息为目标,对构建的语音预训练模型进行训练,包括:
[0011]基于语音预训练模型将所述第一训练语音对包含的每条训练语音处理为离散的
语音单元,得到两个第一语音单元序列;
[0012]将每个第一语音单元序列中的部分语音单元用掩蔽单元掩蔽,得到两个掩蔽后第一语音单元序列,并将所述两个掩蔽后第一语音单元序列合并,得到第一目标序列;
[0013]基于语音预训练模型获取所述第一目标序列的语义特征;
[0014]根据所述第一目标序列的语义特征,对所述第一目标序列中掩蔽的语音单元进行预测,并根据获得的预测结果对语音预训练模型进行参数更新

[0015]可选的,所述将每个第一语音单元序列中的部分语音单元用掩蔽单元掩蔽之前,还包括:
[0016]针对每个第一语音单元序列:基于语音预训练模型获取该第一语音单元序列对应的训练语音的语种信息,并将该第一语音单元序列中的每个语音单元与获取的语种信息融合,得到含语种信息的第一语音单元序列;
[0017]所述将每个第一语音单元序列中的部分语音单元用掩蔽单元掩蔽,包括:
[0018]将每个含语种信息的第一语音单元序列中的部分语音单元用掩蔽单元掩蔽

[0019]可选的,所述采用第二训练语音对,以能够将不同语种语音的语义对齐为目标,对第一语音预训练模型进行训练,包括:
[0020]基于第一语音预训练模型将所述第二训练语音对包含的每条训练语音处理为离散的语音单元,得到两个第二语音单元序列;
[0021]将每个第二语音单元序列中的部分语音单元用掩蔽单元掩蔽,得到两个掩蔽后第二语音单元序列;
[0022]针对每个掩蔽后第二语音单元序列中的每个掩蔽单元:
[0023]获取该掩蔽单元对应的第二目标序列,所述第二目标序列包括该掩蔽单元以及另一个掩蔽后第二语音单元序列;
[0024]基于第一语音预训练模型获取该掩蔽单元对应的第二目标序列的语义特征;
[0025]根据该掩蔽单元对应的第二目标序列的语义特征,预测该掩蔽单元所掩蔽的语音单元,得到该掩蔽单元对应的预测结果;
[0026]根据所述两个掩蔽后第二语音单元序列中各掩蔽单元分别对应的预测结果,对第一语音预训练模型进行参数更新

[0027]可选的,所述获取该掩蔽单元对应的第二目标序列,包括:
[0028]从该掩蔽单元所在的掩蔽后第二语音单元序列所对应的掩蔽前第二语音单元序列中获取一个或多个语音单元,其中,获取的语音单元不包括该掩蔽单元掩蔽的语音单元;
[0029]由该掩蔽单元

获取的语音单元以及另一个掩蔽后第二语音单元序列组成该掩蔽单元对应的第二目标序列

[0030]可选的,所述将每个第二语音单元序列中的部分语音单元用掩蔽单元掩蔽之前,还包括:
[0031]针对每个第二语音单元序列:基于第一语音预训练模型获取该第二语音单元序列对应的训练语音的语种信息,并将该第二语音单元序列中的每个语音单元与获取的语种信息融合,得到含语种信息的第二语音单元序列;
[0032]所述将每个第二语音单元序列中的部分语音单元用掩蔽单元掩蔽,包括:
[0033]将每个含语种信息的第二语音单元序列中的部分语音单元用掩蔽单元掩蔽

[0034]可选的,构建的语音预训练模型包括:语音分词器和语音语义编码器;
[0035]所述语音分词器以语音为输入,将输入的语音处理为离散的语音单元,输出语音单元序列;
[0036]所述语音语义编码器以语音单元序列为输入,对输入的语音单元序列进行编码,输出语义特征

[0037]可选的,构建的语音预训练模型还包括:语种信息获取模块;
[0038]所述语种信息获取模块以语音为输入,获取输入的语音的语种信息并输出

[0039]第二方面,提供了一种语音处理模型获取方法,包括:
[0040]基于目标预训练模型和针对指定语音处理任务的预测模块,构建语音处理模型,其中,所述目标语音预训练模型采用上述的多语种语音预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多语种语音预训练方法,其特征在于,包括:采用第一训练语音对,以能够获取不同语种的训练语音中共通的语义信息为目标,对构建的语音预训练模型进行训练,得到第一语音预训练模型,其中,所述第一训练语音对包括两条语种不同

内容语义不同的训练语音;采用第二训练语音对,以能够将不同语种语音的语义对齐为目标,对第一语音预训练模型进行训练,得到第二语音预训练模型,作为目标语音预训练模型,其中,所述第二训练语音对包括两条语种不同

内容语义相同的训练语音
。2.
根据权利要求1所述的多语种语音预训练方法,其特征在于,所述采用第一训练语音对,以能够获取不同语种的训练语音中共通的语义信息为目标,对构建的语音预训练模型进行训练,包括:基于语音预训练模型将所述第一训练语音对包含的每条训练语音处理为离散的语音单元,得到两个第一语音单元序列;将每个第一语音单元序列中的部分语音单元用掩蔽单元掩蔽,得到两个掩蔽后第一语音单元序列,并将所述两个掩蔽后第一语音单元序列合并,得到第一目标序列;基于语音预训练模型获取所述第一目标序列的语义特征;根据所述第一目标序列的语义特征,对所述第一目标序列中掩蔽的语音单元进行预测,并根据获得的预测结果对语音预训练模型进行参数更新
。3.
根据权利要求2所述的多语种语音预训练方法,其特征在于,所述将每个第一语音单元序列中的部分语音单元用掩蔽单元掩蔽之前,还包括:针对每个第一语音单元序列:基于语音预训练模型获取该第一语音单元序列对应的训练语音的语种信息,并将该第一语音单元序列中的每个语音单元与获取的语种信息融合,得到含语种信息的第一语音单元序列;所述将每个第一语音单元序列中的部分语音单元用掩蔽单元掩蔽,包括:将每个含语种信息的第一语音单元序列中的部分语音单元用掩蔽单元掩蔽
。4.
根据权利要求1所述的多语种语音预训练方法,其特征在于,所述采用第二训练语音对,以能够将不同语种语音的语义对齐为目标,对第一语音预训练模型进行训练,包括:基于第一语音预训练模型将所述第二训练语音对包含的每条训练语音处理为离散的语音单元,得到两个第二语音单元序列;将每个第二语音单元序列中的部分语音单元用掩蔽单元掩蔽,得到两个掩蔽后第二语音单元序列;针对每个掩蔽后第二语音单元序列中的每个掩蔽单元:获取该掩蔽单元对应的第二目标序列,所述第二目标序列包括该掩蔽单元以及另一个掩蔽后第二语音单元序列;基于第一语音预训练模型获取该掩蔽单元对应的第二目标序列的语义特征;根据该掩蔽单元对应的第二目标序列的语义特征,预测该掩蔽单元所掩蔽的语音单元,得到该掩蔽单元对应的预测结果;根据所述两个掩蔽后第二语音单元序列中各掩蔽单元分别对应的预测结果,对第一语音预训练模型进行参数更新
。5.
根据权利要求4所述的多语种语音预训练方法,其特征在于,所述获取该掩蔽单元对
应的第二目标序列,包括:从该掩蔽单元所在的掩蔽后第二语音单元序列所对应的掩蔽前第二语音单元序列中获取一个或多个语音单元,其中,获取的语音单元不包括该掩蔽单元掩蔽的语音单...

【专利技术属性】
技术研发人员:章瀚逸张为泰刘俊华
申请(专利权)人:科大讯飞上海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1