预训练模型的训练方法、编码特征获取方法及相关装置制造方法及图纸

技术编号:29679418 阅读:22 留言:0更新日期:2021-08-13 22:02
本公开实施例公开了一种预训练模型的训练方法、编码特征获取方法及相关装置,方法包括:获取待识别音频的各音频帧特征与文本特征;通过文本编码模块对文本特征进行编码,得到文本编码特征;随机选择音频帧特征进行掩码处理,得到掩码音频帧特征序列;通过音频编码模块,结合文本编码特征,对各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列;根据各个掩码音频帧编码特征,获取各个训练音频帧特征,并获取音频损失,调整预训练模型的参数,直至音频损失满足损失音频阈值,得到训练好的文本编码模块和音频编码模块。本公开实施例公开的预训练模型的训练、编码特征获取方法及装置,能够在较小的标注量的基础上,提高模型训练的准确性。

【技术实现步骤摘要】
预训练模型的训练方法、编码特征获取方法及相关装置
本公开涉及计算机领域,尤其涉及一种预训练模型的训练方法、编码特征获取方法及相关装置。
技术介绍
在当前教学分析、智能人工客服、自动语言翻译等涉及语音数据的运用和分析领域,通过深度神经网络技术对数据处理模型进行训练,使其具备强大的学习能力进而实现数据处理已经得到了越来越广泛的应用。但现有的数据处理模型训练方法,需要基于不同的应用,对不同的模型进行训练,这就导致对数据进行不同的标注,标注的工作量很大,训练成本很高。因此,如何在较小的标注量的基础上,提高模型训练的准确性,就成为亟需解决的技术问题。
技术实现思路
本公开实施例提供一种预训练模型的训练方法、编码特征获取方法及相关装置,以实现在较小的标注量的基础上,提高模型训练的准确性。根据本公开的一方面,提供了一种预训练模型的训练方法,包括:获取待识别音频的各音频帧特征与所述待识别音频对应的文本的文本特征;通过所述预训练模型的文本编码模块对所述文本特征进行编码,得到文本编码特征;随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列;通过所述预训练模型的音频编码模块,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列;根据所述掩码音频帧编码特征序列中的各个掩码音频帧编码特征,获取各个训练音频帧特征,根据各个相互对应的所述训练音频帧特征和所述音频帧特征得到的音频损失,调整所述预训练模型的参数,直至所述音频损失满足损失音频阈值,得到训练好的所述预训练模型。根据本公开的另一方面,提供了一种编码特征获取方法,包括:获取待编码音频的各个待编码音频帧特征和与所述待编码音频对应的待编码文本的待编码文本特征;利用前述的预训练模型的训练方法训练得到的所述文本编码模块,对所述待编码文本特征进行编码,得到编码文本编码特征;利用前述的预训练模型的训练方法训练得到的所述音频编码模块,对各个所述待编码音频帧特征结合所述编码文本编码特征进行编码,得到音频帧编码特征序列。根据本公开的另一方面,提供了一种预训练模型的训练装置,包括:音频帧特征和文本特征获取单元,用于获取所述待识别音频的各音频帧特征和所述待识别音频对应的文本的文本特征;文本编码特征获取单元,用于通过所述预训练模型的文本编码模块对所述文本特征进行编码,得到文本编码特征;掩码音频帧特征序列获取单元,用于随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列;音频编码特征获取单元,用于通过所述预训练模型的音频编码模块,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列;参数调整单元,用于根据所述掩码音频帧编码特征序列中的各个掩码音频帧编码特征,获取各个训练音频帧特征,根据各个相互对应的所述训练音频帧特征和所述音频帧特征得到的音频损失,调整所述预训练模型的参数,直至所述音频损失满足损失音频阈值,得到训练好的所述预训练模型。根据本公开的另一方面,提供了一种编码特征获取装置,包括:待编码特征获取单元,用于获取待编码音频的各个待编码音频帧特征和与所述待编码音频对应的待编码文本的待编码文本特征;文本编码单元,用于对所述待编码文本特征进行编码,得到编码文本编码特征;音频编码单元,用于对各个所述待编码音频帧特征结合所述编码文本编码特征进行编码,得到音频帧编码特征序列。根据本公开的另一方面,提供了计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行如前所述的预训练模型的训练方法。根据本公开的另一方面,提供了一种终端,包括存储器和处理器,所述存储器上存储有能够在所述计算机上运行的计算机指令,所述处理器运行所述计算机指令时执行前述的预训练模型的训练方法。与现有技术相比,本公开技术方案具有以下优点:本公开实施例所提供的预训练模型的训练方法,通过分别获取待识别音频的音频帧特征和待识别音频对应的文本的文本特征,再随机选择所述音频帧特征中的预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列,通过预训练模型的文本编码模块对文本特征进行编码,得到文本编码特征,通过预训练模型的音频编码模块,结合文本编码特征,对掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列,通过从掩码音频帧编码特征序列中的各个掩码音频帧编码特征得到的各个训练音频帧特征,根据各个相互对应的训练音频帧特征和音频帧特征得到的音频损失,调整预训练模型的参数,直至音频损失满足损失音频阈值,得到训练好的预训练模型。由此可见,本公开实施例所提供的预训练模型的训练方法,在对待训练的预训练模型进行训练时,通过预训练模型的文本编码模块对文本特征进行编码,得到文本编码特征,通过预训练模型的音频编码模块,结合文本编码特征,对掩码音频帧特征序列中的各掩码音频帧特征进行编码,这样,可以实现在编码时将音频帧特征和文本特征充分融合,从而能够通过训练使模型更准确地提取到音频帧编码特征和文本特征,提高模型训练的准确性;并且,在预训练模型的训练时,通过随机选择所述音频帧特征中的预设比例的音频帧特征进行掩码处理,再进行还原的方式实现训练,无需对训练数据进行标引,从而可以降低预训练模型的训练成本;另一方面,由于根据本公开实施例所提供的预训练模型的训练方法得到的音频编码模块和文本编码模块具有较高的准确性,在利用音频编码模块进行音频编码,以及利用文本编码模块进行文本编码时,能够得到准确的音频编码特征和文本编码特征,从而降低对于需要基于音频编码特征和文本编码特征进行进一步处理的各个模型(比如:说话人身份认证模型、说话人情感识别模型)的训练难度,利用较少的标注数据可以达到较好的训练效果,从而可以降低进行进一步处理的模型训练成本;同时,由于音频编码模块和文本编码模块可以应用于不同应用场景的模型,也保证了音频编码模块和文本编码模块具有较好的可迁移性和可扩展性。可选方案中,本公开实施例所提供的预训练模型的训练方法,所述预训练模型的音频编码模块包含了至少两个编码层,在通过预训练模型的音频编码模块结合文本编码特征,对掩码音频帧特征序列中的各掩码音频帧特征进行编码时,先通过音频编码模块的第一编码层,结合文本编码特征对掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到第一掩码音频帧编码特征序列,再通过第二编码层,结合文本编码特征,对第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征进行编码,得到第二掩码音频帧编码特征序列,根据第二掩码音频帧编码特征序列获取到掩码音频帧编码特征序列。这样,在进行预训练模型的训练时,在音频编码模块的每一个编码层都结合了文本编码特征进行编码,前一个编码层的编码输出和文本编码特征作为下一个编码层的编码输入,预训练模型在训练时能够更准确的提取到音频帧编码特征和文本特征,可以进一步提高模本文档来自技高网...

【技术保护点】
1.一种预训练模型的训练方法,其特征在于:/n获取待识别音频的各音频帧特征与所述待识别音频对应的文本的文本特征;/n通过所述预训练模型的文本编码模块对所述文本特征进行编码,得到文本编码特征;/n随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列;/n通过所述预训练模型的音频编码模块,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列;/n根据所述掩码音频帧编码特征序列中的各个掩码音频帧编码特征,获取各个训练音频帧特征,根据各个相互对应的所述训练音频帧特征和所述音频帧特征得到的音频损失,调整所述预训练模型的参数,直至所述音频损失满足损失音频阈值,得到训练好的所述预训练模型。/n

【技术特征摘要】
1.一种预训练模型的训练方法,其特征在于:
获取待识别音频的各音频帧特征与所述待识别音频对应的文本的文本特征;
通过所述预训练模型的文本编码模块对所述文本特征进行编码,得到文本编码特征;
随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列;
通过所述预训练模型的音频编码模块,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列;
根据所述掩码音频帧编码特征序列中的各个掩码音频帧编码特征,获取各个训练音频帧特征,根据各个相互对应的所述训练音频帧特征和所述音频帧特征得到的音频损失,调整所述预训练模型的参数,直至所述音频损失满足损失音频阈值,得到训练好的所述预训练模型。


2.如权利要求1所述的预训练模型的训练方法,其特征在于,所述音频编码模块至少包括第一编码层和第二编码层;
所述通过所述预训练模型的音频编码模块,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列的步骤包括:
通过所述音频编码模块的所述第一编码层,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到第一掩码音频帧编码特征序列;
通过第二编码层,结合所述文本编码特征,对所述第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征进行编码,得到第二掩码音频帧编码特征序列;
根据所述第二掩码音频获取所述掩码音频帧编码特征序列。


3.如权利要求2所述的预训练模型的训练方法,其特征在于,所述第一编码层和第二编码层均包含特征融合子层;
所述通过第一编码层,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到所述第一掩码音频帧编码特征序列的步骤包括:
通过所述第一编码层的特征融合子层结合所述文本编码特征和掩码音频帧特征序列中的各掩码音频帧特征,并进行编码,得到所述第一掩码音频帧编码特征序列;
通过所述第二编码层,结合所述文本编码特征,对所述第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征进行编码,得到所述第二掩码音频帧编码特征序列的步骤包括:
通过所述第二编码层的特征融合子层结合所述文本编码特征和所述第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征,并进行编码,得到所述第二掩码音频帧编码特征序列。


4.如权利要求1所述的预训练模型的训练方法,其特征在于,所述获取待识别音频的各音频帧特征的步骤包括:
获取原始音频中的语音音频,得到所述待识别音频;
根据预设帧长和预设滑动步长,依次获取所述待识别音频的各个音频帧,所述预设帧长大于所述预设滑动步长;
提取各个所述音频帧的特征,得到所述音频帧特征。


5.如权利要求4所述的预训练模型的训练方法,其特征在于,所述获取原始音频中的语音音频,得到所述待识别音频的步骤包括:
识别并标记所述原始音频中的语音音频;
依据所述标记提取所述原始音频中的语音音频,得到所述待识别音频。


6.如权利要求1所述的预训练模型的训练方法,其特征在于,所述随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列的步骤包括:
利用掩码音频帧特征或任意音频帧特征,对随机选择的各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列。


7.如权利要求1-6任一项所述的预训练模型的训练方法,其特征在于,
所述获取所述待识别音频对应的文本的文本特征的步骤包括:对所述待识别音频对应的文本进行分词,得到各个分词文本,获取各个所述分词文本的分词文本特征;
所述通过所述预训练模型的文本编码模块对所述文本特征进行编码,得到文本编码的步骤包括:
随机选择各所述分词文本特征中的第二预设比例的分词文本特征进行掩码处理,得到掩码文本特征,通过所述文本编码模块对所述掩码文本特征...

【专利技术属性】
技术研发人员:李航康昱丁文彪刘子韬
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1