【技术实现步骤摘要】
预训练模型的训练方法、编码特征获取方法及相关装置
本公开涉及计算机领域,尤其涉及一种预训练模型的训练方法、编码特征获取方法及相关装置。
技术介绍
在当前教学分析、智能人工客服、自动语言翻译等涉及语音数据的运用和分析领域,通过深度神经网络技术对数据处理模型进行训练,使其具备强大的学习能力进而实现数据处理已经得到了越来越广泛的应用。但现有的数据处理模型训练方法,需要基于不同的应用,对不同的模型进行训练,这就导致对数据进行不同的标注,标注的工作量很大,训练成本很高。因此,如何在较小的标注量的基础上,提高模型训练的准确性,就成为亟需解决的技术问题。
技术实现思路
本公开实施例提供一种预训练模型的训练方法、编码特征获取方法及相关装置,以实现在较小的标注量的基础上,提高模型训练的准确性。根据本公开的一方面,提供了一种预训练模型的训练方法,包括:获取待识别音频的各音频帧特征与所述待识别音频对应的文本的文本特征;通过所述预训练模型的文本编码模块对所述文本特征进行编码,得到文本编码特征;随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列;通过所述预训练模型的音频编码模块,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列;根据所述掩码音频帧编码特征序列中的各个掩码音频帧编码特征,获取各个训练音频帧特征,根据各个相互对应的所述训练音频帧特征和所述音频帧特征得到的音频 ...
【技术保护点】
1.一种预训练模型的训练方法,其特征在于:/n获取待识别音频的各音频帧特征与所述待识别音频对应的文本的文本特征;/n通过所述预训练模型的文本编码模块对所述文本特征进行编码,得到文本编码特征;/n随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列;/n通过所述预训练模型的音频编码模块,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列;/n根据所述掩码音频帧编码特征序列中的各个掩码音频帧编码特征,获取各个训练音频帧特征,根据各个相互对应的所述训练音频帧特征和所述音频帧特征得到的音频损失,调整所述预训练模型的参数,直至所述音频损失满足损失音频阈值,得到训练好的所述预训练模型。/n
【技术特征摘要】
1.一种预训练模型的训练方法,其特征在于:
获取待识别音频的各音频帧特征与所述待识别音频对应的文本的文本特征;
通过所述预训练模型的文本编码模块对所述文本特征进行编码,得到文本编码特征;
随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列;
通过所述预训练模型的音频编码模块,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列;
根据所述掩码音频帧编码特征序列中的各个掩码音频帧编码特征,获取各个训练音频帧特征,根据各个相互对应的所述训练音频帧特征和所述音频帧特征得到的音频损失,调整所述预训练模型的参数,直至所述音频损失满足损失音频阈值,得到训练好的所述预训练模型。
2.如权利要求1所述的预训练模型的训练方法,其特征在于,所述音频编码模块至少包括第一编码层和第二编码层;
所述通过所述预训练模型的音频编码模块,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到掩码音频帧编码特征序列的步骤包括:
通过所述音频编码模块的所述第一编码层,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到第一掩码音频帧编码特征序列;
通过第二编码层,结合所述文本编码特征,对所述第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征进行编码,得到第二掩码音频帧编码特征序列;
根据所述第二掩码音频获取所述掩码音频帧编码特征序列。
3.如权利要求2所述的预训练模型的训练方法,其特征在于,所述第一编码层和第二编码层均包含特征融合子层;
所述通过第一编码层,结合所述文本编码特征,对所述掩码音频帧特征序列中的各掩码音频帧特征进行编码,得到所述第一掩码音频帧编码特征序列的步骤包括:
通过所述第一编码层的特征融合子层结合所述文本编码特征和掩码音频帧特征序列中的各掩码音频帧特征,并进行编码,得到所述第一掩码音频帧编码特征序列;
通过所述第二编码层,结合所述文本编码特征,对所述第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征进行编码,得到所述第二掩码音频帧编码特征序列的步骤包括:
通过所述第二编码层的特征融合子层结合所述文本编码特征和所述第一掩码音频帧编码特征序列中的各第一掩码音频帧编码特征,并进行编码,得到所述第二掩码音频帧编码特征序列。
4.如权利要求1所述的预训练模型的训练方法,其特征在于,所述获取待识别音频的各音频帧特征的步骤包括:
获取原始音频中的语音音频,得到所述待识别音频;
根据预设帧长和预设滑动步长,依次获取所述待识别音频的各个音频帧,所述预设帧长大于所述预设滑动步长;
提取各个所述音频帧的特征,得到所述音频帧特征。
5.如权利要求4所述的预训练模型的训练方法,其特征在于,所述获取原始音频中的语音音频,得到所述待识别音频的步骤包括:
识别并标记所述原始音频中的语音音频;
依据所述标记提取所述原始音频中的语音音频,得到所述待识别音频。
6.如权利要求1所述的预训练模型的训练方法,其特征在于,所述随机选择各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列的步骤包括:
利用掩码音频帧特征或任意音频帧特征,对随机选择的各所述音频帧特征中的第一预设比例的音频帧特征进行掩码处理,得到掩码音频帧特征序列。
7.如权利要求1-6任一项所述的预训练模型的训练方法,其特征在于,
所述获取所述待识别音频对应的文本的文本特征的步骤包括:对所述待识别音频对应的文本进行分词,得到各个分词文本,获取各个所述分词文本的分词文本特征;
所述通过所述预训练模型的文本编码模块对所述文本特征进行编码,得到文本编码的步骤包括:
随机选择各所述分词文本特征中的第二预设比例的分词文本特征进行掩码处理,得到掩码文本特征,通过所述文本编码模块对所述掩码文本特征...
【专利技术属性】
技术研发人员:李航,康昱,丁文彪,刘子韬,
申请(专利权)人:北京世纪好未来教育科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。