一种超参数确定及语义转换方法、装置、设备及介质制造方法及图纸

技术编号:39184466 阅读:13 留言:0更新日期:2023-10-27 08:32
本发明专利技术公开了一种超参数确定及语义转换方法、装置、设备及介质。该基于双塔模型的超参数确定方法包括:数值比较目标预训练大模型的目标算力与目标硬件设备的综合算力;若比较结果超出预设阈值,依据预设超参数组合处理各目标预训练小模型生成目标训练样本集合;基于预设训练特征设定字段以及预设收敛特征设定字段生成基础特征样本集合;依据基础特征样本集合反向传播训练基础双塔模型生成目标双塔模型;依据目标双塔模型遍历处理目标预训练大模型对应的基础超参数范围,确定目标预训练大模型对应的目标超参数。通过本发明专利技术的技术方案,能够快速获得预训练大模型的超参数,提高大模型预训练的成功率且降低训练成本。型预训练的成功率且降低训练成本。型预训练的成功率且降低训练成本。

【技术实现步骤摘要】
一种超参数确定及语义转换方法、装置、设备及介质


[0001]本专利技术涉及计算机
,尤其涉及一种超参数确定及语义转换方法、装置、设备及介质。

技术介绍

[0002]随着计算能力的提升和数据集的增大,预训练大模型的规模也逐渐增大。因此,对预训练大模型进行训练时,训练的难度也不断增加,常常遇到难收敛、收敛慢以及训练不稳定的问题。
[0003]现有技术中,对于参数较少的模型,通常可以通过设置参数范围进行自适应遍历,进而,寻找一组稳定可靠的超参数,进行模型训练。但是,若采用自适应遍历参数范围的方式确定预训练大模型的超参数,会增加预训练大模型的训练时间以及训练难度,并且也会提高训练成本。因此,如何提高预训练大模型训练的成功率且降低训练成本,是目前亟待解决的问题。

技术实现思路

[0004]本专利技术提供了一种超参数确定及语义转换方法、装置、设备及介质,可以解决大模型预训练的成功率低且训练成本较高的问题。
[0005]根据本专利技术的一方面,提供了一种基于双塔模型的超参数确定方法,该方法应用于预训练大模型的超参数确定场景,该预训练大模型承载于目标硬件设备中,该方法包括:
[0006]获取目标硬件设备的综合算力以及目标预训练大模型对应的各基础超参数的基础算力,依据各所述基础算力计算得到目标预训练大模型对应的目标算力,并数值比较所述目标算力与所述综合算力,生成比较结果;
[0007]若所述比较结果超出预设阈值,获取预训练小模型集合及预设超参数组合,依据所述预设超参数组合训练并判定处理所述预训练小模型集合中的各目标预训练小模型,生成目标训练样本集合;
[0008]基于预设训练特征设定字段确定目标训练样本集合中各目标预训练小模型对应的基础训练特征,以及基于预设收敛特征设定字段确定目标训练样本集合中各目标预训练小模型对应的基础收敛特征,并将所述基础训练特征与基础收敛特征组合生成基础特征样本集合;
[0009]获取基础双塔模型,并依据所述基础特征样本集合反向传播训练所述基础双塔模型,生成目标双塔模型;
[0010]获取目标预训练大模型对应的各基础超参数,以及各基础超参数对应的基础超参数范围,并依据目标双塔模型遍历处理各基础超参数对应的所述基础超参数范围,确定所述目标预训练大模型对应的目标超参数。
[0011]根据本专利技术的另一方面,提供了一种语义转换方法,该方法包括:
[0012]获取待转换文本,并将所述待转换文本输入至目标语义转换模型;其中,所述目标
语义转换模型为目标预训练大模型,通过本专利技术任一实施例所述的基于双塔模型的超参数确定方法训练得到;
[0013]通过所述目标语义转换模型确定所述待转换文本对应的文本特征,并基于所述文本特征生成对应的目标语义转换结果。
[0014]根据本专利技术的另一方面,提供了一种基于双塔模型的超参数确定装置,该装置应用于预训练大模型的超参数确定场景,该预训练大模型承载于目标硬件设备中,该装置包括:
[0015]算力判断模块,用于获取目标硬件设备的综合算力以及目标预训练大模型对应的各基础超参数的基础算力,依据各所述基础算力计算得到目标预训练大模型对应的目标算力,并数值比较所述目标算力与所述综合算力,生成比较结果;
[0016]训练样本生成模块,用于若所述比较结果超出预设阈值,获取预训练小模型集合及预设超参数组合,依据所述预设超参数组合训练并判定处理所述预训练小模型集合中的各目标预训练小模型,生成目标训练样本集合;
[0017]特征样本生成模块,用于基于预设训练特征设定字段确定目标训练样本集合中各目标预训练小模型对应的基础训练特征,以及基于预设收敛特征设定字段确定目标训练样本集合中各目标预训练小模型对应的基础收敛特征,并将所述基础训练特征与基础收敛特征组合生成基础特征样本集合;
[0018]双塔模型构建模块,用于获取基础双塔模型,并依据所述基础特征样本集合反向传播训练所述基础双塔模型,生成目标双塔模型;
[0019]超参数确定模块,用于获取目标预训练大模型对应的各基础超参数,以及各基础超参数对应的基础超参数范围,并依据目标双塔模型遍历处理各基础超参数对应的所述基础超参数范围,确定所述目标预训练大模型对应的目标超参数。
[0020]根据本专利技术的另一方面,提供了一种语义转换装置,其特征在于,所述方法包括:
[0021]数据获取模块,用于获取待转换文本,并将所述待转换文本输入至目标语义转换模型;其中,所述目标语义转换模型为目标预训练大模型,通过本专利技术任一实施例所述的基于双塔模型的超参数确定方法训练得到;
[0022]结果生成模块,用于通过所述目标语义转换模型确定所述待转换文本对应的文本特征,并基于所述文本特征生成对应的目标语义转换结果。
[0023]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0024]至少一个处理器;以及
[0025]与所述至少一个处理器通信连接的存储器;其中,
[0026]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的基于双塔模型的超参数确定方法,或者执行本专利技术任一实施例所述的语义转换方法。
[0027]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的基于双塔模型的超参数确定方法,或者执行本专利技术任一实施例所述的语义转换方法。
[0028]本专利技术实施例的技术方案,通过依据目标预训练大模型对应的各基础算力计算得到目标预训练大模型对应的目标算力,并数值比较目标算力与目标硬件设备的综合算力生
成比较结果,若比较结果超出预设阈值,获取预训练小模型集合及预设超参数组合,依据预设超参数组合训练并判定处理预训练小模型集合中的各目标预训练小模型,生成目标训练样本集合,进而,基于预设训练特征设定字段确定目标训练样本集合中各目标预训练小模型对应的基础训练特征,以及基于预设收敛特征设定字段确定目标训练样本集合中各目标预训练小模型对应的基础收敛特征,并将基础训练特征与基础收敛特征组合生成基础特征样本集合,进一步,依据基础特征样本集合反向传播训练基础双塔模型,生成目标双塔模型,最后,获取目标预训练大模型对应的各基础超参数,以及各基础超参数对应的基础超参数范围,并依据目标双塔模型遍历处理各基础超参数对应的基础超参数范围,确定目标预训练大模型对应的目标超参数,能够快速获得预训练大模型的超参数,提高大模型预训练的成功率且降低训练成本。
[0029]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双塔模型的超参数确定方法,其特征在于,所述方法应用于预训练大模型的超参数确定场景,所述预训练大模型承载于目标硬件设备中,所述方法包括:获取目标硬件设备的综合算力以及目标预训练大模型对应的各基础超参数的基础算力,依据各所述基础算力计算得到目标预训练大模型对应的目标算力,并数值比较所述目标算力与所述综合算力,生成比较结果;若所述比较结果超出预设阈值,获取预训练小模型集合及预设超参数组合,依据所述预设超参数组合训练并判定处理所述预训练小模型集合中的各目标预训练小模型,生成目标训练样本集合;基于预设训练特征设定字段确定目标训练样本集合中各目标预训练小模型对应的基础训练特征,以及基于预设收敛特征设定字段确定目标训练样本集合中各目标预训练小模型对应的基础收敛特征,并将所述基础训练特征与基础收敛特征组合生成基础特征样本集合;获取基础双塔模型,并依据所述基础特征样本集合反向传播训练所述基础双塔模型,生成目标双塔模型;获取目标预训练大模型对应的各基础超参数,以及各基础超参数对应的基础超参数范围,并依据目标双塔模型遍历处理各基础超参数对应的所述基础超参数范围,确定所述目标预训练大模型对应的目标超参数。2.根据权利要求1所述的方法,其特征在于,所述依据所述基础特征样本集合反向传播训练所述基础双塔模型,生成目标双塔模型,包括:数据预处理所述基础特征样本集合,得到目标样本集合;其中,所述目标样本集合中的各目标样本包含目标训练特征与目标收敛特征;获取目标样本对应的目标训练特征,并拼接处理所述目标训练特征中的第一离散特征以及第一连续特征,生成基础训练特征向量;获取目标样本对应的目标收敛特征,并拼接处理所述目标收敛特征中的第二离散特征以及第二连续特征,生成基础收敛特征向量;利用所述基础双塔模型生成基础训练特征向量对应的融合训练特征向量,以及基础收敛特征向量对应的融合收敛特征向量,并利用所述融合训练特征向量与所述融合收敛特征向量之间的差异关系反向传播训练所述基础双塔模型,生成目标双塔模型。3.根据权利要求2所述的方法,其特征在于,所述数据预处理所述基础特征样本集合,得到目标样本集合,包括:标准化处理各基础特征样本中基础训练特征对应的连续特征值生成第一连续特征,以及基础收敛特征对应的连续特征值生成第二连续特征;嵌套处理各基础特征样本中基础训练特征对应的离散特征值生成第一离散特征,以及基础收敛特征对应的离散特征值生成第二离散特征;将所述第一连续特征与第一离散特征组合,生成目标训练特征,以及,将所述第二连续特征与第二离散特征组合,生成目标收敛特征,得到包含目标训练特征及目标收敛特征的目标样本集合。4.根据权利要求2所述的方法,其特征在于,所述获取目标样本对应的目标训练特征,并拼接处理所述目标训练特征中的第一离散特征以及第一连续特征,生成基础训练特征向
量,包括:顺序累计处理所述目标训练特征中的第一离散特征,得到第一累计向量;依据预设拼接策略拼接处理所述第一累计向量以及第一连续特征,生成基础训练特征向量;所述获取目标样本对应的目标收敛特征,并拼接处理所述目标收敛特征中的第二离散特征以及第二连续特征,生成基础收敛特征向量,包括:顺序累计处理所述目标收敛特征中的第二离散特征,得到第二累计向量;依据预设拼接策略拼接处理所述第二累计向量以及第二连续特征,生成基础收敛特征向量。5.根据权利要求2所述的方法,其特征在于,所述利用所述融合训练特征向量与所述融合收敛特征向量之间的差异关系反向传播训练所述基础双塔模型,生成目标双塔模型,包括:依据均方误差方法最小化处理融合训练特征向量和融合收敛特征向量间的差异值,生成目标损失函数;依据所述目标损失函数反向传播训练所述基础双塔模型,生成目标双塔模型。6.根据权利要求1所述的方法,其特征在于,所述依据目标双塔模型遍历处理各基础超参数对应的所述基础超参数范围,确定所述目标预训练大模型对应的目标超参数,包括:获取目标预训练大模型对应的目标收敛特征及目标模型参数,依据目标双塔模型遍历处理...

【专利技术属性】
技术研发人员:廖金龙许士芳吴长平姚建国
申请(专利权)人:上海燧原智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1