【技术实现步骤摘要】
一种超参数确定及语义转换方法、装置、设备及介质
[0001]本专利技术涉及计算机
,尤其涉及一种超参数确定及语义转换方法、装置、设备及介质。
技术介绍
[0002]随着计算能力的提升和数据集的增大,预训练大模型的规模也逐渐增大。因此,对预训练大模型进行训练时,训练的难度也不断增加,常常遇到难收敛、收敛慢以及训练不稳定的问题。
[0003]现有技术中,对于参数较少的模型,通常可以通过设置参数范围进行自适应遍历,进而,寻找一组稳定可靠的超参数,进行模型训练。但是,若采用自适应遍历参数范围的方式确定预训练大模型的超参数,会增加预训练大模型的训练时间以及训练难度,并且也会提高训练成本。因此,如何提高预训练大模型训练的成功率且降低训练成本,是目前亟待解决的问题。
技术实现思路
[0004]本专利技术提供了一种超参数确定及语义转换方法、装置、设备及介质,可以解决大模型预训练的成功率低且训练成本较高的问题。
[0005]根据本专利技术的一方面,提供了一种基于双塔模型的超参数确定方法,该方法应用于预训练大模型的超参数确定场景,该预训练大模型承载于目标硬件设备中,该方法包括:
[0006]获取目标硬件设备的综合算力以及目标预训练大模型对应的各基础超参数的基础算力,依据各所述基础算力计算得到目标预训练大模型对应的目标算力,并数值比较所述目标算力与所述综合算力,生成比较结果;
[0007]若所述比较结果超出预设阈值,获取预训练小模型集合及预设超参数组合,依据所述预设超参数组合训练并判定 ...
【技术保护点】
【技术特征摘要】
1.一种基于双塔模型的超参数确定方法,其特征在于,所述方法应用于预训练大模型的超参数确定场景,所述预训练大模型承载于目标硬件设备中,所述方法包括:获取目标硬件设备的综合算力以及目标预训练大模型对应的各基础超参数的基础算力,依据各所述基础算力计算得到目标预训练大模型对应的目标算力,并数值比较所述目标算力与所述综合算力,生成比较结果;若所述比较结果超出预设阈值,获取预训练小模型集合及预设超参数组合,依据所述预设超参数组合训练并判定处理所述预训练小模型集合中的各目标预训练小模型,生成目标训练样本集合;基于预设训练特征设定字段确定目标训练样本集合中各目标预训练小模型对应的基础训练特征,以及基于预设收敛特征设定字段确定目标训练样本集合中各目标预训练小模型对应的基础收敛特征,并将所述基础训练特征与基础收敛特征组合生成基础特征样本集合;获取基础双塔模型,并依据所述基础特征样本集合反向传播训练所述基础双塔模型,生成目标双塔模型;获取目标预训练大模型对应的各基础超参数,以及各基础超参数对应的基础超参数范围,并依据目标双塔模型遍历处理各基础超参数对应的所述基础超参数范围,确定所述目标预训练大模型对应的目标超参数。2.根据权利要求1所述的方法,其特征在于,所述依据所述基础特征样本集合反向传播训练所述基础双塔模型,生成目标双塔模型,包括:数据预处理所述基础特征样本集合,得到目标样本集合;其中,所述目标样本集合中的各目标样本包含目标训练特征与目标收敛特征;获取目标样本对应的目标训练特征,并拼接处理所述目标训练特征中的第一离散特征以及第一连续特征,生成基础训练特征向量;获取目标样本对应的目标收敛特征,并拼接处理所述目标收敛特征中的第二离散特征以及第二连续特征,生成基础收敛特征向量;利用所述基础双塔模型生成基础训练特征向量对应的融合训练特征向量,以及基础收敛特征向量对应的融合收敛特征向量,并利用所述融合训练特征向量与所述融合收敛特征向量之间的差异关系反向传播训练所述基础双塔模型,生成目标双塔模型。3.根据权利要求2所述的方法,其特征在于,所述数据预处理所述基础特征样本集合,得到目标样本集合,包括:标准化处理各基础特征样本中基础训练特征对应的连续特征值生成第一连续特征,以及基础收敛特征对应的连续特征值生成第二连续特征;嵌套处理各基础特征样本中基础训练特征对应的离散特征值生成第一离散特征,以及基础收敛特征对应的离散特征值生成第二离散特征;将所述第一连续特征与第一离散特征组合,生成目标训练特征,以及,将所述第二连续特征与第二离散特征组合,生成目标收敛特征,得到包含目标训练特征及目标收敛特征的目标样本集合。4.根据权利要求2所述的方法,其特征在于,所述获取目标样本对应的目标训练特征,并拼接处理所述目标训练特征中的第一离散特征以及第一连续特征,生成基础训练特征向
量,包括:顺序累计处理所述目标训练特征中的第一离散特征,得到第一累计向量;依据预设拼接策略拼接处理所述第一累计向量以及第一连续特征,生成基础训练特征向量;所述获取目标样本对应的目标收敛特征,并拼接处理所述目标收敛特征中的第二离散特征以及第二连续特征,生成基础收敛特征向量,包括:顺序累计处理所述目标收敛特征中的第二离散特征,得到第二累计向量;依据预设拼接策略拼接处理所述第二累计向量以及第二连续特征,生成基础收敛特征向量。5.根据权利要求2所述的方法,其特征在于,所述利用所述融合训练特征向量与所述融合收敛特征向量之间的差异关系反向传播训练所述基础双塔模型,生成目标双塔模型,包括:依据均方误差方法最小化处理融合训练特征向量和融合收敛特征向量间的差异值,生成目标损失函数;依据所述目标损失函数反向传播训练所述基础双塔模型,生成目标双塔模型。6.根据权利要求1所述的方法,其特征在于,所述依据目标双塔模型遍历处理各基础超参数对应的所述基础超参数范围,确定所述目标预训练大模型对应的目标超参数,包括:获取目标预训练大模型对应的目标收敛特征及目标模型参数,依据目标双塔模型遍历处理...
【专利技术属性】
技术研发人员:廖金龙,许士芳,吴长平,姚建国,
申请(专利权)人:上海燧原智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。