【技术实现步骤摘要】
本申请实施例涉及计算机,尤其涉及一种训练数据集构建方法、装置、设备、存储介质及程序产品。
技术介绍
1、随着chatgpt等各类大语言模型在学界和工业界被广泛应用,对于大语言模型的应用能力要求也越来越高。其中,对于大语言模型的训练优化显得尤为重要,由于大语言模型的训练范式和过去传统模型训练范式完全不一样,过去训练模型的经验未必完全适用于大语言模型之上。过去训练优化传统模型时,对于训练模型用的训练数据集,主要采用增大数据体量以及提升数据质量两种方法来提升模型训练效果。
2、然而,对于大语言模型的sft训练阶段,由于增大数据量容易达到瓶颈,数据质量提升效果也有限,故而对于大语言模型的能力效果提升存在明显的上限。因此,如何高效、合理的确定大语言模型的训练集是急需解决的问题。
技术实现思路
1、本申请实施例提供了一种训练数据集构建方法、装置、设备、存储介质及程序产品,解决了传统的增大数据量以及提升数据质量对于大语言模型的能力效果提升存在明显的上限的问题,该方案从影响模型效果的数据丰富程
...【技术保护点】
1.一种训练数据集构建方法,其特征在于,包括:
2.根据权利要求1所述的训练数据集构建方法,其特征在于,所述对每个所述样本对应的预测向量进行蒙特卡洛采样得到对应的标签向量,包括:
3.根据权利要求1所述的训练数据集构建方法,其特征在于,所述基于每个所述样本对应的预测向量以及标签向量,对所述预训练语言模型进行卷积梯度计算得到对应的样本复杂度向量,包括:
4.根据权利要求1所述的训练数据集构建方法,其特征在于,在所述获取原始训练数据集之后,还包括:
5.根据权利要求4所述的训练数据集构建方法,其特征在于,所述基于每个所述批次
...【技术特征摘要】
1.一种训练数据集构建方法,其特征在于,包括:
2.根据权利要求1所述的训练数据集构建方法,其特征在于,所述对每个所述样本对应的预测向量进行蒙特卡洛采样得到对应的标签向量,包括:
3.根据权利要求1所述的训练数据集构建方法,其特征在于,所述基于每个所述样本对应的预测向量以及标签向量,对所述预训练语言模型进行卷积梯度计算得到对应的样本复杂度向量,包括:
4.根据权利要求1所述的训练数据集构建方法,其特征在于,在所述获取原始训练数据集之后,还包括:
5.根据权利要求4所述的训练数据集构建方法,其特征在于,所述基于每个所述批次中样本对应的样本复杂度向量确定对应的批次复杂度向量,包括:
6.根据权利要求4所述的训练数据集构建方法,其特...
【专利技术属性】
技术研发人员:项阳,
申请(专利权)人:广州安思创信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。