训练数据集构建方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：40595090 阅读：31 留言：0更新日期：2024-03-12 21:57

本申请实施例提供了一种训练数据集构建方法、装置、设备、存储介质及程序产品，该方法包括：获取原始训练数据集，将原始训练数据集的样本输入至预训练语言模型，得到每个样本对应的预测向量；对每个样本对应的预测向量进行蒙特卡洛采样得到对应的标签向量；基于每个样本对应的预测向量以及标签向量，对预训练语言模型进行卷积梯度计算得到对应的样本复杂度向量；根据每个样本对应的样本复杂度向量，将原始训练数据集中满足最高数据集复杂度的样本组合确定为目标训练数据集。该方案中，将蒙特卡洛采样的随机作用及预训练语言模型的特征提取能力进行结合以确定样本的复杂度向量，并基于此生成训练数据集，进而提升模型能力的上限。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及计算机，尤其涉及一种训练数据集构建方法、装置、设备、存储介质及程序产品。

技术介绍

1、随着chatgpt等各类大语言模型在学界和工业界被广泛应用，对于大语言模型的应用能力要求也越来越高。其中，对于大语言模型的训练优化显得尤为重要，由于大语言模型的训练范式和过去传统模型训练范式完全不一样，过去训练模型的经验未必完全适用于大语言模型之上。过去训练优化传统模型时，对于训练模型用的训练数据集，主要采用增大数据体量以及提升数据质量两种方法来提升模型训练效果。

2、然而，对于大语言模型的sft训练阶段，由于增大数据量容易达到瓶颈，数据质量提升效果也有限，故而对于大语言模型的能力效果提升存在明显的上限。因此，如何高效、合理的确定大语言模型的训练集是急需解决的问题。

技术实现思路

1、本申请实施例提供了一种训练数据集构建方法、装置、设备、存储介质及程序产品，解决了传统的增大数据量以及提升数据质量对于大语言模型的能力效果提升存在明显的上限的问题，该方案从影响模型效果的数据丰富程...

【技术保护点】

1.一种训练数据集构建方法，其特征在于，包括：

2.根据权利要求1所述的训练数据集构建方法，其特征在于，所述对每个所述样本对应的预测向量进行蒙特卡洛采样得到对应的标签向量，包括：

3.根据权利要求1所述的训练数据集构建方法，其特征在于，所述基于每个所述样本对应的预测向量以及标签向量，对所述预训练语言模型进行卷积梯度计算得到对应的样本复杂度向量，包括：

4.根据权利要求1所述的训练数据集构建方法，其特征在于，在所述获取原始训练数据集之后，还包括：

5.根据权利要求4所述的训练数据集构建方法，其特征在于，所述基于每个所述批次中样本对应的样本复杂...

【技术特征摘要】

1.一种训练数据集构建方法，其特征在于，包括：

2.根据权利要求1所述的训练数据集构建方法，其特征在于，所述对每个所述样本对应的预测向量进行蒙特卡洛采样得到对应的标签向量，包括：

4.根据权利要求1所述的训练数据集构建方法，其特征在于，在所述获取原始训练数据集之后，还包括：

5.根据权利要求4所述的训练数据集构建方法，其特征在于，所述基于每个所述批次中样本对应的样本复杂度向量确定对应的批次复杂度向量，包括：

6.根据权利要求4所述的训练数据集构建方法，其特...

【专利技术属性】
技术研发人员：项阳，
申请(专利权)人：广州安思创信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人