一种加速大语言模型训练的数据预处理方法及系统技术方案

技术编号：41666204 阅读：20 留言：0更新日期：2024-06-14 15:25

本发明专利技术提出了一种加速大语言模型训练的数据预处理方法及系统，解决了现有大语言模型训练过程中将数据完全打散，以致数据的随机性缺失的问题。先后通过将用于大语言模型训练的数据打散后进行分块并按照文本数据的长度大小进行排序，实现了在保证数据集一定随机性的情况下，大幅提升了训练效率，进而降低训练的时间成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大语言模型领域，尤其涉及一种加速大语言模型训练的数据预处理方法及系统。

技术介绍

1、近年来，随着人工智能技术的飞速发展，大语言模型在自然语言处理领域展现出了卓越的表现力和广泛应用潜力。大语言模型通常具有数百亿甚至上千亿的参数，可以处理广泛的自然语言处理任务，如文本生成、文本分类、语义理解、机器翻译、对话系统等。然而，由于其巨大的参数规模与海量训练数据的需求，模型训练过程往往耗时且计算资源密集。

2、数据预处理是机器学习尤其是深度学习过程中的重要环节，对于大语言模型而言更是如此。先进的数据预处理技术不仅能有效减少无效计算，降低存储需求，还能通过提供高质量的训练样本显著提升模型收敛速度，从而实现对大语言模型训练效率的优化。

技术实现思路

1、本专利技术提供一种加速大语言模型训练的数据预处理方法及系统，以解决大语言模型训练时间长、大语言模型训练数据的随机无法得到保证的问题。

2、本专利技术的第一个方面，提供了一种加速大语言模型训练的数据预处理方法，具体包括如下步骤：

<本文档来自技高网...

【技术保护点】

1.一种加速大语言模型训练的数据预处理方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种加速大语言模型训练的数据预处理方法，其特征在于，所述相关参数，具体包括如下：

3.根据权利要求2所述的一种加速大语言模型训练的数据预处理方法，其特征在于，所述参数a、b、c、d、n、q、K均为正整数，当训练系数d越小时，数据集子块中的文本数据条数q越小，数据整体的随机程度越高，大语言模型的训练效果则越好，但大语言模型的训练耗时则会越长；当训练系数d越大时，数据集子块中的文本数据条数q越大，数据整体的随机程度越低，大语言模型的训练耗时则会越短，但大语言模型的训练效...

【技术特征摘要】

1.一种加速大语言模型训练的数据预处理方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种加速大语言模型训练的数据预处理方法，其特征在于，所述相关参数，具体包括如下：

3.根据权利要求2所述的一种加速大语言模型训练的数据预处理方法，其特征在于，所述参数a、b、c、d、n、q、k均为正整数，当训练系数d越小时，数据集子块中的文本数据条数q越小，数据整体的随机程度越高，大语言模型的训练效果则越好，但大语言模型的训练耗时则会越长；当训练系数d越大时，数据集子块中的文本数据条数q越大，数据整体的随机程度越低，大语言模型的训练耗时则会越短，但大语言模型的训练效果则越差。

4.根据权利要求3所述的一种加速大语言模型训练的数据预处理方法，其特征在于，所述训练系数d∈[500,2000]。

5.根据权利要求2所述的一种加速大语言模型训练的数据预处理方法，其特征在于，所述大语言模型训练设备中的每台大语言模型训练设备均设置一个1～a之间的正整数编号且编号互不重复；所述大语言模型...

【专利技术属性】
技术研发人员：李多海，
申请(专利权)人：上海岩芯数智人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人