一种模型的训练方法及装置、电子设备、存储介质制造方法及图纸

技术编号：44948480 阅读：25 留言：0更新日期：2025-04-12 01:22

本发明专利技术实施例提供了一种模型的训练方法及装置、电子设备、存储介质，包括：响应于模型训练的请求，获取待训练模型，确定待训练模型的权重张量的第一尺寸，并将第一尺寸缩小得到第二尺寸，构建权重张量的尺寸为第二尺寸的第一模型，获取待训练模型对应的样本数据，并根据样本数据对第一模型进行训练，得到第一目标权重张量，根据第一目标权重张量，生成待训练模型对应的第二目标权重张量，根据第二目标权重对待训练模型进行训练，得到目标模型，并反馈目标模型。通过本发明专利技术实施例，实现了以较小的算力资源占用，对待训练模型的训练过程进行加速，降低了大规模模型训练的成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，特别是涉及一种模型的训练方法及装置、电子设备、存储介质。

技术介绍

1、随着科学技术的飞速发展，大模型在各个领域的应用越来越广泛。

2、大模型是指具有大量参数和复杂结构的模型，用于处理大规模参(例如具有数百万到数十亿甚至更多的参数)的数据集。这些参数是通过训练过程从数据中学习得到的，用于捕捉数据中的复杂模式和关系。大模型的训练需要长时间消耗巨大的计算资源，这也带来了更高的试错成本。

3、在相关技术中，采用模型蒸馏技术将大模型转化为规模较小的模型，以节省模型训练的算力资源。然而，此种方案仍然会存在一定的算力无法复用的情况，对算力资源造成瓶颈。

技术实现思路

1、鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的模型的训练方法及装置、电子设备、存储介质，包括：

2、响应于模型训练的请求，获取待训练模型；

3、确定所述待训练模型的权重张量的第一尺寸，并将所述第一尺寸缩小得到第二尺寸；

4、构...

【技术保护点】

1.一种模型训练的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据所述第一目标权重张量，生成所述待训练模型对应的第二目标权重张量，包括：

3.根据权利要求2所述的方法，其特征在于，所述对每个所述第一一维向量的每个元素进行加权处理，得到多个加权一维向量，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述对比结果，确定每个元素对应的元素权重，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述元素的元素值和所述上界值确定所述元素权重值，包括：

6.根据权利要求1所述的方法，其特征在于...

【技术特征摘要】

1.一种模型训练的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据所述第一目标权重张量，生成所述待训练模型对应的第二目标权重张量，包括：

3.根据权利要求2所述的方法，其特征在于，所述对每个所述第一一维向量的每个元素进行加权处理，得到多个加权一维向量，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述对比结果，确定每个元素对应的元素权重，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述元素的元素值和所述上界值确定所述元素权重值，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述第一尺...

【专利技术属性】
技术研发人员：陆云帆，阮宜龙，张云龙，
申请(专利权)人：中电信人工智能科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人