模型训练方法、装置、介质、电子设备及程序产品制造方法及图纸

技术编号:46596079 阅读:1 留言:0更新日期:2025-10-10 21:28
本申请属于人工智能技术领域,具体涉及一种模型训练方法、模型训练装置、计算机可读介质、电子设备以及计算机程序产品。该方法包括:获取多个训练样本,所述训练样本包括由多个词元组成的词元序列;将多个所述训练样本组合得到具有指定样本长度的拼接样本,所述样本长度是所述拼接样本中包含的词元数量;根据并行化运行的多个训练进程,将所述拼接样本拆分为多个样本片段;根据所述样本片段与所述训练进程的对应关系,确定所述训练进程的指令序列,所述指令序列包括用于对所述样本片段执行的操作指令;将所述指令序列发送至用于运行所述训练进程的计算设备。本申请可以提高模型训练过程的资源利用效率。

【技术实现步骤摘要】

本申请属于人工智能,具体涉及一种模型训练方法、模型训练装置、计算机可读介质、电子设备以及计算机程序产品。


技术介绍

1、近年来,人工智能领域取得了显著进展,特别是以transformer架构为基础的大规模预训练模型在自然语言处理、计算机视觉等多个领域展现出强大的能力。这些模型的参数规模不断扩大,同时为了处理更复杂的任务和理解更丰富的上下文信息,模型能够处理的输入序列长度也显著增加。

2、由于模型规模和输入序列长度的急剧增长,模型训练过程对于内存资源、计算资源以及通信资源均提出了极为严苛的要求,使得各项资源开销面临巨大挑战。


技术实现思路

1、本申请提供一种模型训练方法、模型训练装置、计算机可读介质、电子设备以及计算机程序产品,目的在于提高模型训练过程的资源利用效率。

2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

3、根据本申请实施例的一个方面,提供一种模型训练方法,所述方法包括:获取多个训练样本,所述训练样本包括由多个词元组成的词本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的模型训练方法,其特征在于,所述将多个所述训练样本组合得到具有指定样本长度的拼接样本,包括:

3.根据权利要求2所述的模型训练方法,其特征在于,所述将所述多个目标训练样本组合得到具有所述指定样本长度的拼接样本,包括:

4.根据权利要求2所述的模型训练方法,其特征在于,所述将所述多个目标训练样本组合得到具有所述指定样本长度的拼接样本,包括:

5.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述样本片段与所述训练进程的对应关系,确定所述训练进程的指令序列,包括:<...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的模型训练方法,其特征在于,所述将多个所述训练样本组合得到具有指定样本长度的拼接样本,包括:

3.根据权利要求2所述的模型训练方法,其特征在于,所述将所述多个目标训练样本组合得到具有所述指定样本长度的拼接样本,包括:

4.根据权利要求2所述的模型训练方法,其特征在于,所述将所述多个目标训练样本组合得到具有所述指定样本长度的拼接样本,包括:

5.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述样本片段与所述训练进程的对应关系,确定所述训练进程的指令序列,包括:

6.根据权利要求5所述的模型训练方法,其特征在于,所述根据所述注意力矩阵,确定所述训练进程的指令序列,包括:

7.根据权利要求6所述的模型训练方法,其特征在于,所述根据所述局部注意力块与所述训练进程的归属关系,确定所述训练进程的指令序列,包括:

8.根据权利要求7所述的模型训练方法,其特征在于,所述根据所述局部注意力块和所述训练次序,确定...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:招商局先进技术开发深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1