模型训练方法、装置、设备及程序产品制造方法及图纸

技术编号:46544384 阅读:0 留言:0更新日期:2025-10-10 21:08
本公开提供了一种模型训练方法、装置、设备及程序产品,涉及人工智能技术领域。该方法包括:基于各训练样本之间的语义相似度,将多个训练样本划分至多个数据领域;其中,每个数据领域内训练样本的语义相似度,大于不同数据领域之间训练样本的语义相似度;在每个训练轮次中,根据当前模型参数和各数据领域的梯度信息计算领域梯度相关矩阵,并根据领域梯度相关矩阵更新各数据领域的采样比例;根据更新后的采样比例从各数据领域中采样获取训练样本,并使用获取到的训练样本对模型进行训练。根据本公开实施例,能够在几乎不增加额外计算量的同时,有效提升训练效率。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及一种模型训练方法、装置、设备及程序产品


技术介绍

1、在当前的人工智能领域,预训练大模型对海量且多样化的数据有着极高的依赖性,这不仅是为了提升模型的准确性,也是为了增强其泛化能力。然而,一个不可忽视的问题是,尽管数据量呈指数级增长,可用的计算资源(以每秒浮点运算次数flops衡量)的增长速度却远远落后。这种不平衡给模型训练带来了巨大的挑战:单纯依靠增加数据量来提升模型性能变得不再经济高效。因此,如何在不盲目扩大数据规模的前提下提高训练效率成为了一个亟待解决的核心问题。

2、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本公开提供一种模型训练方法、装置、设备及程序产品,能够在几乎不增加额外计算量的同时,有效提升训练效率,提升最终模型指标。

2、本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。>

3、根据本公本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于各训练样本之间的语义相似度,将多个训练样本划分至多个数据领域,包括:

3.根据权利要求2所述的方法,其特征在于,所述将各训练样本转换为高维向量表示,包括:

4.根据权利要求3所述的方法,其特征在于,所述训练样本的类型为文本类,则对应的嵌入模型为BERT类模型;所述训练样本的类型为图像类,则对应的嵌入模型为ViT类模型。

5.根据权利要求2所述的方法,其特征在于,所述通过优化类簇的紧凑性来确定类簇的目标数量,包括:

6.根据权利要求1所述的...

【技术特征摘要】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于各训练样本之间的语义相似度,将多个训练样本划分至多个数据领域,包括:

3.根据权利要求2所述的方法,其特征在于,所述将各训练样本转换为高维向量表示,包括:

4.根据权利要求3所述的方法,其特征在于,所述训练样本的类型为文本类,则对应的嵌入模型为bert类模型;所述训练样本的类型为图像类,则对应的嵌入模型为vit类模型。

5.根据权利要求2所述的方法,其特征在于,所述通过优化类簇的紧凑性来确定类簇的目标数量,包括:

6.根据权利...

【专利技术属性】
技术研发人员:刘晴张园邹航韩韬
申请(专利权)人:中国电信股份有限公司技术创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1