【技术实现步骤摘要】
本申请涉及计算机视觉和模式识别,尤其涉及一种基于分层自适应优化的大模型连续学习方法。
技术介绍
1、随着深度学习技术的迅猛发展,大规模分布式模型的应用范围逐渐扩大,其在处理复杂任务时展现出了强大的能力。然而,随着模型规模的增长和任务的多样化,如何在保持模型性能的同时控制模型参数量、提高训练效率、减少算力需求,成为当前面临的重要问题。
2、现有的大模型学习方法在处理新任务时,通常需要进行模型的重新训练或扩展,这导致了模型参数的快速增长和计算资源的巨大消耗。同时,对于不同类型的任务,模型往往缺乏足够的灵活性,无法根据任务的特点进行自适应的调整。此外,传统的模型训练方法通常需要利用全部数据进行训练,这在数据量巨大的情况下不仅增加了训练时间,而且容易造成算力资源的浪费。
技术实现思路
1、本申请提供一种基于分层自适应优化的大模型连续学习方法,在任务数量大且任务相关性差异明显的情况下,有效控制了模型的无限制扩张。
2、第一方面,一种基于分层自适应优化的大模型连续学习方法,所述
<本文档来自技高网...【技术保护点】
1.一种基于分层自适应优化的大模型连续学习方法,其特征在于,所述方法包括:
2.根据权利要求1所述的大模型连续学习方法,其特征在于,在根据更新后的梯度进行模型优化直到完成训练之后,方法还包括:
3.根据权利要求1所述的大模型连续学习方法,其特征在于,利用预训练好的任务编码器对训练集的各部分进行表征提取,包括:
4.根据权利要求1所述的大模型连续学习方法,其特征在于,对当前任务与已知任务的各部分表征对应进行相似度评估,包括:
5.根据权利要求4所述的大模型连续学习方法,其特征在于,根据评估得分与预定阈值的相对大小确定模型结
...【技术特征摘要】
1.一种基于分层自适应优化的大模型连续学习方法,其特征在于,所述方法包括:
2.根据权利要求1所述的大模型连续学习方法,其特征在于,在根据更新后的梯度进行模型优化直到完成训练之后,方法还包括:
3.根据权利要求1所述的大模型连续学习方法,其特征在于,利用预训练好的任务编码器对训练集的各部分进行表征提取,包括:
4.根据权利要求1所述的大模型连续学习方法,其特征在于,对当前任务与已知任务的各部分表征对应进行相似度评估,包括:
5.根据权利要求4所述的大模型连续学习方法,其特征在于,根据评估得分与预定阈值的相对大小确定模型结构扩张或模型结构复用,包括:
6.根据权利要求4所述的大模型连续学习...
【专利技术属性】
技术研发人员:王金桥,郭海云,贺靖涵,
申请(专利权)人:中科视语北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。