基于分层自适应优化的大模型连续学习方法技术

技术编号：41512400 阅读：43 留言：0更新日期：2024-05-30 14:50

本申请公开了一种基于分层自适应优化的大模型连续学习方法，方法对于当前任务，该方法根据任务中涉及的所有训练数据的样本各部分平均表征得到当前任务表征，该表征与存储的所有已知任务表征计算相似度分数。若该分数大于设定的阈值，则进行模型结构扩张，并随机初始化任务选择器中的当前任务表征；否则，复用相似度最高的已知任务的模型结构与任务表征。训练时，利用当前任务数据训练当前任务特定结构与当前任务表征。最后，经过各任务分层次训练得到一个由主干网络、任务特定结构以及任务选择器构成的层次化模型，该模型可以自适应地根据输入查询任务特定结构完成模型推理。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉和模式识别，尤其涉及一种基于分层自适应优化的大模型连续学习方法。

技术介绍

1、随着深度学习技术的迅猛发展，大规模分布式模型的应用范围逐渐扩大，其在处理复杂任务时展现出了强大的能力。然而，随着模型规模的增长和任务的多样化，如何在保持模型性能的同时控制模型参数量、提高训练效率、减少算力需求，成为当前面临的重要问题。

2、现有的大模型学习方法在处理新任务时，通常需要进行模型的重新训练或扩展，这导致了模型参数的快速增长和计算资源的巨大消耗。同时，对于不同类型的任务，模型往往缺乏足够的灵活性，无法根据任务的特点进行自适应的调整。此外，传统的模型训练方法通常需要利用全部数据进行训练，这在数据量巨大的情况下不仅增加了训练时间，而且容易造成算力资源的浪费。

技术实现思路

1、本申请提供一种基于分层自适应优化的大模型连续学习方法，在任务数量大且任务相关性差异明显的情况下，有效控制了模型的无限制扩张。

2、第一方面，一种基于分层自适应优化的大模型连续学习方法，所述方法包括：

<本文档来自技高网...

【技术保护点】

1.一种基于分层自适应优化的大模型连续学习方法，其特征在于，所述方法包括：

2.根据权利要求1所述的大模型连续学习方法，其特征在于，在根据更新后的梯度进行模型优化直到完成训练之后，方法还包括：

3.根据权利要求1所述的大模型连续学习方法，其特征在于，利用预训练好的任务编码器对训练集的各部分进行表征提取，包括：

4.根据权利要求1所述的大模型连续学习方法，其特征在于，对当前任务与已知任务的各部分表征对应进行相似度评估，包括：

5.根据权利要求4所述的大模型连续学习方法，其特征在于，根据评估得分与预定阈值的相对大小确定模型结构扩张或模型结构复用...

【技术特征摘要】

1.一种基于分层自适应优化的大模型连续学习方法，其特征在于，所述方法包括：

2.根据权利要求1所述的大模型连续学习方法，其特征在于，在根据更新后的梯度进行模型优化直到完成训练之后，方法还包括：

3.根据权利要求1所述的大模型连续学习方法，其特征在于，利用预训练好的任务编码器对训练集的各部分进行表征提取，包括：

4.根据权利要求1所述的大模型连续学习方法，其特征在于，对当前任务与已知任务的各部分表征对应进行相似度评估，包括：

5.根据权利要求4所述的大模型连续学习方法，其特征在于，根据评估得分与预定阈值的相对大小确定模型结构扩张或模型结构复用，包括：

6.根据权利要求4所述的大模型连续学习...

【专利技术属性】
技术研发人员：王金桥，郭海云，贺靖涵，
申请(专利权)人：中科视语北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人