【技术实现步骤摘要】
本专利技术涉及模型训练,具体涉及一种神经元分配策略实现大模型持续学习方法及系统。
技术介绍
1、大语言模型在持续学习过程中面临的主要挑战包括冷启动问题、概念漂移现象、灾难性遗忘等。现有技术方案主要从参数调优、架构优化等角度提出解决方案,但在认知资源分配和知识表征方面仍存在明显不足,传统的深度学习模型在学习新任务时往往会出现灾难性遗忘现象,即在掌握新知识的同时,严重损失已获得的能力。这一问题在大语言模型领域表现得尤为突出。例如,当模型通过增量训练来更新知识时,往往会引发原有能力的显著退化,这严重制约了模型的实际应用价值。
2、为解决这一问题,研究人员提出了多种持续学习方法。2017年,deepmind提出的弹性权重巩固方法通过计算参数重要性来保护关键知识。2020年,facebook ai research提出的渐进神经网络通过动态扩展网络结构来适应新任务。然而,这些方法都存在明显的局限性:要么需要消耗大量计算资源,要么难以在复杂场景中保持稳定的性能。
3、特别是在大语言模型的持续学习场景中,模型需要在保持通用能力
...【技术保护点】
1.一种神经元分配策略实现大模型持续学习方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种神经元分配策略实现大模型持续学习方法,其特征在于:所述多层次的知识存储结构包括用于存储大模型的通用提取能力的基础知识层,用于保存与具体任务相关专业知识的任务特定层,以及用于记录不同任务间的知识迁移关系的跨任务关系层。
3.根据权利要求1所述的一种神经元分配策略实现大模型持续学习方法,其特征在于:通过基于重要度的选择性保护机制保护知识单元时,采用以下步骤,获取知识单元的验证性能、使用频率和时效性,通过加权求和的方法输出知识单元的重要度,当知识单元
...【技术特征摘要】
1.一种神经元分配策略实现大模型持续学习方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种神经元分配策略实现大模型持续学习方法,其特征在于:所述多层次的知识存储结构包括用于存储大模型的通用提取能力的基础知识层,用于保存与具体任务相关专业知识的任务特定层,以及用于记录不同任务间的知识迁移关系的跨任务关系层。
3.根据权利要求1所述的一种神经元分配策略实现大模型持续学习方法,其特征在于:通过基于重要度的选择性保护机制保护知识单元时,采用以下步骤,获取知识单元的验证性能、使用频率和时效性,通过加权求和的方法输出知识单元的重要度,当知识单元的重要度大于预设的阈值时,通过调整学习率和更新阈值来保护该知识单元。
4.根据权利要求1所述的一种神经元分配策略实现大模型持续学习方法,其特征在于:对大模型性能和计算资源进行实时监控时,采用以下步骤,通过监测大模型持续学习时的资源状态数据流,获取每个任务对应的若干个资源状态参数,通过计算得到实时的资源状态信息,所述资源状态参数至少包括内存占用、处理器负载和能耗指标中的一种;
5.根据权利要求1所述的一种神经元分配策略实现大模型持续学习方法,其特征在于:根据实时的性能监测信息和资源状态信息,动态优化任务资源分配方案并执行时,采用以下步骤:
【专利技术属性】
技术研发人员:刘通,周宏豪,
申请(专利权)人:杭州斗兽场数字智能技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。