【技术实现步骤摘要】
本专利技术涉及大语言模型,尤其涉及一种专用网络应用审计的大语言模型增量学习系统和方法。
技术介绍
1、随着人工智能技术的广泛应用,基于大语言模型(large language model,llm)的自然语言理解和生成能力已在多个领域获得实际部署。部分数据敏感度强的封闭业务网络,已逐步引入大语言模型开展文本审计、涉稳识别、指令解析等任务。为了应对业务场景中任务类型多样、更新频繁、数据不可重取的实际需求,“增量学习”成为构建多任务、低成本、高可控智能模型的关键技术。
2、为应对多任务场景下模型的持续演进需求,当前大语言模型的增量学习方法主要可归纳为四类:全量微调(full fine-tuning)、知识蒸馏类方法(如lwf)、模块化结构方法(如adapter、prompt tuning)与replay增量学习方法,如er(experience replay)、icarl(incremental classifier and representation learning)、der++(dark experiencereplay)
...【技术保护点】
1.一种专用网络应用审计的大语言模型增量学习系统,用于对旧版本模型进行增量学习得到新版本模型,其特征在于,包括:
2.如权利要求1所述的一种专用网络应用审计的大语言模型增量学习系统,其特征在于,所述参数更新模块包括:
3.如权利要求1所述的一种专用网络应用审计的大语言模型增量学习系统,其特征在于,模型构建模块在所述待微调模型中对每一类任务嵌入独立的适配器模块;
4.如权利要求1所述的一种专用网络应用审计的大语言模型增量学习系统,其特征在于,所述旧版本模型包括Transformer层,所述待微调模型在所述Transformer层嵌入所
...【技术特征摘要】
1.一种专用网络应用审计的大语言模型增量学习系统,用于对旧版本模型进行增量学习得到新版本模型,其特征在于,包括:
2.如权利要求1所述的一种专用网络应用审计的大语言模型增量学习系统,其特征在于,所述参数更新模块包括:
3.如权利要求1所述的一种专用网络应用审计的大语言模型增量学习系统,其特征在于,模型构建模块在所述待微调模型中对每一类任务嵌入独立的适配器模块;
4.如权利要求1所述的一种专用网络应用审计的大语言模型增量学习系统,其特征在于,所述旧版本模型包括transformer层,所述待微调模型在所述transformer层嵌入所述适配器模块;
5.如权利要求2所述的一种专用网络应用审计的大语言模型增量学习系统,其特征在于,所述第二损失为kl散度。
6.如权利要求4所述的一种专用网络应用审计的大语言模型增量学习系统,其特征在于,所述待...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。