基于自动化适配器的参数高效微调方法及装置制造方法及图纸

技术编号:41295092 阅读:29 留言:0更新日期:2024-05-13 14:44
本发明专利技术提供一种基于自动化适配器的参数高效微调方法及装置,涉及人工智能技术领域,方法包括:获取预训练模型;在预训练模型的候选位置并行插入在先创建的适配器,得到待训练模型;其中,候选位置包括预训练模型的前馈模块、多头注意力模块和整个网络层;利用预设消融机制和神经网络架构搜索,对待训练模型进行训练,以利用适配器对预训练模型进行参数高效微调。本发明专利技术通过在预训练模型的候选位置并行插入适配器,并利用预设消融机制和神经网络架构搜索,对插入适配器的预训练模型进行训练,以提高最终适配器对预训练模型的微调性能,在确保少量可调参数的情况下提供强大的性能,进一步减少了微调计算开销,提高了参数高效微调精度。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种基于自动化适配器的参数高效微调方法及装置


技术介绍

1、近年来,预训练语言模型(pre-trained models,ptms)在自然语言处理领域的各种基准评估中展现出了卓越的性能。通常情况下,ptms需要使用大规模数据集进行完全的微调,这会带来大量计算开销。参数高效微调(parameter effcient fine-tuning,pet)通过大幅减少可训练参数的数量,在最终微调性能上可以达到与传统预训练模型微调相当的表现。

2、随着pet相关方法的出现,ptms能够通过参数高效微调适应联邦学习场景中的各种下游任务。已有工作表明pet方法的组合会影响最终的微调性能,但是,对于不同的业务,手工探索最优pet设计的过程会带来人力与物力的大额成本。

3、在本地微调性能方面,现有方法中,基于适配器的方法一直以来都表现出很强的效果。最近的研究工作一直致力于增强适配器的架构。已有研究认为不同层级的适配器需要不同的激活函数。还有研究证明了不同方法可以统一起来,并引入了并行适配器的概念。此外,更多的研究发现可本文档来自技高网...

【技术保护点】

1.一种基于自动化适配器的参数高效微调方法,其特征在于,包括:

2.根据权利要求1所述的基于自动化适配器的参数高效微调方法,其特征在于,所述适配器包括编码模块和激活函数模块;所述利用预设消融机制和神经网络架构搜索,对所述待训练模型进行训练,包括:

3.根据权利要求2所述的基于自动化适配器的参数高效微调方法,其特征在于,所述编码模块的候选操作的数量为至少两个;所述利用神经网络架构搜索和所述预设消融机制,对所述第一适配器和所述预训练模型进行训练,确定编码模块操作,包括:

4.根据权利要求3所述的基于自动化适配器的参数高效微调方法,其特征在于,所述编码模块的...

【技术特征摘要】

1.一种基于自动化适配器的参数高效微调方法,其特征在于,包括:

2.根据权利要求1所述的基于自动化适配器的参数高效微调方法,其特征在于,所述适配器包括编码模块和激活函数模块;所述利用预设消融机制和神经网络架构搜索,对所述待训练模型进行训练,包括:

3.根据权利要求2所述的基于自动化适配器的参数高效微调方法,其特征在于,所述编码模块的候选操作的数量为至少两个;所述利用神经网络架构搜索和所述预设消融机制,对所述第一适配器和所述预训练模型进行训练,确定编码模块操作,包括:

4.根据权利要求3所述的基于自动化适配器的参数高效微调方法,其特征在于,所述编码模块的候选操作的类型包括内核大小符合至少一个预设值的一维卷积、符合至少一个预设头数的多头自注意力机制、残差连接和归零操作中的至少一种。

5.根据权利要求2所述的基于自动化适配器的参数高效微调方法,其特征在于,所述激活函数模块的候选操作的数量为至少两个;利用所述神经网络架构搜索和所述预设消融机制,对所述第二适配器和所述预训练模型进行训...

【专利技术属性】
技术研发人员:徐思雅李文璟温鑫岩周凡钦丰雷杨晓春高飞王亚斌白龙陈曦尹超孙世键苏莹郭悦靓
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1