基于自动化适配器的参数高效微调方法及装置制造方法及图纸

技术编号：41295092 阅读：3 留言：0更新日期：2024-05-13 14:44

本发明专利技术提供一种基于自动化适配器的参数高效微调方法及装置，涉及人工智能技术领域，方法包括：获取预训练模型；在预训练模型的候选位置并行插入在先创建的适配器，得到待训练模型；其中，候选位置包括预训练模型的前馈模块、多头注意力模块和整个网络层；利用预设消融机制和神经网络架构搜索，对待训练模型进行训练，以利用适配器对预训练模型进行参数高效微调。本发明专利技术通过在预训练模型的候选位置并行插入适配器，并利用预设消融机制和神经网络架构搜索，对插入适配器的预训练模型进行训练，以提高最终适配器对预训练模型的微调性能，在确保少量可调参数的情况下提供强大的性能，进一步减少了微调计算开销，提高了参数高效微调精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种基于自动化适配器的参数高效微调方法及装置。

技术介绍

1、近年来，预训练语言模型(pre-trained models,ptms)在自然语言处理领域的各种基准评估中展现出了卓越的性能。通常情况下，ptms需要使用大规模数据集进行完全的微调，这会带来大量计算开销。参数高效微调(parameter effcient fine-tuning,pet)通过大幅减少可训练参数的数量，在最终微调性能上可以达到与传统预训练模型微调相当的表现。

2、随着pet相关方法的出现，ptms能够通过参数高效微调适应联邦学习场景中的各种下游任务。已有工作表明pet方法的组合会影响最终的微调性能，但是，对于不同的业务，手工探索最优pet设计的过程会带来人力与物力的大额成本。

3、在本地微调性能方面，现有方法中，基于适配器的方法一直以来都表现出很强的效果。最近的研究工作一直致力于增强适配器的架构。已有研究认为不同层级的适配器需要不同的激活函数。还有研究证明了不同方法可以统一起来，并引入了并行适配器的概念。此外，更多的研究发现可以通过在适配器中加入编码操作来提高适配器的性能。但是，手动确定最优的适配器架构会带来大量计算开销。

技术实现思路

1、本专利技术提供一种基于自动化适配器的参数高效微调方法及装置，用以解决现有技术中手动调整适配器架构存在挑战性的缺陷，提高微调性能并进一步降低所需计算开销。

2、本专利技术提供一种基于自动化适配器的参数高效

3、根据本专利技术提供的一种基于自动化适配器的参数高效微调方法，所述适配器包括编码模块和激活函数模块；所述利用预设消融机制和神经网络架构搜索，对所述待训练模型进行训练，包括：针对各所述候选位置处的适配器，按预设消融机制，对所述适配器中的激活函数模块进行消融，得到第一适配器；利用神经网络架构搜索和所述预设消融机制，对所述第一适配器和所述预训练模型进行训练，确定编码模块操作；根据确定的所述编码模块操作和所述适配器，得到第二适配器；利用所述神经网络架构搜索和所述预设消融机制，对所述第二适配器和所述预训练模型进行训练，确定激活函数模块操作；根据确定的所述激活函数模块操作和所述第二适配器，得到第三适配器；利用所述神经网络架构搜索和所述预设消融机制，对各所述候选位置处的第三适配器和所述预训练模型进行训练，确定所述第三适配器的预测位置；对所述预测位置处的第三适配器和所述预训练模型进行训练，以利用所述预测位置处的第三适配器对所述预训练模型进行参数高效微调。

4、根据本专利技术提供的一种基于自动化适配器的参数高效微调方法，所述编码模块的候选操作的数量为至少两个；所述利用神经网络架构搜索和所述预设消融机制，对所述第一适配器和所述预训练模型进行训练，确定编码模块操作，包括：利用所述神经网络架构搜索，选择在先基于所述神经网络架构搜索和所述编码模块的候选操作确定的第一超网络的边缘；按所述预设消融机制，在所选第一超网络的边缘上选择一所述编码模块的候选操作，并屏蔽其余候选操作，以更新所述编码模块和配置了所述编码模块的第一适配器，并对更新后的第一适配器和所述预训练模型进行训练，根据对应训练结果，确定对应第一度量分数；重新按所述预设消融机制，在所选第一超网络的边缘上选择另一所述编码模块的候选操作，并屏蔽其余候选操作，以重新更新所述第一适配器，并对重新得到第一适配器和所述预训练模型进行训练，确定对应第一度量分数，直至所述编码模块的候选操作全部被选择完毕；根据选择的各所述编码模块的候选操作得到的第一度量分数，确定对应候选操作作为编码模块操作。

5、根据本专利技术提供的一种基于自动化适配器的参数高效微调方法，所述编码模块的候选操作的类型包括内核大小符合至少一个预设值的一维卷积、符合至少一个预设头数的多头自注意力机制、残差连接和归零操作中的至少一种。

6、根据本专利技术提供的一种基于自动化适配器的参数高效微调方法，所述激活函数模块的候选操作的数量为至少两个；利用所述神经网络架构搜索和所述预设消融机制，对所述第二适配器和所述预训练模型进行训练，确定激活函数模块操作；利用所述神经网络架构搜索，选择在先基于所述神经网络架构搜索和所述激活函数模块的候选操作确定的第二超网络的边缘；按所述预设消融机制，在所选第二超网络的边缘上选择一所述激活函数模块的候选操作，并屏蔽其余候选操作，以更新所述激活函数模块和配置了所述激活函数模块的第二适配器，并对更新后的第二适配器和所述预训练模型进行训练，根据对应训练结果，确定对应第二度量分数；重新按所述预设消融机制，在所选第二超网络的边缘上选择另一所述激活函数模块的候选操作，并屏蔽其余候选操作，以重新更新所述第二适配器，并对重新得到第二适配器和所述预训练模型进行训练，确定对应第二度量分数，直至所述激活函数模块的候选操作全部被选择完毕；根据选择的各所述激活函数模块的候选操作得到的第二度量分数，确定对应候选操作作为所述激活函数模块操作。

7、根据本专利技术提供的一种基于自动化适配器的参数高效微调方法，所述激活函数模块的候选操作的类型包括线性整流函数relu、高斯误差线性单元gelu和相等转换操作equal中的至少一种。

8、根据本专利技术提供的一种基于自动化适配器的参数高效微调方法，利用所述神经网络架构搜索和所述预设消融机制，对各所述候选位置处的所述第三适配器和所述预训练模型进行训练，确定所述第三适配器的预测位置，包括：利用所述神经网络架构搜索，选择在先基于所述神经网络架构搜索和候选位置确定的第三超网络的边缘；按所述预设消融机制，在所选第三超网络的边缘上选择一所述候选位置，并屏蔽其余所述候选位置，并对所选候选位置处的第三适配器和所述预训练模型进行训练，根据对应训练结果，确定对应第三度量分数；重新按所述预设消融机制，在所选第三超网络的边缘上选择另一所述候选位置，并其余所述候选位置，并重新所选候选位置处的第三适配器和所述预训练模型进行训练，确定对应第三度量分数，直至所有所述候选位置全部被选择完毕；根据选择的各所述候选位置得到的第三度量分数，确定对应候选位置作为所述第三适配器的预测位置。

9、本专利技术还提供一种基于自动化适配器的参数高效微调装置，包括：模型获取模块，获取预训练模型；模型构建模块，在所述预训练模型的候选位置并行插入在先创建的适配器，得到待训练模型；其中，所述候选位置包括所述预训练模型的前馈模块、多头注意力模块和整个网络层；参数高效微调模块，利用预设消融机制和神经网络架构搜索，对所述待训练模型进行训练，以利用所述适配器对所述预训练模型进行参数高效微调。

10、本专利技术还提供一种电子设备，包括存储器、处理器及存储在本文档来自技高网...

【技术保护点】

1.一种基于自动化适配器的参数高效微调方法，其特征在于，包括：

2.根据权利要求1所述的基于自动化适配器的参数高效微调方法，其特征在于，所述适配器包括编码模块和激活函数模块；所述利用预设消融机制和神经网络架构搜索，对所述待训练模型进行训练，包括：

3.根据权利要求2所述的基于自动化适配器的参数高效微调方法，其特征在于，所述编码模块的候选操作的数量为至少两个；所述利用神经网络架构搜索和所述预设消融机制，对所述第一适配器和所述预训练模型进行训练，确定编码模块操作，包括：

4.根据权利要求3所述的基于自动化适配器的参数高效微调方法，其特征在于，所述编码模块的候选操作的类型包括内核大小符合至少一个预设值的一维卷积、符合至少一个预设头数的多头自注意力机制、残差连接和归零操作中的至少一种。

5.根据权利要求2所述的基于自动化适配器的参数高效微调方法，其特征在于，所述激活函数模块的候选操作的数量为至少两个；利用所述神经网络架构搜索和所述预设消融机制，对所述第二适配器和所述预训练模型进行训练，确定激活函数模块操作；

6.根据权利要求5所

7.根据权利要求2所述的基于自动化适配器的参数高效微调方法，其特征在于，利用所述神经网络架构搜索和所述预设消融机制，对各所述候选位置处的所述第三适配器和所述预训练模型进行训练，确定所述第三适配器的预测位置，包括：

8.一种基于自动化适配器的参数高效微调装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于自动化适配器的参数高效微调方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于自动化适配器的参数高效微调方法的步骤。

...

【技术特征摘要】

1.一种基于自动化适配器的参数高效微调方法，其特征在于，包括：

5.根据权利要求2所述的基于自动化适配器的参数高效微调方法，其特征在于，所述激活函数模块的候选操作的数量为至少两个；利用所述神经网络架构搜索和所述预设消融机制，对所述第二适配器和所述预训练模型进行训...

【专利技术属性】
技术研发人员：徐思雅，李文璟，温鑫岩，周凡钦，丰雷，杨晓春，高飞，王亚斌，白龙，陈曦，尹超，孙世键，苏莹，郭悦靓，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人