【技术实现步骤摘要】
本公开涉及机器学习领域,特别涉及一种模型训练方法和装置、数据处理方法和设备。
技术介绍
1、当下大模型的应用越来越广泛,应用场景的日益多样化,调用模型推理服务的次数急剧增加,并且为了不影响用户体验,模型推理的延迟要求较低。大模型基于transformer结构进行堆叠,然而transformer结构中进行多头注意力矩阵计算消耗计算资源较多,增加模型推理延迟,影响服务的使用。
2、对于大模型的推理压缩大致分为5个方向参数共享、低秩分解、蒸馏、剪枝和量化,在相关技术剪枝技术中,根据对于transformer结构的剪枝粒度,可以分为基于encoder(编码器)块的剪枝,基于attention header(注意力头,transformer中多头注意力机制)的剪枝,基于token(输入序列中的每一个词元为一个token)的剪枝。
技术实现思路
1、专利技术人通过研究发现:相关技术基于token剪枝方案power-transformer,训练&微调阶段通过学习计算每层encoder
...【技术保护点】
1.一种模型训练方法,包括:
2.根据权利要求1所述的模型训练方法,其中,所述根据词元剪枝数据调整第一编码器模块的层数和第二编码器模块的层数包括:
3.根据权利要求2所述的模型训练方法,其中,所述词元剪枝数据包括相邻词元数量和相邻词元依赖关系,
4.根据权利要求3所述的模型训练方法,其中,所述根据所述词元剪枝数据,确定第一编码器模块的层数包括:
5.根据权利要求4所述的模型训练方法,其中,所述根据每层第一编码器模块的词元剪枝数据,确定网络模型的总损失函数包括:
6.根据权利要求4或5所述的模型训练方法,其中,
...【技术特征摘要】
1.一种模型训练方法,包括:
2.根据权利要求1所述的模型训练方法,其中,所述根据词元剪枝数据调整第一编码器模块的层数和第二编码器模块的层数包括:
3.根据权利要求2所述的模型训练方法,其中,所述词元剪枝数据包括相邻词元数量和相邻词元依赖关系,
4.根据权利要求3所述的模型训练方法,其中,所述根据所述词元剪枝数据,确定第一编码器模块的层数包括:
5.根据权利要求4所述的模型训练方法,其中,所述根据每层第一编码器模块的词元剪枝数据,确定网络模型的总损失函数包括:
6.根据权利要求4或5所述的模型训练方法,其中,所述根据网络模型的总损失函数,确定第一编码器模块的层数包括:
7.根据权利要求6所述的模型训练方法,其中,所述根据网络模型的总损失函数,对最后一层第一编码器模块的相邻词元数量、和第一编码器模块的层数中的至少一项进行调整包括:
8.根据权利要求7所述的模型训练方法,其中,所述根据网络模型的总损失函数,对最后一层第一编码器模块的...
【专利技术属性】
技术研发人员:刘帅朝,黄志翔,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。