一种模型训练方法、装置、电子设备、芯片及介质制造方法及图纸

技术编号：43067519 阅读：25 留言：0更新日期：2024-10-22 14:44

本公开提供一种模型训练方法、装置、电子设备、芯片及介质。该方法包括：获取原始训练语料的输入序列；通过线性变换对输入序列进行处理，得到输入序列的第一查询向量、第一键向量和第一值向量；根据第一查询向量、第一键向量和第一值向量，通过索引确定第一权重、第二权重和第三权重；将第一权重、第二权重和第三权重进行组合，得到多个参数组，其中，多个参数组两两之间存在相同元素；根据多个参数组和输入序列，确定输入序列的注意力词向量，注意力词向量用于训练基于注意力机制的模型。通过本公开提供的技术方案，解决了待训练模型中注意力机制部分的权重参数量大，训练成本高的问题，降低了待训练权重参数的数量，降低了模型训练的成本。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能领域，尤其涉及一种模型训练方法、装置、电子设备、芯片及介质。

技术介绍

1、当基于深度学习的大语言模型已经对我们的生产生活产生了巨大影响。而国内外相关技术中，对于模型设计均采用了基于自注意力(self-attention)机制的块的设计，进行多角度学习。但是在模型训练中，由于自注意力机制中的注意力头被单独定义，多个注意力头需要训练多组完全不同的权重参数。导致模型的注意力机制部分需要训练的权重参数量巨大，训练这部分权重参数会带来较高的成本。

技术实现思路

1、本公开提供一种模型训练方法、装置、电子设备、芯片及介质，以解决训练注意力机制部分的权重参数带来的成本较高的问题，通过对自注意力机制中的注意力头中元素的复用，降低了待训练权重参数的数量，降低了模型训练的成本。

2、本公开的第一方面实施例提出了一种模型训练方法，该方法包括：

3、获取原始训练语料的输入序列；

4、通过线性变换对输入序列进行处理，得到输入序列的第一查询向量、第一键向量和第一值向量；

...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一权重、所述第二权重和所述第三权重进行组合，得到多个参数组，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个参数组和所述输入序列，确定所述输入序列的注意力词向量包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述注意力分数和所述第二值向量，确定所述注意力词向量，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述第二查询向量和所述第二值向量，确定注意力分数，包括：

6.根据权利要求4所述的...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一权重、所述第二权重和所述第三权重进行组合，得到多个参数组，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个参数组和所述输入序列，确定所述输入序列的注意力词向量包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述注意力分数和所述第二值向量，确定所述注意力词向量，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述第二查询向量和所述第二值向量，确定注意...

【专利技术属性】
技术研发人员：苟浩淞，
申请(专利权)人：中国移动通信集团四川有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人