【技术实现步骤摘要】
本申请实施例涉及人工智能,尤其涉及attention算子的反向传播优化方法和设备。
技术介绍
1、目前,大语言模型(large language models,简称llm)发展迅速,这一类模型也被越来越多地应用到机器翻译、智能查询、代码调试等各种需要语言处理的场景中。
2、大语言模型普遍以transformer模型作为核心基础架构,transformer模型是图像分类、自然语言处理等领域中最为常见的核心架构。随着技术和算法的革新,transformer模型在尺寸和深度等方面都取得了长足的发展。
3、transformer模型的核心计算部分是注意力机制attention。attention可以通过堆叠形成深度结构,可以作为ai应用场景中文本分类、文本聚类、关系抽取等模型的特征表示部分。
4、attention算子的核心在于查询向量q、键向量k以及值向量v这三个矩阵的交互和融合,其中,查询向量q和键向量k的交互给出了两两矩阵之间的相关度,然后对相关度进行归一化获得权重,权重与值向量v的乘积求和获得最后的输
...
【技术保护点】
1.一种Attention算子的反向传播优化方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述目标融合算子包括:反向重计算关联的前向类算子以及反向计算关联的反向类算子;
3.如权利要求2所述的方法,其特征在于,所述前向类算子包括:前向矩阵乘法算子和前向激活算子;所述反向类算子包括:反向矩阵乘法算子;
4.如权利要求3所述的方法,其特征在于,所述前向类算子还包括:前向随机丢弃算子;
5.如权利要求3所述的方法,其特征在于,所述通过所述张量计算单元执行所述前向矩阵乘法算子,获得前向矩阵乘法结果,包括:
...【技术特征摘要】
1.一种attention算子的反向传播优化方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述目标融合算子包括:反向重计算关联的前向类算子以及反向计算关联的反向类算子;
3.如权利要求2所述的方法,其特征在于,所述前向类算子包括:前向矩阵乘法算子和前向激活算子;所述反向类算子包括:反向矩阵乘法算子;
4.如权利要求3所述的方法,其特征在于,所述前向类算子还包括:前向随机丢弃算子;
5.如权利要求3所述的方法,其特征在于,所述通过所述张量计算单元执行所述前向矩阵乘法算子,获得前向矩阵乘法结果,包括:
6.如权利要求2所述的方法,其特征在于,所述反向类算子包括:反向矩阵乘法算子和反向激活算子;
7.如权利要求6所述的方法,其特征在于,所述反向类算子还包括:反向随机丢弃算子;
8.如权利要求6所述的方法,其特征在于,所述通过所述张量计算单元执行所述反向矩阵乘法算子,获得反向矩阵乘法结果,包括:
9.如权利要求8所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。