当前位置: 首页 > 专利查询>北京大学专利>正文

稀疏注意力计算模型及方法技术

技术编号:39573855 阅读:7 留言:0更新日期:2023-12-03 19:25
本发明专利技术公开了一种稀疏注意力计算模型及方法

【技术实现步骤摘要】
稀疏注意力计算模型及方法、电子设备和存储介质


[0001]本专利技术涉及注意力机制的稀疏化
,尤其涉及一种稀疏注意力计算模型及方法

电子设备和存储介质


技术介绍

[0002]注意力机制
(Attention)
最初在自然语言处理领域被提出,其通过计算注意力矩阵以得到模型对输入的注意力偏好信息

有效利用这一机制能够大大提升模型精度
。Transformer
作为一种使用注意力机制完全代替循环神经网络
(RNNs)
结构和
LSTM
结构的新型深度学习模型,由于其在各项自然语言处理任务中的优异表现日益受到关注

但注意力机制引入的矩阵计算带来了与输入序列长度成平方关系的时间和空间消耗,这限制了大量使用注意力机制的
Transformer
模型在长序列任务上的应用

且随着注意力深度学习模型越来越大,需要算力越来越多,尤其在边缘侧落地时,往往受限于算力和内存,导致模型无法运行


技术实现思路

[0003]专利技术人研究发现,目前,许多工作使用注意力稀疏化的方法,通过减少需要计算的注意力权重数量计算稀疏注意力来降低注意力机制的时间和空间消耗,通过考虑特定任务中注意力权重分布情况,人工设计稀疏模式

[0004]但现有技术中,往往使用固定稀疏模式的方法

即在同一个任务中对不同的输入序列实例使用相同的稀疏模式,其中的大部分对不同任务也使用完全相同或近似的稀疏模式

但在实际应用中,不同任务的输入序列实例在输入
Transformer
模型进行中间计算时,其注意力权重分布情况不尽相同;即使是同一任务,不同输入序列实例对应的注意力权重分布也存在不同的倾向

因此,现有方法对不同实例使用相同的稀疏模式计算注意力可导致模型对某些实例计算得到的稀疏注意力与其原始注意力相差较大,影响模型输出,降低模型精度

[0005]而本申请提出了一种基于实例级别的自适应稀疏模式的
Transformer
模型推理优化方法,对不同的输入序列实例使用模式选择器自适应地选择原子稀疏模式或它们的组合,用以指导深层注意力的稀疏化计算,减少浮点运算次数和运行时内存占用,保证模型精度几乎不受损,同时,在执行过程中,不需要对
Transformer
模型进行重新训练

[0006]为解决相关模型在边缘侧因大量占用算力和内存而导致部署困难的技术问题,本专利技术实施例提供一种稀疏注意力计算模型及方法

电子设备和存储介质

[0007]本专利技术实施例的技术方案是这样实现的:
[0008]本专利技术实施例提供了一种稀疏注意力计算模型,模型包括:
[0009]多个依次连接的
transformer
层;其中,前预设数量个
transformer
层为浅层
transformer
层,其余数量个
transformer
层为深层
transformer
层;用于将输入的数据依次在每层
transformer
层进行处理,输出注意力计算结果;
[0010]模式选择器,连接最后一个浅层
transformer
层和每个深层
transformer
层,用于接收最后一个浅层
transformer
层输出的隐向量;根据所述最后一个浅层
transformer
层输出的隐向量,输出预设多个稀疏模式分别对应的权重;将所述预设多个稀疏模式分别对应的权重分别输入所述每个深层
transformer
层,使得所述每个深层
transformer
层基于所述预设多个稀疏模式分别对应的权重进行稀疏注意力计算

[0011]上述方案中,所述预设稀疏模式的数量为5个,包括块状稀疏模式

条状稀疏模式

空洞稀疏模式

全局稀疏模式

随机稀疏模式

[0012]上述方案中,所述模式选择器包括:
[0013]降采样层,用于对所述浅层
transformer
层输出的隐向量进行降维,获得一维张量;
[0014]线性层和线性层间的
GELU
层,与所述降采样层连接,用于对所述一维张量进行处理,获得第二张量;
[0015]归一化层,与所述性层和线性层间的
GELU
层连接,用于对所述第二张量进行归一化处理,输出预设多个稀疏模式分别对应的权重

[0016]上述方案中,所述模型还包括:
[0017]多个预测器,每个预测器分别对应与一个深层
transformer
层连接,用于接收对应的深层
transformer
层输出的中间预测结果,获取所述中间预测结果与输入的数据标签之间的损失

[0018]本专利技术实施例还提供了一种稀疏注意力计算方法,应用于稀疏注意力计算模型,所述稀疏注意力计算模型包括多个依次连接的
transformer
层;其中,前预设数量个
transformer
层为浅层
transformer
层,其余数量个
transformer
层为深层
transformer
层;该方法包括:
[0019]接收输入的数据;
[0020]将所述数据依次经过稀疏注意力计算模型中的每个浅层
transformer
层进行处理,输出隐向量;
[0021]根据所述最后一个浅层
transformer
层输出的隐向量,输出预设多个稀疏模式分别对应的权重;
[0022]将所述预设多个稀疏模式分别对应的权重分别输入每个深层
transformer
层,使得所述每个深层
transformer
层基于所述预设多个稀疏模式分别对应的权重依次对上一
transformer
层的输出结果进行稀疏注意力计算

[0023]上述方案中,所述根据所述最后一个浅层
transformer
层输出的隐向量,输出预设多个稀疏模式分别对应的权重包括:
[0024]对所述浅层
transformer
层输出的隐向量进行降维,获得一维张量;
[0025]利用线性层和线性层间的
GELU
层对所述一维张量进行处理,获得第二张量;
[0026]对所述第二张量进行归一化处理,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种稀疏注意力计算模型,其特征在于,所述模型包括:多个依次连接的
transformer
层;其中,前预设数量个
transformer
层为浅层
transformer
层,其余数量个
transformer
层为深层
transformer
层;用于将输入的数据依次在每层
transformer
层进行处理,输出注意力计算结果;模式选择器,连接最后一个浅层
transformer
层和每个深层
transformer
层,用于接收最后一个浅层
transformer
层输出的隐向量;根据所述最后一个浅层
transformer
层输出的隐向量,输出预设多个稀疏模式分别对应的权重;将所述预设多个稀疏模式分别对应的权重分别输入所述每个深层
transformer
层,使得所述每个深层
transformer
层基于所述预设多个稀疏模式分别对应的权重进行稀疏注意力计算
。2.
根据权利要求1所述的模型,其特征在于,所述预设稀疏模式的数量为5个,包括块状稀疏模式

条状稀疏模式

空洞稀疏模式

全局稀疏模式

随机稀疏模式
。3.
根据权利要求1所述的模型,其特征在于,所述模式选择器包括:降采样层,用于对所述浅层
transformer
层输出的隐向量进行降维,获得一维张量;线性层和线性层间的
GELU
层,与所述降采样层连接,用于对所述一维张量进行处理,获得第二张量;归一化层,与所述性层和线性层间的
GELU
层连接,用于对所述第二张量进行归一化处理,输出预设多个稀疏模式分别对应的权重
。4.
根据权利要求1所述的模型,其特征在于,所述模型还包括:多个预测器,每个预测器分别对应与一个深层
transformer
层连接,用于接收对应的深层
transformer
层输出的中间预测结果,获取所述中间预测结果与输入的数据标签之间的损失
。5.
一种稀疏注意力计算方法,其特征在于,应用于稀疏注意力计算模型,所述稀疏注意力计算模型包括多个依次连接的
transformer
层;其中,前预设数量个
transformer
层为浅层
transformer
层,其余数量个
transformer
层为深层
transformer
层;所述方法包括:接收输入的数据;将所述数据依次经过稀疏注意力计算模型中的每个浅层
transformer
层进行处理,输出隐向量;根据所述最后一个浅层
transformer
层输出的隐向量,输出预设多个稀疏模式分别对应的权重;将所述预设多个稀疏模式分别对应的权重分别输入每个深层
transformer
层,使得所述每个深层
transformer
层基于所述预设多个稀疏模式分别对应的权重依次对上一
transformer
层的输出结果进行稀疏注意力计算
...

【专利技术属性】
技术研发人员:屠要峰杨智竺沈涵郭子瑜栗伟清
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1