【技术实现步骤摘要】
稀疏注意力计算模型及方法、电子设备和存储介质
[0001]本专利技术涉及注意力机制的稀疏化
,尤其涉及一种稀疏注意力计算模型及方法
、
电子设备和存储介质
。
技术介绍
[0002]注意力机制
(Attention)
最初在自然语言处理领域被提出,其通过计算注意力矩阵以得到模型对输入的注意力偏好信息
。
有效利用这一机制能够大大提升模型精度
。Transformer
作为一种使用注意力机制完全代替循环神经网络
(RNNs)
结构和
LSTM
结构的新型深度学习模型,由于其在各项自然语言处理任务中的优异表现日益受到关注
。
但注意力机制引入的矩阵计算带来了与输入序列长度成平方关系的时间和空间消耗,这限制了大量使用注意力机制的
Transformer
模型在长序列任务上的应用
。
且随着注意力深度学习模型越来越大,需要算力越来越多,尤其在边缘侧落地时,往往受限于算力和内存,导致模型无法运行
。
技术实现思路
[0003]专利技术人研究发现,目前,许多工作使用注意力稀疏化的方法,通过减少需要计算的注意力权重数量计算稀疏注意力来降低注意力机制的时间和空间消耗,通过考虑特定任务中注意力权重分布情况,人工设计稀疏模式
。
[0004]但现有技术中,往往使用固定稀疏模式的方法
。
即在同一个任务中对不同的输入序列实例使用 ...
【技术保护点】
【技术特征摘要】
1.
一种稀疏注意力计算模型,其特征在于,所述模型包括:多个依次连接的
transformer
层;其中,前预设数量个
transformer
层为浅层
transformer
层,其余数量个
transformer
层为深层
transformer
层;用于将输入的数据依次在每层
transformer
层进行处理,输出注意力计算结果;模式选择器,连接最后一个浅层
transformer
层和每个深层
transformer
层,用于接收最后一个浅层
transformer
层输出的隐向量;根据所述最后一个浅层
transformer
层输出的隐向量,输出预设多个稀疏模式分别对应的权重;将所述预设多个稀疏模式分别对应的权重分别输入所述每个深层
transformer
层,使得所述每个深层
transformer
层基于所述预设多个稀疏模式分别对应的权重进行稀疏注意力计算
。2.
根据权利要求1所述的模型,其特征在于,所述预设稀疏模式的数量为5个,包括块状稀疏模式
、
条状稀疏模式
、
空洞稀疏模式
、
全局稀疏模式
、
随机稀疏模式
。3.
根据权利要求1所述的模型,其特征在于,所述模式选择器包括:降采样层,用于对所述浅层
transformer
层输出的隐向量进行降维,获得一维张量;线性层和线性层间的
GELU
层,与所述降采样层连接,用于对所述一维张量进行处理,获得第二张量;归一化层,与所述性层和线性层间的
GELU
层连接,用于对所述第二张量进行归一化处理,输出预设多个稀疏模式分别对应的权重
。4.
根据权利要求1所述的模型,其特征在于,所述模型还包括:多个预测器,每个预测器分别对应与一个深层
transformer
层连接,用于接收对应的深层
transformer
层输出的中间预测结果,获取所述中间预测结果与输入的数据标签之间的损失
。5.
一种稀疏注意力计算方法,其特征在于,应用于稀疏注意力计算模型,所述稀疏注意力计算模型包括多个依次连接的
transformer
层;其中,前预设数量个
transformer
层为浅层
transformer
层,其余数量个
transformer
层为深层
transformer
层;所述方法包括:接收输入的数据;将所述数据依次经过稀疏注意力计算模型中的每个浅层
transformer
层进行处理,输出隐向量;根据所述最后一个浅层
transformer
层输出的隐向量,输出预设多个稀疏模式分别对应的权重;将所述预设多个稀疏模式分别对应的权重分别输入每个深层
transformer
层,使得所述每个深层
transformer
层基于所述预设多个稀疏模式分别对应的权重依次对上一
transformer
层的输出结果进行稀疏注意力计算
...
【专利技术属性】
技术研发人员:屠要峰,杨智,竺沈涵,郭子瑜,栗伟清,
申请(专利权)人:北京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。