当前位置: 首页 > 专利查询>清华大学专利>正文

自动化注意力稀疏化方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41334176 阅读:19 留言:0更新日期:2024-05-20 09:54
本发明专利技术涉及一种自动化注意力稀疏化方法、装置、电子设备及存储介质,其中,方法包括:获取经训练的机器学习模型的多个注意力头的注意力矩阵,机器学习模型用于执行计算机视觉任务或自然语言处理任务;利用数据样本集评估多个注意力头的注意力矩阵,得到每个注意力矩阵的效用矩阵;根据每个注意力头的注意力矩阵的多个稠密度和效用矩阵生成对应注意力头的与多个稠密度中的每个稠密度对应的候选稀疏注意力掩膜;评估每个注意力头的与多个稠密度中的每个稠密度对应的候选稀疏注意力掩膜的质量分数;根据质量分数确定每个注意力头的稀疏注意力掩膜的最优稠密度,将最优稠密度的候选稀疏注意力掩膜确定为对应注意力头的稀疏注意力掩膜。

【技术实现步骤摘要】

本申请涉及计算机,特别涉及一种自动化注意力稀疏化方法、装置、电子设备及存储介质


技术介绍

1、随着深度学习技术的快速发展,变换器(transformer)模型在自然语言处理等领域取得了显著的成果。变换器模型由多头自注意力层和全连接层组成。

2、其中,自注意力层是一种可以处理不同长度输入的模型层,随着模型的输入序列长度n增加,transformer 模型中的多头自注意力层(以下简称注意力层)的计算复杂度按照 o(n2) 增长。当n非常大的时候,注意力层的计算复杂度会变得过高,使得模型的处理延时很大。

3、相关技术中一般是对所有注意力头手动设计统一形式的稀疏注意力掩膜(m)。掩膜是一个0/1 矩阵,其中0标记了可以跳过(置零)的注意力位置,1标记了需要计算的注意力位置。通过跳过这些位置的计算,可以减少需要计算的注意力,实现加速。

4、然而,相关技术中稀疏注意力掩膜依赖于手工设计,需要专家知识,且使用统一的形式,在保证精度的情况下稀疏度有限,也限制了整体的稀疏度和计算速度。


术实现思路<本文档来自技高网...

【技术保护点】

1.一种自动化注意力稀疏化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的自动化注意力稀疏化方法,其特征在于,所述利用数据样本集评估所述多个注意力头的注意力矩阵,得到每个注意力矩阵的效用矩阵,包括:

3.根据权利要求2所述的自动化注意力稀疏化方法,其特征在于,所述每个注意力矩阵的效用矩阵是通过对利用所述数据样本集中的多个数据样本评估对应注意力矩阵而得到的多个效用矩阵求平均而得到的平均效用矩阵。

4.根据权利要求2或3所述的自动化注意力稀疏化方法,其特征在于,所述效用矩阵为:

5.根据权利要求4所述的自动化注意力稀疏化方法,其特征在...

【技术特征摘要】

1.一种自动化注意力稀疏化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的自动化注意力稀疏化方法,其特征在于,所述利用数据样本集评估所述多个注意力头的注意力矩阵,得到每个注意力矩阵的效用矩阵,包括:

3.根据权利要求2所述的自动化注意力稀疏化方法,其特征在于,所述每个注意力矩阵的效用矩阵是通过对利用所述数据样本集中的多个数据样本评估对应注意力矩阵而得到的多个效用矩阵求平均而得到的平均效用矩阵。

4.根据权利要求2或3所述的自动化注意力稀疏化方法,其特征在于,所述效用矩阵为:

5.根据权利要求4所述的自动化注意力稀疏化方法,其特征在于,所述质量分数的计算公式为:

6.根据权利要求1...

【专利技术属性】
技术研发人员:汪玉傅天予宁雪妃王鸿懿黄子潇
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1