【技术实现步骤摘要】
本申请涉及计算机,特别涉及一种自动化注意力稀疏化方法、装置、电子设备及存储介质。
技术介绍
1、随着深度学习技术的快速发展,变换器(transformer)模型在自然语言处理等领域取得了显著的成果。变换器模型由多头自注意力层和全连接层组成。
2、其中,自注意力层是一种可以处理不同长度输入的模型层,随着模型的输入序列长度n增加,transformer 模型中的多头自注意力层(以下简称注意力层)的计算复杂度按照 o(n2) 增长。当n非常大的时候,注意力层的计算复杂度会变得过高,使得模型的处理延时很大。
3、相关技术中一般是对所有注意力头手动设计统一形式的稀疏注意力掩膜(m)。掩膜是一个0/1 矩阵,其中0标记了可以跳过(置零)的注意力位置,1标记了需要计算的注意力位置。通过跳过这些位置的计算,可以减少需要计算的注意力,实现加速。
4、然而,相关技术中稀疏注意力掩膜依赖于手工设计,需要专家知识,且使用统一的形式,在保证精度的情况下稀疏度有限,也限制了整体的稀疏度和计算速度。
技
<本文档来自技高网...【技术保护点】
1.一种自动化注意力稀疏化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的自动化注意力稀疏化方法,其特征在于,所述利用数据样本集评估所述多个注意力头的注意力矩阵,得到每个注意力矩阵的效用矩阵,包括:
3.根据权利要求2所述的自动化注意力稀疏化方法,其特征在于,所述每个注意力矩阵的效用矩阵是通过对利用所述数据样本集中的多个数据样本评估对应注意力矩阵而得到的多个效用矩阵求平均而得到的平均效用矩阵。
4.根据权利要求2或3所述的自动化注意力稀疏化方法,其特征在于,所述效用矩阵为:
5.根据权利要求4所述的自动化注意力
...【技术特征摘要】
1.一种自动化注意力稀疏化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的自动化注意力稀疏化方法,其特征在于,所述利用数据样本集评估所述多个注意力头的注意力矩阵,得到每个注意力矩阵的效用矩阵,包括:
3.根据权利要求2所述的自动化注意力稀疏化方法,其特征在于,所述每个注意力矩阵的效用矩阵是通过对利用所述数据样本集中的多个数据样本评估对应注意力矩阵而得到的多个效用矩阵求平均而得到的平均效用矩阵。
4.根据权利要求2或3所述的自动化注意力稀疏化方法,其特征在于,所述效用矩阵为:
5.根据权利要求4所述的自动化注意力稀疏化方法,其特征在于,所述质量分数的计算公式为:
6.根据权利要求1...
【专利技术属性】
技术研发人员:汪玉,傅天予,宁雪妃,王鸿懿,黄子潇,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。