【技术实现步骤摘要】
本专利技术涉及图像处理和计算机视觉,特别涉及基于transformer模块化分解模型方法。
技术介绍
1、近年来,深度神经网络越来越多地被应用到图像分类等计算机视觉任务之中。随着业务场景的复杂化和数据规模的海量化,构建和训练高性能神经网络模型成为一项非常具有挑战的任务,同时网络模型设计严重依赖专家知识,这是一项耗时且易出错的工作。因此,作为自动化机器学习(automl)的重要子领域之一,神经结构搜索(nas)受到越来越多的关注,其旨在以自动化的方式设计表现优异的深度神经网络模型。nas的研究重点之一就在于如何构造一个高效的搜索空间。最初的搜索空间的构造方法是将不同的操作单元组合在一起形成全局搜索空间,但巨大的搜索空间使得很多优化算法都无法快速解决此问题,带来了十分昂贵的计算代价。面对计算资源的为了尽量减少计算消耗,需要减小搜索空间。现在主流的研究方法主要集中在模块化网络结构领域,为了实现模块化网络结构,需要神经网络模块化分解模型这一关键技术。
技术实现思路
1、本专利技术的目的在于至少解决
...【技术保护点】
1.基于Transformer模块化分解模型方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于Transformer模块化分解模型方法,其特征在于:根据所述步骤1:给定一个训练好的Transformer网络模型V,定义注意力层权重矩阵为W。结构改造后的Transformer网络模型为在多头注意力层的每个注意力头hi后添加一个权重值初始化为1的模型层Li作为分解器,该模型层进行哈达玛积运算。
3.根据权利要求2所述的基于Transformer模块化分解模型方法,其特征在于:根据所述步骤3:模型重训练过程采用梯度惩罚动态作用于分解器上,
...【技术特征摘要】
1.基于transformer模块化分解模型方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于transformer模块化分解模型方法,其特征在于:根据所述步骤1:给定一个训练好的transformer网络模型v,定义注意力层权重矩阵为w。结构改造后的transformer网络模型为在多头注意力层的每个注意力头hi后添加一个权重值初始化为1的模型层li作为分解器,该模型层进行哈达玛积运算。
3.根据权利要求2所述的基于transformer模块化分解模型方法,其特征在于:根据所述步骤3:模型重训练过程采用梯度惩罚动态作用于分解器上,目的是减去对目标类无用的注意力头。重置从目标函数导出的梯度来实现高修剪性和轻微的惩罚。引入一个二进制掩码m∈{0,1},0表示将f归零,1表示不将f归零。为了便于实现,不在目标函数中添加惩罚函数,只是像往常一样推导梯度,然后手动应用掩码,添加惩罚梯度并使用结果...
【专利技术属性】
技术研发人员:李宏鹏,纪树梅,郑士良,徐瑛琦,张麟,魏晓飞,张丛灿,魏强,
申请(专利权)人:河钢数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。