基于Transformer模块化分解模型方法技术

技术编号：42492512 阅读：40 留言：0更新日期：2024-08-21 13:09

本发明专利技术公开了基于Transformer模块化分解模型方法，涉及图像处理和计算机视觉技术领域，该基于Transformer模块化分解模型方法，包括以下步骤：步骤1：神经网络模型等效改造；步骤2：重新训练改造后的Transformer网络模型步骤3：梯度重置；步骤4：设置二进制掩码；步骤5：模块化Transformer；步骤6：等效转化获得目标模块，事先训练好的Transformer模型分解为一组更小且可重用的模块，通过这一独特的分解过程，生成的模块能够被灵活地重用，以构建全新的、甚至更加精准的Transformer模型，而无需从头开始进行昂贵的训练。这种模块化分解方法不仅提高了模型的灵活性和可重用性，同时降低了模型开发的成本和时间，为深度学习模型的定制和优化提供了一种高效而创新的途径。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理和计算机视觉，特别涉及基于transformer模块化分解模型方法。

技术介绍

1、近年来，深度神经网络越来越多地被应用到图像分类等计算机视觉任务之中。随着业务场景的复杂化和数据规模的海量化，构建和训练高性能神经网络模型成为一项非常具有挑战的任务，同时网络模型设计严重依赖专家知识,这是一项耗时且易出错的工作。因此，作为自动化机器学习(automl)的重要子领域之一,神经结构搜索(nas)受到越来越多的关注,其旨在以自动化的方式设计表现优异的深度神经网络模型。nas的研究重点之一就在于如何构造一个高效的搜索空间。最初的搜索空间的构造方法是将不同的操作单元组合在一起形成全局搜索空间，但巨大的搜索空间使得很多优化算法都无法快速解决此问题，带来了十分昂贵的计算代价。面对计算资源的为了尽量减少计算消耗，需要减小搜索空间。现在主流的研究方法主要集中在模块化网络结构领域，为了实现模块化网络结构，需要神经网络模块化分解模型这一关键技术。

技术实现思路

1、本专利技术的目的在于至少解决...

【技术保护点】

1.基于Transformer模块化分解模型方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于Transformer模块化分解模型方法，其特征在于：根据所述步骤1：给定一个训练好的Transformer网络模型V，定义注意力层权重矩阵为W。结构改造后的Transformer网络模型为在多头注意力层的每个注意力头hi后添加一个权重值初始化为1的模型层Li作为分解器，该模型层进行哈达玛积运算。

3.根据权利要求2所述的基于Transformer模块化分解模型方法，其特征在于：根据所述步骤3：模型重训练过程采用梯度惩罚动态作用于分解器上，目的是减去对目标类无...

【技术特征摘要】

1.基于transformer模块化分解模型方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于transformer模块化分解模型方法，其特征在于：根据所述步骤1：给定一个训练好的transformer网络模型v，定义注意力层权重矩阵为w。结构改造后的transformer网络模型为在多头注意力层的每个注意力头hi后添加一个权重值初始化为1的模型层li作为分解器，该模型层进行哈达玛积运算。

3.根据权利要求2所述的基于transformer模块化分解模型方法，其特征在于：根据所述步骤3：模型重训练过程采用梯度惩罚动态作用于分解器上，目的是减去对目标类无用的注意力头。重置从目标函数导出的梯度来实现高修剪性和轻微的惩罚。引入一个二进制掩码m∈{0,1}，0表示将f归零，1表示不将f归零。为了便于实现，不在目标函数中添加惩罚函数，只是像往常一样推导梯度，然后手动应用掩码，添加惩罚梯度并使用结果...

【专利技术属性】
技术研发人员：李宏鹏，纪树梅，郑士良，徐瑛琦，张麟，魏晓飞，张丛灿，魏强，
申请(专利权)人：河钢数字技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人