用于特定领域神经网络修剪的系统和方法技术方案

技术编号:41967923 阅读:17 留言:0更新日期:2024-07-10 16:49
描述了包括用于特定领域修剪神经网络的、在计算机存储介质上编码的计算机程序的方法、系统和装置。示例性方法包括获得基于第一训练数据集训练的第一神经网络;分别从一个或多个领域获得一个或多个第二训练数据集;基于该第一神经网络及该一个或多个第二训练数据集训练第二神经网络,该第二神经网络包括该第一神经网络及从该第一神经网络扩展的一个或多个分支。该一个或多个分支分别对应于该一个或多个领域,且每个分支包括基于一个或多个第二训练集的一个训练的一个或多个层。该方法可进一步包括:通过减少活动神经元的数量来修剪该第二神经网络;以及将经修剪的第二神经网络应用于一个或多个领域中进行推断。

【技术实现步骤摘要】

本专利技术大体上涉及用于神经网络修剪的系统和方法,并且尤其涉及用于特定领域神经网络修剪的系统和方法


技术介绍

1、机器学习(ml)在数据密集型应用中已经非常流行,但当数据集很小时,机器学习常常受到阻碍。当积累足够训练数据来训练用于新应用领域的ml模型不切实际或难以达成时,现有的解决方案可基于从一个或多个先前应用领域收集的训练数据来训练一ml模型,且将此ml模型应用于新领域,希望其表现良好。然而,在各应用领域之间的小的差异,可导致所训练的ml模型的灾难性输出。例如,使用室内图像训练的ml模型不能很好地检测室外图像中的对象(例如,由于光照差异),并且使用来自一个位置/时间的数据训练的ml模型对其它位置/时间不能良好地执行。此外,当将类似于从先前领域的神经网络的ml模型应用于新领域时,新领域中的计算能力及存储资源可能非常有限,并且可能无法承载大规模且需要昂贵计算操作的全规模神经网络。为解决上述的这些问题,本申请描述了一种新方法,用有限的训练数据集训练特定领域的ml模型,并修剪这些模型以减少所需的计算量及规模。


术实现思路<本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,其中,所述一个或多个分支分别对应于所述一个或多个领域,且每个分支包括基于源自对应领域的第二训练数据集训练的一个或多个层。

3.根据权利要求1所述的方法,进一步包括在将所述第二神经网络部署到所述一个或多个领域用于推断之前,修剪所述第二神经网络。

4.根据权利要求1所述的方法,其中,当满足退出条件时,所述迭代过程终止,所述退出条件包括以下至少一项:目标迭代次数,以及提高的稀疏比已达到目标稀疏比。

5.根据权利要求1所述的方法,其中,所述一个或多个第二训练数据集中的每个包括从对应领域...

【技术特征摘要】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,其中,所述一个或多个分支分别对应于所述一个或多个领域,且每个分支包括基于源自对应领域的第二训练数据集训练的一个或多个层。

3.根据权利要求1所述的方法,进一步包括在将所述第二神经网络部署到所述一个或多个领域用于推断之前,修剪所述第二神经网络。

4.根据权利要求1所述的方法,其中,当满足退出条件时,所述迭代过程终止,所述退出条件包括以下至少一项:目标迭代次数,以及提高的稀疏比已达到目标稀疏比。

5.根据权利要求1所述的方法,其中,所述一个或多个第二训练数据集中的每个包括从对应领域收集的多个受监督的数据记录。

6.根据权利要求1所述的方法,进一步包括:

7.根据权利要求1所述的方法,其中,所述第一神经网络包括主干网络和第一输出分支,其中,所述第二神经网络的所述一个或多个分支从所述第一输出分支分隔开,并且

8.根据权利要求1所述的方法,其中,所述训练所述一个或多个分支包括:

9.根据权利要求1所述的方法,进一步包括:

10.一种系统,包括一个或多个处理器及一个或多个非暂时性计算机可读存储器,所述一个或多个计算机可读存储器耦合至所述一个或多个处理器,且配置成具有指令,所述指令能够由所述一个或多个处理器执行以使所述系统执行操作,所述操作包括:

11.根据权利要求10所述的系统,其中,所述一个或多个分支分别对应于所述一个或多个领域,且每个分支包括基于源自对应领域的第二训练数据集训练的一个或多个层。

12.根据权利...

【专利技术属性】
技术研发人员:刘嘉超严恩勖
申请(专利权)人:墨芯国际有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1