用于特定领域神经网络修剪的系统和方法技术方案

技术编号:38205455 阅读:30 留言:0更新日期:2023-07-21 16:52
描述了包括用于特定领域修剪神经网络的、在计算机存储介质上编码的计算机程序的方法、系统和装置。示例性方法包括获得基于第一训练数据集训练的第一神经网络;分别从一个或多个领域获得一个或多个第二训练数据集;基于该第一神经网络及该一个或多个第二训练数据集训练第二神经网络,该第二神经网络包括该第一神经网络及从该第一神经网络扩展的一个或多个分支。该一个或多个分支分别对应于该一个或多个领域,且每个分支包括基于一个或多个第二训练集的一个训练的一个或多个层。该方法可进一步包括:通过减少活动神经元的数量来修剪该第二神经网络;以及将经修剪的第二神经网络应用于一个或多个领域中进行推断。于一个或多个领域中进行推断。于一个或多个领域中进行推断。

【技术实现步骤摘要】
【国外来华专利技术】用于特定领域神经网络修剪的系统和方法


[0001]本专利技术大体上涉及用于神经网络修剪的系统和方法,并且尤其涉及用于特定领域神经网络修剪的系统和方法。

技术介绍

[0002]机器学习(ML)在数据密集型应用中已经非常流行,但当数据集很小时,机器学习常常受到阻碍。当积累足够训练数据来训练用于新应用领域的ML模型不切实际或难以达成时,现有的解决方案可基于从一个或多个先前应用领域收集的训练数据来训练一ML模型,且将此ML模型应用于新领域,希望其表现良好。然而,在各应用领域之间的小的差异,可导致所训练的ML模型的灾难性输出。例如,使用室内图像训练的ML模型不能很好地检测室外图像中的对象(例如,由于光照差异),并且使用来自一个位置/时间的数据训练的ML模型对其它位置/时间不能良好地执行。此外,当将类似于从先前领域的神经网络的ML模型应用于新领域时,新领域中的计算能力及存储资源可能非常有限,并且可能无法承载大规模且需要昂贵计算操作的全规模神经网络。为解决上述的这些问题,本申请描述了一种新方法,用有限的训练数据集训练特定领域的ML模型,并修剪这些模型以减少所本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:获得基于第一训练数据集训练的第一神经网络;分别从一个或多个领域获得一个或多个第二训练数据集;基于所述第一神经网络及所述一个或多个第二训练数据集训练第二神经网络,所述第二神经网络包括所述第一神经网络及从所述第一神经网络扩展的一个或多个分支,其中,所述一个或多个分支分别对应于所述一个或多个领域,且每个分支包括基于所述一个或多个第二训练集的一个训练的一个或多个层;通过减少活动神经元的数量来修剪所述第二神经网络;以及将经修剪的所述第二神经网络应用于所述一个或多个领域中进行推断。2.根据权利要求1所述的方法,其中,训练所述第二神经网络包括:基于所述第一神经网络及所述一个或多个第二训练数据集训练所述第二神经网络,直到目标函数收敛;以及修剪所述第二神经网络包括:修剪所述第二神经网络直到达到稀疏比。3.根据权利要求2所述的方法,其中,训练所述第二神经网络还包括:提高所述稀疏比;以及基于所述一个或多个第二训练数据集进一步训练经修剪的所述第二神经网络,直到所述目标函数收敛;以及进一步修剪经进一步训练的所述第二神经网络,以达到提高的所述稀疏比,直到满足退出条件。4.根据权利要求3所述的方法,其中,所述退出条件包括以下至少一项:多个迭代运算,以及所述稀疏比已达到目标稀疏比。5.根据权利要求1所述的方法,其中,所述一个或多个第二训练数据集中的每个包括从对应领域收集的多个受监督的数据记录。6.根据权利要求1所述的方法,其中,所述方法进一步包括:将所述第一神经网络应用于与所述一个或多个领域不同的领域中的对象检测。7.根据权利要求1所述的方法,其中,将所述第二神经网络应用于所述一个或多个领域的对象检测包括:接收包括领域标识符的对象检测请求;基于所述领域标识符确定所述第二神经网络中的一个;以及基于所述一个第二神经网络执行对象检测。8.根据权利要求1所述的方法,其中,所述一个或多个第二训练数据集包括由代表所述一个或多个领域的一个或多个摄像机收集的图像,且所述图像的每个包括摄像机标识符和至少一个标签。9.根据权利要求1所述的方法,其中,包括所述第一神经网络及一个或多个分支的所述第二神经网络的训练包括:对于所述一个或多个第二训练数据集的每个,通过创建具有基于所述第二训练数据集训练的一个或多个层的分支来扩展所述第一神经网络。10.根据权利要求1所述的方法,其中,所述方法进一步包括:
在训练所述第二神经网络之前修剪所述第一神经网络;其中,训练所述第二神经网络包括:基于经修剪的所述第一神经网络和所述一个或多个第二训练数据集训练所述第二神经网络。11.一种系统,包括一个或多个处理器及一个或多个非暂时性计算机可读存储器,所述一个或多个计算机可读存储器耦合至所述一个或多个处理器,且配置成具有指令,所述指令能够由所述一个或多个处理器执行以使所述系统执行操作,所述操作包括:获得基于第一训练数据集训练的第一神经网络:分别从一个或多个领域获得一个或多个第二训练数据集:基于所述第一神经网络及所述一个或多个第二训练数据集训练第二神经网络,所述第二神经网络包括所述第一神经网络及从所述第一神经网络扩展的一个或多个分支,其中,所述一个或多个分支分别对应于所述一个或多个领域,且每个分支包括基于所述一个或多个第...

【专利技术属性】
技术研发人员:刘嘉超严恩勖
申请(专利权)人:墨芯国际有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1