用于生成网络模型信息的方法、装置、设备和介质制造方法及图纸

技术编号:25398997 阅读:34 留言:0更新日期:2020-08-25 23:04
本公开的实施例公开了用于生成网络模型信息的方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:对预先训练的初始超网络进行以下剪枝步骤:根据该初始超网络对应的帕累托曲线,确定该初始超网络各层的算子概率分布;基于该算子概率分布,对该初始超网络的各层的算子进行剪枝,得到子超网络;对该子超网络进行训练;响应于剪枝次数小于该预先设定的数目,将训练结束后的该子超网络作为新的初始超网络,继续执行该剪枝步骤。该实施方式通过对超网络进行剪枝,减轻了超网络中的权重耦合,对后续确定特定时延的高准确度的网络模型提供了方便。

【技术实现步骤摘要】
用于生成网络模型信息的方法、装置、设备和介质
本公开的实施例涉及计算机
,具体涉及用于生成网络模型信息的方法、装置、设备和计算机可读介质。
技术介绍
目前,在神经网络搜索过程中,超网络的某些层对于某些算子很少选择,原因在于包括这些多余算子的网络违背了时延限制,或者在验证数据集的效果很差。因此,需求一种对超网络进行剪枝的方法来去除上述超网络中每层的多余算子。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了用于生成网络模型信息的方法、装置、设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题。第一方面,本公开的一些实施例提供了一种用于生成网络模型信息的方法,该方法包括:对预先训练的初始超网络进行以下剪枝步骤:根据上述初始超网络对应的帕累托曲线,确定上述初始超网络各层的算子概率分布;基于上述算子概率分布,对上述初始超网络的各层的算子进行剪枝,得到子超网络;对上述子超网络进行训练;响应于剪枝次数小于上述预先设定的数目,将训练结束后的上述子超网络作为新的初始超网络,继续执行上述剪枝步骤。第二方面,本公开的一些实施例提供了一种用于生成网络模型信息的装置,装置包括:剪枝单元,被配置成对预先训练的初始超网络进行以下剪枝步骤:根据上述初始超网络对应的帕累托曲线,确定上述初始超网络各层的算子概率分布;基于上述算子概率分布,对上述初始超网络的各层的算子进行剪枝,得到子超网络;对上述子超网络进行训练;执行单元,被配置成响应于剪枝次数小于上述预先设定的数目,将上述子超网络作为新的初始超网络,继续执行上述剪枝步骤。第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一、二方面中任一的方法。第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一、二方面中任一的方法。本公开的上述各个实施例中的一个实施例具有如下有益效果:在剪枝操作过程中,首先,通过与上述初始超网络对应的帕累托曲线,确定上述初始超网络各层的算子概率分布。这样可以依据算子概率分布得到超网络每层中哪些是多余算子,哪些是常用算子。进而对上述初始超网络的各层的算子进行剪枝,得到子超网络。在这里,得到的子超网络相对于上述初始超网络来说,每层多余算子已经被剪裁一部分。通过对子网络的训练,得到训练后的精简的网络。最后,可以通过预先设定的条件,有选择性的对初始超网络剪枝预定数目次,得到剪枝后的超网络。该实施方式通过对超网络中每层算子的剪枝,极大减轻了超网络中的权重耦合,对后续确定特定时延的高准确度的网络模型提供了方便。附图说明结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。图1-图2是根据本公开的一些实施例的用生成网络模型信息的方法的一个应用场景的示意图;图3是根据本公开的用于生成网络模型信息的方法的一些实施例的流程图;图4是根据本公开的一些实施例中的对预先训练的超网络进行多次采样,得到第一网络模型集合的示意图;图5是根据本公开的一些实施例中的生成第二网络模型集合的示意图;图6是根据本公开的一些实施例中的确定帕累托曲线的示意图;图7是根据本公开的用于生成网络模型信息的方法的另一些实施例的流程图;图8是根据本公开的用于生成网络模型信息的方法装置的一些实施例的结构示意图;图9是适于用来实现本公开的一些实施例的电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。下面将参考附图并结合实施例来详细说明本公开。图1-图2是根据本公开的一些实施例的用于生成网络模型信息的方法的一个应用场景的示意图。如图1和图2所示,作为示例,首先,电子设备101对预先训练的初始超网络102进行剪枝操作得到子超网络103,在这里,初始超网络102对第一层网络1021的算子1和算子3裁剪得到子超网络103。其中,上述子超网络103第一层网络1031的算子包括算子2,第二层网络1032的算子包括算子1,算子2和算子3,第三层网络1033的算子包括算子1、算子2和算子3。响应于剪枝次数未达到预先设定的次数,对子超网络103继续进行n次剪枝,得到剪枝后的网络104。其中,上述剪枝后的网络104第一层网络1041的算子包括算子2,第二层网络1042的算子包括算子2,第三层网络1043的算子包括算子1。作为示例,可以根据上述初始超网络102对应的帕累托曲线105,确定上述初始超网络102各层的算子概率分布106,其中,上述初始超网络102第一层网络1021的算子概率分布可以是“算子1:0.3,算子2:0.4,算子3:0.3”。上述初始超网络102第二层网络1022的算子概率分布可以是“算子1:0.1,算子2:0.6,算子3:0.3”。上述初始超网络102第三层网络1023的算子概率分布可以是“算子1:0.1,算子2:0.3,算子3:0.6”。然后基于上述算子概率分布106,对上述初始超网络的各层的算子进行剪枝,得到子超网络103。最后对上述子超网络103进行训练。需要说明的是,用于生成网络模型信息的方法可以是由电子设备101来执行。上述电子设备101可以是硬件,也可以是软件。当电子设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当电子设备101体现为软件时,可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或本文档来自技高网...

【技术保护点】
1.一种用于生成网络模型信息的方法,包括:/n对预先训练的初始超网络进行以下剪枝步骤:/n根据所述初始超网络对应的帕累托曲线,确定所述初始超网络各层的算子概率分布;/n基于所述算子概率分布,对所述初始超网络的各层的算子进行剪枝,得到子超网络;/n对所述子超网络进行训练;/n响应于剪枝次数小于所述预先设定的数目,将训练结束后的所述子超网络作为新的初始超网络,继续执行所述剪枝步骤。/n

【技术特征摘要】
1.一种用于生成网络模型信息的方法,包括:
对预先训练的初始超网络进行以下剪枝步骤:
根据所述初始超网络对应的帕累托曲线,确定所述初始超网络各层的算子概率分布;
基于所述算子概率分布,对所述初始超网络的各层的算子进行剪枝,得到子超网络;
对所述子超网络进行训练;
响应于剪枝次数小于所述预先设定的数目,将训练结束后的所述子超网络作为新的初始超网络,继续执行所述剪枝步骤。


2.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述剪枝后的超网络和演化算法,确定与目标时延相对应的网络模型;
对所确定的网络模型进行训练,得到训练结束后的网络模型。


3.根据权利要求2所述的方法,其中,所述方法还包括:
响应于所述训练结束后的网络模型包括目标检测网络,利用所述训练结束后的网络模型进行人脸识别。


4.根据权利要求1所述的方法,其中,所述对预先训练的初始超网络进行以下剪枝步骤还包括:
响应于剪枝次数等于预先设定的数目,将训练结束后的所述子超网络确定为剪枝后的超网络。


5.根据权利要求1所述的方法,其中,所述根据所述初始超网络对应的帕累托曲线,确定所述初始超网络各层的算子概率分布,包括:
对所述初始超网络进行多次采样,得到第一网络模型集合;
基于所述第一网络模型集合和演化算法,生成第二网络模型集合,其中,所述演化算法的演化过程中加入时延约束以使所述第二网络模型集合中的网络模型的时延满足预先设定的范围;
基于所述第二网络模型集合中各个网络模型的时延和准确度,确定帕累托曲线;
基于所述帕累托曲线,确定所述初始超网络各层的算子概率分布。


6.根据权利要求5所述的方法,其中,所述基于所述帕累托曲线,确定所述初始超网络各层的算子概率分布,包括:
抽取所述帕累托曲线上预定数目个点;
基于所述预定数目个点,确定相应的第三网络模型集合;
基于所述第三网络模型集合,确定所述初始超网络各层的算子概率分布。


7.根据权利要求5所...

【专利技术属性】
技术研发人员:夏鑫肖学锋王星
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1