当前位置: 首页 > 专利查询>罗伯特专利>正文

用于创建机器学习系统的方法和设备技术方案

技术编号:36653634 阅读:14 留言:0更新日期:2023-02-18 13:17
用于创建机器学习系统的方法和设备,所述方法包括以下步骤:提供具有输入节点和输出节点的有向图,其中向每条边分配概率,该概率表征以什么样的概率绘制边。在随机绘制架构之前,根据对有向图架构的探索程度来操纵所述概率。率。率。

【技术实现步骤摘要】
用于创建机器学习系统的方法和设备


[0001]本专利技术涉及一种使用描述机器学习系统的多个可能架构的图来创建机器学习系统的方法、计算机程序和机器可读存储介质。

技术介绍

[0002]架构搜索的目标,特别是神经网络的架构搜索的目标是完全自动地在预给定数据集的性能指标/度量的意义上找到尽可能好的网络架构。
[0003]为了使自动架构搜索在计算上高效,搜索空间中的不同架构可以共享其运算的权重,例如在one

shot NAS模型中,由Pham, H.、Guan, M.Y.、Zoph, B.、Le, Q.V.和Dean, J.(2018):Efficient neural architecture search via parameter sharing(通过参数共享进行高效的神经架构搜索),arXiv预印本arXiv:1802.03268展示的。
[0004]在此,一次性(one

shot)模型典型地构建为有向图,其中节点表示数据,边表示运算,这些运算表示将输入节点的数据转换为输出节点的数据的计算规则。搜索空间在此由一次性模型中的子图(例如路径)组成。由于一次性模型可能非常大,因此可以从一次性模型中提取各个架构以用于训练,例如由Cai, H.、Zhu, L.和Han, S.(2018)在ProxylessNAS:Direct neural architecture search on target task and hardware(针对目标任务和硬件的直接神经架构搜索),arXiv预印本arXiv:1812.00332中展示的。这典型地通过绘制从网络的设定输入节点到输出节点的单个路径来实现,例如由Guo, Z.、Zhang, X.、Mu, H.、Heng, W.、Liu, Z.、Wei, Y.和Sun, J.(2019):Single path one

shot neural architecture search with uniform sampling(具有均匀采样的单路径一次性神经架构搜索),arXiv预印本arXiv:1904.00420展示的。
[0005]作者Cai等人在他们的出版物ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware,可在线获取:https://arxiv.org/abs/1812.00332中公开了一种将硬件特性考虑在内的架构搜索。
[0006]为了从一次性模型中选择各个路径,特别是这些路径的对应架构,引入了概率分布,基于所述概率分布来绘制路径。这使得可以从一次性模型中提取各个架构。在架构搜索期间优化该分布的参数。通常,概率分布是在节点的输出边上引入的。这些概率分布典型地是由实参数向量(所谓的logit(多元逻辑))参数化的多项分布,所述实参数向量通常使用softmax函数标准化为概率向量,即向量和的条目累积为值1。然后,超模型的每个节点的所有概率分布的logit形成架构参数集,可以在架构搜索期间对该架构参数集进行优化。然而,logit的优化会导致架构空间中的过早收敛,这不会容许在搜索过程的后期阶段探索新型架构。

技术实现思路

[0007]因此,建议最初在架构搜索期间促进根据收敛进度对架构的探索。这样做的优点是由此可以找到更好的架构。
[0008]在第一方面,本专利技术涉及一种用于创建机器学习系统的计算机实现的方法,所述机器学习系统优选地用于图像处理。
[0009]该方法至少包括以下步骤:提供具有通过多个边和节点连接的一个或多个输入节点和输出节点的有向图。所述图,特别是一次性(one

shot)模型,描述了包括所述机器学习系统的多个可能架构的超模型。向多个边分别分配变量(α),该变量表征了可以以什么样的概率绘制相应边。替代地,可以将概率分配给节点。变量(α)可以是logit或已经是概率。可以借助于softmax函数将logit映射到0和1之间的值范围,然后将logit的这些映射解释为概率,或者这些映射描述了多项概率分布。
[0010]相应边的概率涉及决策点处的可能决策,特别是作为在该决策点处的可能决策可用的所有边。也就是说,相应决策点处的边概率之和累加起来应当为值1。
[0011]然后是通过有向图根据变量(α)随机绘制多个子图,特别是从通过将softmax函数的输出应用于logit而定义的概率分布中。然而,对于该绘制,根据图中变量(α)的值的分布来改变变量(α)。换句话说,可以说变量(α) 、特别是logit的分布描述了搜索空间中架构的分布。因此,变量(α)表征了搜索空间中架构的集中度量或频率分布。因为已经证明,架构的这种集中度量以有说服力的方式描述了有向图的探索程度。如上所述,变量(α)描述了搜索空间中架构的分布。在训练期间,对该分布有效地优化,使得在成本函数的意义上的良好架构获得更高的概率,该成本函数表征机器学习系统用于架构搜索的目标任务。根据该分布有多均匀或有多集中,在绘制时探索更多或更少的架构。因此,建议根据该度量来调节收敛性。通过操纵变量(α),可以使得架构搜索的收敛性在对应地改变变量(α)时缓慢进展,由此有效地实现了对搜索空间的改进探索。也就是说,根据探索来控制收敛性。因此,变量(α)的改变也可以称为松弛,其在绘制边时严格根据实际分配的概率软化决策并导致收敛性(特别是找到最佳架构)优选最初以较小的收敛速度进展。
[0012]需要注意的是,子图的绘制可以迭代地进行。因此,通过连续绘制边来逐步创建子图,其中在所述子图的每个被到达的节点处后续边是从与该节点连接的可能后续边中根据分配给它们的概率随机选择的。此外需要注意的是,路径可以理解为有向图的子图,该子图包括有向图的边和节点的子集,以及其中该子图将有向图的输入节点与输出节点连接。
[0013]接下来教导与绘制的子图相对应的机器学习系统。在教导过程中适配所述机器学习系统的参数和所述变量(α),使得成本函数得到优化。
[0014]接下来根据经过适配的概率最后一次绘制子图,并创建与该子图对应的机器学习系统。在最后步骤中最后一次绘制子图可以随机进行,或者有针对性地绘制具有最高概率的边。
[0015]建议当变量(α)的值的分布的度量相对于预给定目标分布的度量更大时,改变变量(α),使得以基本相等的概率来绘制边。这样做的优点是即使架构搜索开始收敛,仍然实现对图的探索。
[0016]此外,建议根据有向图中架构的概率分布的熵并且特别是根据已经执行的教导步骤的数量来改变变量(α)。
[0017]熵可以理解为图中架构无序程度的度量,或者熵可以理解为在通过图来定义的搜索空间中架构分布的度量。对于大图,可以通过随机样本来估计熵。可以通过有向图中路径/子图的分布的对数的期望值来确定所估计的熵。对于大图,可以借助于蒙特卡罗方法估
计熵,即添加随机样本。
[0018]此外建议,当图中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于创建机器学习系统的计算机实现的方法(20),所述方法包括以下步骤:提供(S21)具有通过多个边和节点连接的一个或多个输入节点和输出节点的有向图,其中向每个边分配变量(α),所述变量表征了以什么样的概率绘制相应边;通过所述有向图根据所述变量(α)随机绘制(S22)多个子图,其中根据所述图中所述变量(α)的值的分布来改变所述变量(α);教导(S23)与绘制的子图相对应的机器学习系统,其中在教导过程中适配所述机器学习系统的参数和所述变量(α),使得成本函数得到优化;以及根据经过适配的概率绘制(S24)子图,并且创建与该子图对应的机器学习系统。2.根据权利要求1所述的方法,其中当所述变量(α)的值的分布的度量相对于目标分布的预给定目标度量更大时,改变所述变量(α),使得以基本相等的概率来绘制边的分布。3.根据权利要求1或2中任一项所述的方法,其中根据所述有向图的熵并且特别是根据已经执行的教导步骤的数量来改变所述变量(α)。4.根据权利要求3所述的方法,其中当所述熵(S
new
)大于预给定的目标熵(S
target
)时按照以下方式改变用于改变所述变量(α)的参数(T,
ϵ
),即改变所述变量(α)的...

【专利技术属性】
技术研发人员:B
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1