【技术实现步骤摘要】
神经架构搜索的系统和方法
本公开涉及神经架构搜索领域。特别地,本公开涉及用于设计神经网络的系统和方法。
技术介绍
通过提供增强的计算能力和访问越来越多的适合的训练数据,机器学习技术已获得越来越多的应用,可为许多技术问题提供改进的解决方案。特别地,作为一种为许多此类技术问题提供简洁有效的解决方案的方法,神经网络的使用已越来越普遍。神经网络通常具有包括多个互联神经元的结构。网络中的每个神经元被布置为接收输入数据,在提供某些输出数据之前,神经元对该接收数据进行缩放并对其执行函数。随后,该输出数据可以被馈入后续神经元,作为后续神经元的输入数据。然后,这些后续神经元同样可以在对数据执行进一步的函数之前对其进行缩放。可以对多个不同的神经元重复该过程,直到决定最后的输出。可以通过使用具有相应已知输出的输入数据对这些网络进行训练,其中,训练涉及对数据重复操作该网络以提供输出,并执行与该输出的比较。即,将一个输入数据的输出与该输入数据的已知输出进行比较。然后,可以基于上述比较的结果更新网络的权重(其影响输入数据的缩放),使得网络“学习”在被提供给定的输入数据时提供正确的输出。通过使用合适的训练数据重复许多次该过程,研究表明,神经网络具有很强的普适接近能力(例如,神经网络可以解决其被训练的问题)。神经网络存在大量不同的结构。例如,前馈神经网络(feedforwardneuralnetwork)包括多层神经元。在前馈网络中,某一层中的神经元的输出被馈入下一层中的每个神经元,使得每个神经元从其上一层的神经元接收输入。神经网络 ...
【技术保护点】
1.一种神经架构搜索的计算机实现的方法,所述神经架构搜索用以提供用于执行选定任务的神经网络,所述方法包括:/n(i)获得计算图,所述计算图包括:通过多条边连接的多个节点、以及用于缩放沿边提供到节点的输入数据的多个权重,其中,每个节点用于:/n从经由边连接至所述节点的前一节点接收至少一项输入数据;/n对所述输入数据执行运算以提供输出数据,其中,每项输入数据根据与所述节点和/或边关联的权重进行缩放;以及/n经由边向所述图中的后一节点提供所述输出数据;/n其中,所述计算图定义第一候选模型和第二候选模型,每个候选模型为所述计算图中的子图,所述子图具有从所述多个节点、所述多条边、以及关联的所述多个权重中选取的节点、边、以及权重,其中,一些选取的节点、边、以及权重在所述第一模型和所述第二模型间共享;/n(ii)基于训练所述第一模型执行所述选定任务,更新所述第一模型的所述权重;/n(iii)基于训练所述第二模型执行与所述第一模型相同的所述选定任务,更新所述第二模型的所述权重,其中,更新所述第二模型的所述权重包括更新在步骤(ii)中更新的在所述第一模型和所述第二模型间共享的一些权重,并且其中,更新共享 ...
【技术特征摘要】
20180927 EP 18197366.0;20190131 EP 19154841.11.一种神经架构搜索的计算机实现的方法,所述神经架构搜索用以提供用于执行选定任务的神经网络,所述方法包括:
(i)获得计算图,所述计算图包括:通过多条边连接的多个节点、以及用于缩放沿边提供到节点的输入数据的多个权重,其中,每个节点用于:
从经由边连接至所述节点的前一节点接收至少一项输入数据;
对所述输入数据执行运算以提供输出数据,其中,每项输入数据根据与所述节点和/或边关联的权重进行缩放;以及
经由边向所述图中的后一节点提供所述输出数据;
其中,所述计算图定义第一候选模型和第二候选模型,每个候选模型为所述计算图中的子图,所述子图具有从所述多个节点、所述多条边、以及关联的所述多个权重中选取的节点、边、以及权重,其中,一些选取的节点、边、以及权重在所述第一模型和所述第二模型间共享;
(ii)基于训练所述第一模型执行所述选定任务,更新所述第一模型的所述权重;
(iii)基于训练所述第二模型执行与所述第一模型相同的所述选定任务,更新所述第二模型的所述权重,其中,更新所述第二模型的所述权重包括更新在步骤(ii)中更新的在所述第一模型和所述第二模型间共享的一些权重,并且其中,更新共享的所述权重基于与所述权重关联的节点和/或边对训练后的所述第一候选模型的重要程度的指示进行控制;
(iv)识别所述神经网络的优选模型,所述优选模型包括从所述计算图选取的节点、边、以及关联的权重,其中,所述优选模型基于对所述第一训练候选模型和第二训练候选模型的分析确定;以及
(v)基于所述优选模型提供用于执行所述选定任务的神经网络。
2.根据权利要求1所述的方法,其中,用于执行所述选定任务的所述神经网络包括用于以下至少之一的神经网络:(i)自然语言处理、(ii)图像识别、(iii)物理系统的分类和/或建模、(iv)数据处理、以及(v)搜索结果生成。
3.根据任一前述权利要求所述的方法,其中,对于每个共享的权重,重要程度的所述指示使用基于关于所述权重的选择的损失函数的梯度或高阶导数的测量而确定,例如,重要程度的所述指示使用所述权重的费雪信息的指示而确定。
4.根据权利要求3所述的方法,其中,基于重要程度的指示控制共享的所述权重的更新包括基于所述测量的值缩放所述更新的幅度,例如,基于所述权重的所述费雪信息的值缩放所述更新的幅度。
5.根据权利要求4所述的方法,其中,训练所述第二候选模型包括使用训练损失函数进行训练,所述训练损失函数包括指示所述第二模型中的权重的所述测量的分量,例如,指示所述第二模型中的权重的所述费雪信息的分量。
6.根据权利要求5所述的方法,其中,所述训练损失函数包括用于抑制与所述第二模型中的任一所述权重相关联的梯度爆炸的缩放因子,例如,其中,所述缩放因子包括所述权重的范数。
7.根据任一前述权利要求所述的方法,其中...
【专利技术属性】
技术研发人员:亚辛·贝尼亚希亚,卡米尔本纳尼·斯密雷斯,迈克尔·贝瑞斯维尔,克劳迪乌·姆萨特,
申请(专利权)人:瑞士电信公司,
类型:发明
国别省市:瑞士;CH
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。