一种基于拓展搜索空间的结构搜索方法技术

技术编号:24252333 阅读:27 留言:0更新日期:2020-05-22 23:58
本发明专利技术涉及一种基于拓展搜索空间的网络结构搜索方法,步骤为:处理训练数据并进行建模并训练;对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;对搜索的子空间结构参数以及模型参数进行优化和调优;得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作;对搜索到的元结构使用元结构之间的连接方式循环展开得到整体的模型,再次进行参数调优,最终训练到收敛为止。本发明专利技术在原本仅面向元结构内部结构进行搜索的前提下,将元结构之间的连接也方式也纳入搜索空间中,提升了候选结构空间的大小,相较于普通的面向元结构内部的结构搜索而言取得更好的性能。

A structural search method based on expanding search space

【技术实现步骤摘要】
一种基于拓展搜索空间的结构搜索方法
本专利技术涉及一种神经结构搜索技术,具体为基于拓展搜索空间的结构搜索方法。
技术介绍
与许多基于深度学习的系统一样,基于神经网络技术的自然语言处理任务的核心问题之一是就设计神经网络的结构。特别是对于翻译这种复杂的自然语言处理任务,神经机器翻译的网络结构往往非常复杂,网络结构的设计需要大量的技巧和工程经验。虽然科研人员不断提出新的网络结构来改善模型性能,但如何更加科学地对网络结构进行探索却仍没有一个十分完备的解决方案。在传统方法中,需要通过不断尝试新的网络以找到性能更加优异的网络结构,这种方式存在两个问题:其一是试错的时间周期过长。由于不同的网络结构的需要经过长时间的模型训练、解码等步骤才能评价其性能,不同网络结构的尝试并没有收到好的效果;另一个问题在于设计出模型结构中往往存在大量的参数冗余。人工设计出的模型很难在保证有效性的同时保证其结构上的低冗余,因此即使是许多性能优秀的模型本身仍存在着大量不必要的神经元连接,增大了模型在使用过程中计算和存储方面的开销。针对上述问题,模型结构的学习就变得十分重要。对本文档来自技高网...

【技术保护点】
1.一种基于拓展搜索空间的结构搜索方法,其特征在于包括以下步骤:/n1)处理训练数据并对拓展的网络结构表示空间进行建模并训练,在训练过程中对元结构的内部结构以及元结构之间的结构进行交替训练;/n2)对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;/n3)同时对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;/n4)得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作;/n5)对搜索到的元结构使用元结构之间的连接方式循环展开,得...

【技术特征摘要】
1.一种基于拓展搜索空间的结构搜索方法,其特征在于包括以下步骤:
1)处理训练数据并对拓展的网络结构表示空间进行建模并训练,在训练过程中对元结构的内部结构以及元结构之间的结构进行交替训练;
2)对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;
3)同时对搜索的子空间结构参数以及模型参数进行优化,以数据在训练集上的损失值作为优化过程中的目标,通过梯度下降法对网络结构以及目标参数进行调优;
4)得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作;
5)对搜索到的元结构使用元结构之间的连接方式循环展开,得到整体的模型,使用训练数据对该模型再次进行参数调优,最终训练到收敛为止。


2.按权利要求1所述的基于拓展空间的网络结构搜索方法,其特征在于:步骤1)中,通过机器学习方法对元结构内部以及元结构之间神经元的连接方式进行搜索,将离散的网络结构通过赋予不同操作以权重来达到连续优化的目的,对于元结构内部和元结构之间的结构而言,其内部节点输出的计算公式如下:



其中Wj是线性变换的参数矩阵,是根据当前位置操作重要性为每条边上操作赋予的权重,下标k代表第k个操作,si和sj分别为第i和第i个中间节点的输出;
对于元结构内部和元结构间的结构学习,使用一种更为通用的建模方式,元结构内部或元结构之间的结构最终输出为:
F(α,β)=sα⊙sβ
其中α和β分别为两组输入向量,分别基于α和β对网络结构进行构建,和sβ分别为两组网络内部最终的输出节点,将其通过点乘的方式组织起来。


3.按权利要求2所述的基于拓展空间的网络结构搜索方法,其特征在于:对于元结构内部的结构搜索,其中α为集合融合后的结果e1,其中为前一时刻的隐层状态,为当前时刻的输入向量,此外β为1。e1的计算公式如下:



这里W(h)和W(x)分别为隐层状态和输入向量的线性变换参数。


4.按权利要求2所述的基于拓展空间的网络结构搜索方法,其特征在于:对于元结构之间的结构搜索,分为针对隐层状态的元结构间连接f(·)和针对输入的元结构间连接g(·),其中针对隐层状态的元结构间连接学习而言,其中α为之前时刻的隐层状态h[0,t-1],β为之前时刻的输入向量x[1,t-1];而对于针对输入向量的元结构间结构学习,α为x[1,t],β为h[0...

【专利技术属性】
技术研发人员:杜权朱靖波肖桐张春良
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1