神经网络训练方法、神经网络系统和计算机系统技术方案

技术编号:20364550 阅读:48 留言:0更新日期:2019-02-16 17:16
本公开提供了一种神经网络训练方法,包括通过第一神经网络生成第二神经网络的架构,其中,第二神经网络的架构至少包括神经网络的结构和参数;将任务集中包含样本数据的每一个任务输入第二神经网络,以训练第二神经网络;确定训练后得到的第二神经网络处理任务的准确率;以及通过第一神经网络基于训练后得到的第二神经网络处理任务的准确率,确定是否更新第二神经网络的架构。本公开还提供了一种神经网络系统,以及一种计算机系统。

【技术实现步骤摘要】
神经网络训练方法、神经网络系统和计算机系统
本公开涉及一种神经网络训练方法、一种神经网络系统和一种计算机系统。
技术介绍
随着人工智能的快速发展,利用机器学习技术,如深度学习技术在诸如图像分类与检测,语音识别,自然语言处理等任务上取得了较好的效果,目前广泛落地于安防,医疗,广告传媒等诸多领域。在相关技术中,神经网络训练方法一般利用固定的神经网络进行训练,但这种方法受限于神经网络本身预先设定好的固有架构,使得训练得到的模型实际处理效果差,尤其是小数据量训练神经网络得到的模型,容易导致模型过拟合的问题。
技术实现思路
本公开的一个方面提供了一种神经网络训练方法,包括通过第一神经网络生成第二神经网络的架构,其中,上述第二神经网络的架构至少包括神经网络的结构和参数;将任务集中包含样本数据的每一个任务输入上述第二神经网络,以训练上述第二神经网络;确定训练后得到的第二神经网络处理任务的准确率;以及通过上述第一神经网络基于上述训练后得到的第二神经网络处理任务的准确率,确定是否更新上述第二神经网络的架构。可选地,上述方法还包括在确定需要更新上述第二神经网络的架构的情况下,从经验池模块中重新确定上述第二神经网络的架构,其中,上述经验池模块中包括多个神经网络的架构,每个神经网络处理任务的准确率大于预设值;以及对重新确定的上述第二神经网络进行训练。可选地,上述方法还包括将处理任务的准确率大于上述预设值所对应的第二神经网络的架构存储至上述经验池模块中;对当前经验池模块中的神经网络的架构进行处理,以更新上述经验池模块;以及在上述从上述经验池模块中重新确定上述第二神经网络的架构的情况下,从更新后的经验池模块中重新确定上述第二神经网络的架构。可选地,对当前经验池模块中的神经网络的架构进行处理,以更新上述经验池模块包括:确定上述当前经验池模块中所包含的神经网络之间是否包含相同类型的隐藏层;在包含相同类型的隐藏层的情况下,计算上述相同类型的隐藏层所对应的参数值的平均值;以及将计算得到的平均值作为该类型的的隐藏层的参数值,并生成新的神经网络,以更新上述经验池模块。可选地,对当前经验池模块中的神经网络的架构进行处理,以更新上述经验池模块包括:在上述当前经验池模块中所包含的神经网络之间包含相同类型的隐藏层的情况下,将包含相同类型隐藏层的神经网络中,准确率相对低的神经网络的该类型隐藏层对应的参数替换为准确率相对高的神经网络的该类型隐藏层对应的参数。可选地,上述方法还包括在确定需要更新上述第二神经网络的架构的情况下,对更新后的第二神经网络进行训练,得到第三神经网络;判断上述第三神经网络处理任务的准确率是否收敛;在收敛的情况下,将上述第三神经网作为输出模型;以及在不收敛的情况下,重新更新上述第三神经网的架构。可选地,将任务集中的每一任务输入上述第二神经网络,以训练上述第二神经网络包括:通过与模型无关的元学习算法优化上述第二神经网络的参数,其中,上述元学习算法用于使上述第二神经网络具有能够提取任务的抽象特征的功能。本公开的另一个方面提供了一种神经网络系统,包括第一神经网络和第二神经网络,其中,上述第一神经网络用于生成上述第二神经网络的架构,其中,上述第二神经网络的架构至少包括神经网络的结构和参数;上述第二神经网络用于执行:根据接收到的任务集中包含样本数据的每一个任务进行训练;确定训练后得到的上述第二神经网络处理任务的准确率;以及上述第一神经网络还用于基于上述训练后得到的第二神经网络处理任务的准确率,确定是否更新上述第二神经网络的架构。可选地,上述第一神经网络包括经验池模块,其中,上述经验池模块中包括多个神经网络的架构,每个神经网络处理任务的准确率大于预设值;以及在确定需要更新上述第二神经网络的架构的情况下,上述第一神经网络用于从上述经验池中重新确定上述第二神经网络的架构。本公开的另一个方面提供了一种神经网络训练装置,包括生成模块,用于通过第一神经网络生成第二神经网络的架构,其中,第二神经网络的架构至少包括神经网络的结构和参数;输入模块,用于将任务集中的每一任务输入第二神经网络,以训练第二神经网络,其中,任务集中的每一任务包括预设类型的样本数据;第一确定模块,用于确定训练后得到的第二神经网络处理任务的准确率;以及第二确定模块,用于通过第一神经网络基于训练后得到的第二神经网络处理任务的准确率,确定是否更新第二神经网络的架构。本公开的另一个方面提供了一种计算机系统,包括处理器;计算机可读存储介质,用于存储计算机程序,其中,上述计算机程序在被上述处理器执行时能够实现如上所述的神经网络训练方法。本公开的另一方面提供了一种计算机可读介质,存储有计算机可执行指令,上述指令在被执行时用于实现如上所述的神经网络训练方法。本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的神经网络训练方法。附图说明为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:图1示意性示出了根据本公开实施例的神经网络训练方法和神经网络系统的应用场景;图2示意性示出了根据本公开实施例的神经网络训练方法的流程图;图3示意性示出了根据本公开另一实施例的神经网络训练方法的示意图;图4示意性示出了根据本公开另一实施例的神经网络训练方法的流程图;图5示意性示出了根据本公开另一实施例的神经网络训练方法的流程图;图6示意性示出了根据本公开另一实施例的神经网络训练方法的流程图;图7示意性示出了根据本公开实施例的对当前经验池模块中的神经网络的架构进行处理,以更新经验池模块的流程图;图8示意性示出了根据本公开另一实施例的神经网络训练方法的示意图;图9示意性示出了根据本公开实施例的神经网络训练装置的框图;以及图10示意性示出了根据本公开实施例的适于实现本公开的方法的计算机系统的框图。具体实施方式以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的本文档来自技高网...

【技术保护点】
1.一种神经网络训练方法,包括:通过第一神经网络生成第二神经网络的架构,其中,所述第二神经网络的架构至少包括神经网络的结构和参数;将任务集中包含样本数据的每一个任务输入所述第二神经网络,以训练所述第二神经网络;确定训练后得到的第二神经网络处理任务的准确率;以及通过所述第一神经网络基于所述训练后得到的第二神经网络处理任务的准确率,确定是否更新所述第二神经网络的架构。

【技术特征摘要】
1.一种神经网络训练方法,包括:通过第一神经网络生成第二神经网络的架构,其中,所述第二神经网络的架构至少包括神经网络的结构和参数;将任务集中包含样本数据的每一个任务输入所述第二神经网络,以训练所述第二神经网络;确定训练后得到的第二神经网络处理任务的准确率;以及通过所述第一神经网络基于所述训练后得到的第二神经网络处理任务的准确率,确定是否更新所述第二神经网络的架构。2.根据权利要求1所述的方法,其中,所述方法还包括:在确定需要更新所述第二神经网络的架构的情况下,从经验池模块中重新确定所述第二神经网络的架构,其中,所述经验池模块中包括多个神经网络的架构,每个神经网络处理任务的准确率大于预设值;以及对重新确定的所述第二神经网络进行训练。3.根据权利要求2所述的方法,其中,所述方法还包括:将处理任务的准确率大于所述预设值所对应的第二神经网络的架构存储至所述经验池模块中;对当前经验池模块中的神经网络的架构进行处理,以更新所述经验池模块;以及在所述从所述经验池模块中重新确定所述第二神经网络的架构的情况下,从更新后的经验池模块中重新确定所述第二神经网络的架构。4.根据权利要求3所述的方法,其中,对当前经验池模块中的神经网络的架构进行处理,以更新所述经验池模块包括:确定所述当前经验池模块中所包含的神经网络之间是否包含相同类型的隐藏层;在包含相同类型的隐藏层的情况下,计算所述相同类型的隐藏层所对应的参数值的平均值;以及将计算得到的平均值作为该类型的的隐藏层的参数值,并生成新的神经网络,以更新所述经验池模块。5.根据权利要求3所述的方法,其中,对当前经验池模块中的神经网络的架构进行处理,以更新所述经验池模块包括:在所述当前经验池模块中所包含的神经网络之间包含相同类型的隐藏层的情况下,将包含相...

【专利技术属性】
技术研发人员:王鹏王奇刚李梅师忠超郑欣悦
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1