神经网络系统及其训练方法以及计算机可读介质技术方案

技术编号:20364567 阅读:53 留言:0更新日期:2019-02-16 17:17
本申请实施例提供了一种神经网络系统及其训练方法以及计算机可读介质,其中,神经网络系统,包括:聚类模块,用于将多个仿真结果进行聚类以确定多个仿真聚类结果,根据多个所述仿真聚类结果确定对应的多个动作集,其中,每个动作集中均至少包括一个动作样本,所述仿真结果为执行所述动作样本后的目标实体的仿真结果;增强学习模块,用于根据所述目标实体的状态集,从所述多个动作集中选取所述目标实体待执行的动作集并输出。本实施例提供的方案,采用动作集训练神经网络系统的增强学习模块,与动作样本相比,动作集的数量级大大降低,从而可以缩短神经网络系统的训练时间、增加训练过程中寻找最优解的速度并提高训练结果的准确性。

【技术实现步骤摘要】
神经网络系统及其训练方法以及计算机可读介质
本申请实施例涉及人工智能
,尤其涉及一种神经网络系统及其训练方法以及计算机可读介质。
技术介绍
随着人工智能技术的发展,通过如何更好地通过人工智能来辅助人完成工作,或者使得智能实体例如机器人等更加灵活地与环境进行交互等,是目前人工智能的重要发展方向。目前,为了使人工智能体可以输出准确的决策,需要依据所有可能的输出均对神经网络进行训练,这需要依赖于庞大的数据支撑,依靠海量的数据进行决策,导致算法将很难快速收敛。例如,针对一车辆来训练人工智能体时,可以将车辆网格化,将车辆的变化与网格节点、边长、面积等的变化对应,然后通过网格来训练人工智能体。但是这一个模型中会涉及到大量的网格变化,可能出现几万个网格变化,若网格划分较为细致,甚至可能出现几百万个网格的变化。采用现有的训练方法时,需要将所有的网格变化均进行训练,导致训练速度极为缓慢、训练过程中寻找最优解极难,且大量的样本导致训练结果的准确性降低,不利于人工智能的发展。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种神经网络系统及其训练方法以及计算机可读介质,以解决现有技术中的上述问题。本申请实施例提供了一种神经网络系统,其包括:聚类模块,用于将多个仿真结果进行聚类以确定多个仿真聚类结果,根据多个所述仿真聚类结果确定对应的多个动作集,其中,每个动作集中均至少包括一个动作样本,所述仿真结果为执行所述动作样本后的目标实体的仿真结果;增强学习模块,用于根据所述目标实体的状态集,从所述多个动作集中选取所述目标实体待执行的动作集并输出。可选地,在本申请的任一实施例中,所述仿真结果通过下述方法确定:确定所述目标实体的网格化模型,确定所述网格化模型中的节点对应的多个动作,以确定所述目标实体的动作样本;分别对所述网格化模型执行所述多个动作样本,确定每个所述动作样本对应的仿真结果。可选地,在本申请的任一实施例中,所述增强学习模块包括:价值网络以及策略网络,所述策略网络用于输出待执行的动作集,所述价值网络用于输出待执行的动作集的价值数据。可选地,在本申请的任一实施例中,聚类模块还用于:根据所述仿真聚类结果对应的物理意义,对多个所述动作集进行筛选,得到筛选后的多个动作集。可选地,在本申请的任一实施例中,聚类模块还用于:根据新增动作样本对应的仿真结果以及已有的多个仿真聚类结果,确定所述新增动作样本所属的动作集。本申请实施例还提供了一种神经网络系统的训练方法,所述神经网络系统包括聚类模块、增强学习模块,所述训练方法包括:将多个动作样本以及动作样本对应的仿真结果输入至所述聚类模块,以使所述聚类模块将多个仿真结果进行聚类以确定多个仿真聚类结果,根据多个所述仿真聚类结果确定对应的多个动作集,其中,每个动作集中均至少包括一个动作样本,所述仿真结果为执行所述动作样本后的目标实体的仿真结果;根据多个动作集以及执行所述多个动作集后所述目标实体的状态集,通过增强学习方法训练所述增强学习模块,以完成所述神经网络系统的训练。可选地,在本申请的任一实施例中,所述仿真结果通过下述方法确定:确定所述目标实体的网格化模型,确定所述网格化模型中的节点对应的多个动作,以确定所述目标实体的动作样本;分别对所述网格化模型执行所述多个动作样本,确定每个所述动作样本对应的仿真结果。可选地,在本申请的任一实施例中,所述根据多个动作集以及执行所述多个动作集后所述目标实体的状态集,通过增强学习方法训练所述增强学习模块,以完成所述神经网络系统的训练之前,还包括:根据所述仿真聚类结果对应的物理意义对多个所述动作集进行筛选,得到筛选后的多个动作集。可选地,在本申请的任一实施例中,所述神经网络系统的所述增强学习模块包括:价值网络以及策略网络,所述策略网络用于输出待执行的动作集,所述价值网络用于输出待执行的动作集的价值数据。本申请实施例还提供了一种计算机可读介质,其上存储有如上所述的神经网络系统。由上可知,本实施例提供的方案中,采用动作集训练神经网络系统的增强学习模块,与动作样本相比,动作集的数量级大大降低,从而可以极大地降低训练神经网络系统时的训练量,进而可以缩短神经网络系统的训练时间、增加训练过程中寻找最优解的速度并提高训练结果的准确性。此外,本实施例提供的方案中对动作样本进行了聚类处理,在存在新增的动作样本时,可以确定新增的动作样本的仿真结果,然后确定新增动作样本的仿真结果与已有的仿真聚类结果的相似度,从而将新增的动作样本归入已有的动作集中,无需再针对新增的动作样本重新训练,提高了神经网络系统的泛化性,提高了训练效率。附图说明后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:图1为本申请实施例一提供的一种神经网络系统的结构示意图;图2为本申请实施例一提供的一种仿真结果的确定方法流程示意图;图3示出了将车辆进行网格化建模后的车辆模型;图4示出了将二阶滤波器行网格化建模后的滤波器模型;图5a示出了一个四方形网格的结构示意图;图5b示出了在图5a的基础上执行一动作后得到的四方形网格的结构示意图;图5c示出了在图5a的基础上执行另一动作后得到四方形网格的结构示意图;图5d示出了在图5a的基础上执行又一动作后得到的四方形网格的结构示意图;图5e示出了在图5a的基础上执行再一动作后得到的四方形网格的结构示意图;图6为本申请实施例二提供的一种神经网络系统的训练方法流程示意图;图7为本申请实施例三提供的一种适用于二阶滤波器的神经网络系统的训练方法流程示意图;图8示出了一种二阶滤波器的网格化模型的动作样本的聚类结果示意图。具体实施方式实施本专利技术实施例的任一技术方案必不一定需要同时达到以上的所有优点。为了使本领域的人员更好地理解本专利技术实施例中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术实施例一部分实施例,而不是全部的实施例。基于本专利技术实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本专利技术实施例保护的范围。下面结合本专利技术实施例附图进一步说明本专利技术实施例具体实现。图1为本申请实施例一提供的一种神经网络系统的结构示意图,如图1所示,其包括:聚类模块11、增强学习模块12。本实施例中,聚类模块11用于将多个仿真结果进行聚类以确定多个仿真聚类结果,根据多个所述仿真聚类结果确定对应的多个动作集,其中,每个动作集中均至少包括一个动作样本,所述仿真结果为执行所述动作样本后的目标实体的仿真结果。本实施例中,目标实体可以为可以与真实世界进行交互的机械智能体,例如与真实世界进行交互来完成特定目标的智能机器人,或者可以在真实世界中实现自主驾驶或半自助驾驶的车辆等;另外,目标实体也可以为模型,例如车辆模型、电路模型等,本实施例对此不进行限定。本实施例中,一个动作样本可以包括一个单独的动作,也可以是多个单独的动作组成的集合,本实施例对此不进行限定。仿真结果是指,在执行动作样本后对目标实体进行仿真确定的结果,仿真结果用于表征执行样本动作对目标实体的影响。在执行动作样本时,可以确定目标实体本文档来自技高网...

【技术保护点】
1.一种神经网络系统,其特征在于,包括:聚类模块,用于将多个仿真结果进行聚类以确定多个仿真聚类结果,根据多个所述仿真聚类结果确定对应的多个动作集,其中,每个动作集中均至少包括一个动作样本,所述仿真结果为执行所述动作样本后的目标实体的仿真结果;增强学习模块,用于根据所述目标实体的状态集,从所述多个动作集中选取所述目标实体待执行的动作集并输出。

【技术特征摘要】
1.一种神经网络系统,其特征在于,包括:聚类模块,用于将多个仿真结果进行聚类以确定多个仿真聚类结果,根据多个所述仿真聚类结果确定对应的多个动作集,其中,每个动作集中均至少包括一个动作样本,所述仿真结果为执行所述动作样本后的目标实体的仿真结果;增强学习模块,用于根据所述目标实体的状态集,从所述多个动作集中选取所述目标实体待执行的动作集并输出。2.根据权利要求1所述的系统,其特征在于,所述仿真结果通过下述方法确定:确定所述目标实体的网格化模型,确定所述网格化模型中的节点对应的多个动作,以确定所述目标实体的动作样本;分别对所述网格化模型执行所述多个动作样本,确定每个所述动作样本对应的仿真结果。3.根据权利要求1所述的系统,其特征在于,所述增强学习模块包括:价值网络以及策略网络,所述策略网络用于输出待执行的动作集,所述价值网络用于输出待执行的动作集的价值数据。4.根据权利要求1所述的系统,其特征在于,聚类模块还用于:根据所述仿真聚类结果对应的物理意义,对多个所述动作集进行筛选,得到筛选后的多个动作集。5.根据权利要求1所述的系统,其特征在于,聚类模块还用于:根据新增动作样本对应的仿真结果以及已有的多个仿真聚类结果,确定所述新增动作样本所属的动作集。6.一种神经网络系统的训练方法,其特征在于,所述神经网络系统包括聚类模块、增强学习模块,所述训练方法包括:将多个动作样本...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:石家庄创天电子科技有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1