神经网络系统及其训练方法以及计算机可读介质技术方案

技术编号：20364567 阅读：53 留言：0更新日期：2019-02-16 17:17

本申请实施例提供了一种神经网络系统及其训练方法以及计算机可读介质，其中，神经网络系统，包括：聚类模块，用于将多个仿真结果进行聚类以确定多个仿真聚类结果，根据多个所述仿真聚类结果确定对应的多个动作集，其中，每个动作集中均至少包括一个动作样本，所述仿真结果为执行所述动作样本后的目标实体的仿真结果；增强学习模块，用于根据所述目标实体的状态集，从所述多个动作集中选取所述目标实体待执行的动作集并输出。本实施例提供的方案，采用动作集训练神经网络系统的增强学习模块，与动作样本相比，动作集的数量级大大降低，从而可以缩短神经网络系统的训练时间、增加训练过程中寻找最优解的速度并提高训练结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络系统及其训练方法以及计算机可读介质
本申请实施例涉及人工智能
，尤其涉及一种神经网络系统及其训练方法以及计算机可读介质。
技术介绍
随着人工智能技术的发展，通过如何更好地通过人工智能来辅助人完成工作，或者使得智能实体例如机器人等更加灵活地与环境进行交互等，是目前人工智能的重要发展方向。目前，为了使人工智能体可以输出准确的决策，需要依据所有可能的输出均对神经网络进行训练，这需要依赖于庞大的数据支撑，依靠海量的数据进行决策，导致算法将很难快速收敛。例如，针对一车辆来训练人工智能体时，可以将车辆网格化，将车辆的变化与网格节点、边长、面积等的变化对应，然后通过网格来训练人工智能体。但是这一个模型中会涉及到大量的网格变化，可能出现几万个网格变化，若网格划分较为细致，甚至可能出现几百万个网格的变化。采用现有的训练方法时，需要将所有的网格变化均进行训练，导致训练速度极为缓慢、训练过程中寻找最优解极难，且大量的样本导致训练结果的准确性降低，不利于人工智能的发展。
技术实现思路
有鉴于此，本专利技术的主要目的在于提供一种神经网络系统及其训练方法以及计算机可读介质，以解决现有技术中的上述问题。本申请实施例提供了一种神经网络系统，其包括：聚类模块，用于将多个仿真结果进行聚类以确定多个仿真聚类结果，根据多个所述仿真聚类结果确定对应的多个动作集，其中，每个动作集中均至少包括一个动作样本，所述仿真结果为执行所述动作样本后的目标实体的仿真结果；增强学习模块，用于根据所述目标实体的状态集，从所述多个动作集中选取所述目标实体待执行的动作集并输出。可选地，在本申请的任一实施例中，所...

【技术保护点】
1.一种神经网络系统，其特征在于，包括：聚类模块，用于将多个仿真结果进行聚类以确定多个仿真聚类结果，根据多个所述仿真聚类结果确定对应的多个动作集，其中，每个动作集中均至少包括一个动作样本，所述仿真结果为执行所述动作样本后的目标实体的仿真结果；增强学习模块，用于根据所述目标实体的状态集，从所述多个动作集中选取所述目标实体待执行的动作集并输出。

【技术特征摘要】
1.一种神经网络系统，其特征在于，包括：聚类模块，用于将多个仿真结果进行聚类以确定多个仿真聚类结果，根据多个所述仿真聚类结果确定对应的多个动作集，其中，每个动作集中均至少包括一个动作样本，所述仿真结果为执行所述动作样本后的目标实体的仿真结果；增强学习模块，用于根据所述目标实体的状态集，从所述多个动作集中选取所述目标实体待执行的动作集并输出。2.根据权利要求1所述的系统，其特征在于，所述仿真结果通过下述方法确定：确定所述目标实体的网格化模型，确定所述网格化模型中的节点对应的多个动作，以确定所述目标实体的动作样本；分别对所述网格化模型执行所述多个动作样本，确定每个所述动作样本对应的仿真结果。3.根据权利要求1所述的系统，其特征在于，所述增强学习模块包括：价值网络以及策略网络，所述策略网络用于输出待执行的动作集，所述价值网络用于输出待执行的动作集的价值数据。4.根据权利要求1所述的系统，其特征在于，聚类模块还用于：根据所述仿真聚类结果对应的物理意义，对多个所述动作集进行筛选，得到筛选后的多个动作集。5.根据权利要求1所述的系统，其特征在于，聚类模块还用于：根据新增动作样本对应的仿真结果以及已有的多个仿真聚类结果，确定所述新增动作样本所属的动作集。6.一种神经网络系统的训练方法，其特征在于，所述神经网络系统包括聚类模块、增强学习模块，所述训练方法包括：将多个动作样本...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：石家庄创天电子科技有限公司，
类型：发明
国别省市：河北,13

全部详细技术资料下载我是这个专利的主人