【技术实现步骤摘要】
一种配置神经网络架构的方法、装置及设备
[0001]本专利技术涉及机器学习
,具体涉及一种配置神经网络架构的方法、装置及设备。
技术介绍
[0002]深度强化学习是将深度学习和具有决策能力的强化学习融合,形成能够直接处理高维复杂信息作为输入的优化决策方法。深度强化学习不仅能够为强化学习带来端到端自动优化的便利,而且使得强化学习不再受限于低维的空间中,可以解决更加复杂的问题决策,极大地拓展了强化学习的使用范围。
[0003]深度强化学习近年来也越来越多的被应用到多个智能决策领域,但目前深度强化学习仍处于快速发展阶段,涌现了各种类型的算法,形成了多样的问题环境。在算法层面,各类算法的形式和实现细节难以统一,深度强化学习算法由于其计算模式不固定,并且需要高并发,因此计算机视觉、自然语言处理、语音处理领域的成熟训练框架不适合深度强化学习领域;在环境层面,一方面,需要解决的问题环境多种多样,使得应用深度强化学习到各类智能决策问题的环境中没有统一规范,往往需要从零开始,工作量巨大;另外一方面,很多问题中只提供了裁决引擎,并 ...
【技术保护点】
【技术特征摘要】
1.一种配置神经网络架构的方法,其特征在于,所述方法包括:接入待训练神经网络的决策问题;根据所述决策问题,得到所述决策问题的第一环境;将所述决策问题与所述第一环境进行封装,得到封装后的第二环境;接入所述待训练神经网络;根据所述第二环境以及所述待训练神经网络,接入架构算法;将所述第二环境、所述待训练神经网络以及所述架构算法进行适配,生成轨迹数据属性;根据所述轨迹数据属性对所述待训练神经网络进行优化,得到配置架构后的待训练神经网络。2.根据权利要求1所述的配置神经网络架构的方法,其特征在于,根据所述决策问题,得到所述决策问题的第一环境,包括:若所述决策问题中带有环境,则根据所述决策问题中带有的环境得到所述第一环境;若所述决策问题中没有环境,则对所述决策问题定义新环境,得到定义后的第三环境,再根据所述第三环境,得到所述第一环境。3.根据权利要求2所述的配置神经网络架构的方法,其特征在于,若所述决策问题中带有环境,则根据所述决策问题中带有的环境得到所述第一环境,包括:若所述决策问题中带有的环境满足预设条件,则将所述决策问题中带有的环境确定为所述第一环境;若所述决策问题中带有的环境不满足预设条件,则将所述决策问题中带有的环境与通用环境进行兼容,将兼容后的环境确定为所述第一环境。4.根据权利要求2所述的配置神经网络架构的方法,其特征在于,根据所述第三环境,得到所述第一环境,包括:将所述第三环境与通用环境进行兼容,将兼容后的环境确定为所述第一环境。5.根据权利要求1所述的配置神经网络架构的方法,其特征在于,在得到封装后的第二环境之后,还包括:根据所述第二环境,得到所述第二环境的状态空间,所述状态空间是指在所述待训练神经网络运行时,所产生状态的空间。6.根据权利要...
【专利技术属性】
技术研发人员:徐波,唐伟,徐博,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。