一种基于强化学习的智能体自动决策方法技术

技术编号:24458964 阅读:47 留言:0更新日期:2020-06-10 16:24
本发明专利技术公开了一种基于强化学习的智能体自动决策方法,确定智能体的环境状态以及动作空间,构建用于确定可选动作第一选择概率的目标网络以及用于确定实施第一选择概率动作的后效奖励值的评价网络,确定智能体的当前环境状态和目标环境状态,通过目标网络和评价网络得到智能体各步的动作,构成轨迹策略存入经验样本池,根据经验样本池中现有的轨迹策略生成新的轨迹策略对经验样本池进行扩充,根据预先设置好的更新周期采用经验样本池中的样本对评价网络和目标网络进行参数更新。采用本发明专利技术可以提高神经网络训练性能,从而提升智能体自动决策的准确度。

An agent automatic decision method based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的智能体自动决策方法
本专利技术属于机器学习
,更为具体地讲,涉及一种基于强化学习的智能体自动决策方法。
技术介绍
强化学习(ReinforcementLearning,RL)最初源于心理学,用于模仿智能生物的学习模式,是一类以环境状态(State)作为输入,以适应环境(Environment)为目标的特殊的无模型机器学习方法。图1是强化学习的过程示意图。如图1所示,强化学习的核心思想是通过与环境的不断交互和不断试错(Explorer),利用从环境中得到的反馈信号(Reward)实现对一系列策略(Policy)的优化。强化学习已经涉及与应用到了很多领域,例如自动驾驶、推荐系统、机器人、直升机飞行、游戏等等领域。例如,目前强化学习在游戏领域得到了快速的发展,主要以谷歌公司的DeepMind团队为代表,从状态有限游戏围棋的AlphaGo到如今状态无限的大型经典即时战略游戏星际争霸2(StarCraft2)的AlphaStar,都是使用了精心设计的强化学习训练后得到较优模型,自动生成最优目标策略来实现。在自动驾驶领域,强本文档来自技高网...

【技术保护点】
1.一种基于强化学习的智能体自动决策方法,其特征在于,包括以下步骤:/nS1:确定智能体的环境状态S以及动作空间A,其中动作空间A包含至少一个可选动作;/nS2:构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能体各个可选动作的第一选择概率;评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值;/nS3:确定智能体的初始环境状态S

【技术特征摘要】
1.一种基于强化学习的智能体自动决策方法,其特征在于,包括以下步骤:
S1:确定智能体的环境状态S以及动作空间A,其中动作空间A包含至少一个可选动作;
S2:构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能体各个可选动作的第一选择概率;评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值;
S3:确定智能体的初始环境状态S0和目标环境状态G,通过目标网络和评价网络得到智能体各步的动作,记智能体从初始环境状态S0到达目标环境状态G所需的步数为K,每步获取当前策略πk的元组为(Sk-1,ak-1,Sk,rk,G),其中Sk-1表示第k步动作执行前的环境状态,ak-1表示第k步执行的动作,Sk表示第k步动...

【专利技术属性】
技术研发人员:杨成林王寻
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1