【技术实现步骤摘要】
一种基于强化学习的智能体自动决策方法
本专利技术属于机器学习
,更为具体地讲,涉及一种基于强化学习的智能体自动决策方法。
技术介绍
强化学习(ReinforcementLearning,RL)最初源于心理学,用于模仿智能生物的学习模式,是一类以环境状态(State)作为输入,以适应环境(Environment)为目标的特殊的无模型机器学习方法。图1是强化学习的过程示意图。如图1所示,强化学习的核心思想是通过与环境的不断交互和不断试错(Explorer),利用从环境中得到的反馈信号(Reward)实现对一系列策略(Policy)的优化。强化学习已经涉及与应用到了很多领域,例如自动驾驶、推荐系统、机器人、直升机飞行、游戏等等领域。例如,目前强化学习在游戏领域得到了快速的发展,主要以谷歌公司的DeepMind团队为代表,从状态有限游戏围棋的AlphaGo到如今状态无限的大型经典即时战略游戏星际争霸2(StarCraft2)的AlphaStar,都是使用了精心设计的强化学习训练后得到较优模型,自动生成最优目标策略来实现 ...
【技术保护点】
1.一种基于强化学习的智能体自动决策方法,其特征在于,包括以下步骤:/nS1:确定智能体的环境状态S以及动作空间A,其中动作空间A包含至少一个可选动作;/nS2:构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能体各个可选动作的第一选择概率;评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值;/nS3:确定智能体的初始环境状态S
【技术特征摘要】
1.一种基于强化学习的智能体自动决策方法,其特征在于,包括以下步骤:
S1:确定智能体的环境状态S以及动作空间A,其中动作空间A包含至少一个可选动作;
S2:构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能体各个可选动作的第一选择概率;评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值;
S3:确定智能体的初始环境状态S0和目标环境状态G,通过目标网络和评价网络得到智能体各步的动作,记智能体从初始环境状态S0到达目标环境状态G所需的步数为K,每步获取当前策略πk的元组为(Sk-1,ak-1,Sk,rk,G),其中Sk-1表示第k步动作执行前的环境状态,ak-1表示第k步执行的动作,Sk表示第k步动...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。