【技术实现步骤摘要】
一种强化学习方法及相关装置
本申请涉及机器学习
,更具体地说,涉及一种强化学习方法及相关装置。
技术介绍
强化学习(ReinforcementLearning,RL)在视频游戏和机器人控制等领域中取得了巨大的成功。强化学习的目标是通过最大化累积回报来找到一个最优的策略,这通常会导致一个确定的策略。而在实际应用中,采用随机策略的效果优于采用确定性策略的效果。例如,对于新任务,随机策略往往可以更好地探索;此外,在发生意外情况时,使用随机策略往往比使用确定性策略的鲁棒性更好。为了学习随机策略,现有的学习方法存在多方面的缺陷,其中主要问题包括针对复杂策略的学习效率低下的问题。
技术实现思路
为解决上述技术问题,本申请提供了一种强化学习方法及相关装置,以实现提高针对复杂策略的强化学习效率的目的。为实现上述技术目的,本申请实施例提供了如下技术方案:一种强化学习方法,包括:获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;从所 ...
【技术保护点】
1.一种强化学习方法,其特征在于,包括:/n获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;/n从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;/n根据所述累计期望奖励对所述预设策略进行优化;/n对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包 ...
【技术特征摘要】
1.一种强化学习方法,其特征在于,包括:
获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;
从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;
根据所述累计期望奖励对所述预设策略进行优化;
对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。
2.根据权利要求1所述的方法,其特征在于,所述基于样本的正则化项包括第一部分和第二部分之和,所述第一部分包括所述目标智能体执行不同动作的额外奖励,所述第二部分建模了所执行动作之间的相互影响。
3.根据权利要求2所述的方法,其特征在于,所述第一部分包括:所述第二部分包括:
所述基于样本的正则化项的表达式包括:其中,π(·∣s)表示在预设状态为s时的动作执行概率,a和a′表示所述预设策略中的特定动作,表示在执行特定动作a的概率满足π(·∣s)时,基于f(a)函数在预设状态为s时执行特定动作a的期望,表示在执行特定动作a和a′的概率均满足π(·∣s)时,基于g(a,a′)函数在预设状态为s时先后执行特定动作a和a′的期望,表示包含多个操作的紧凑操作空间,表示实数集。
4.根据权利要求3所述的方法,其特征在于,其中,||||2表示二范数,u表示等概率的均匀分布。
5.根据权利要求3所述的方法,其特征在于,
其中,u表示等概率的均匀分布,[·]i表示向量的第i维分量。
6.根据权利要求4或5任一项所述的方...
【专利技术属性】
技术研发人员:王杰,李厚强,周祺,匡宇飞,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。