System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及仿真足球机器人运动,尤其涉及一种基于强化学习的仿真足球机器人决策优化方法。
技术介绍
1、仿真足球机器人是一种融合了多种
的复杂系统,这些仿真足球机器人需要具备智能的决策能力,以便在仿真足球比赛中执行如传球、进攻、防守等一系列任务。
2、传统的仿真足球机器人决策方法通常是基于预先定义的规则和启发式方法,但在这种决策方法下,决策精度低、适应性差,并且存在着难以升级、优化的问题。
3、故亟需一种可以提高仿真足球机器人的决策精度、增强仿真足球机器人决策适应性、易于升级且易于优化的仿真足球机器人决策方法。
技术实现思路
1、本申请实施例的目的在于提供一种基于强化学习的仿真足球机器人决策优化方法,用于解决现有技术的仿真足球机器人决策方法存在决策精度低、适应性差、难以升级和优化的技术问题。
2、为实现上述目的,本申请实施例采用如下的技术方案:
3、一种基于强化学习的仿真足球机器人决策优化方法,所述方法包括以下步骤:
4、基于仿真足球平台,建立足球机器人球队程序,其中,所述足球机器人球队程序包括多个异构的机器人智能体;
5、基于仿真足球平台、足球机器人球队程序以及足球机器人决策逻辑,构建所述机器人智能体的基础决策模块;
6、所述仿真足球平台和所述足球机器人球队程序进行交互,获取第一训练数据;
7、基于sac算法框架,搭建所述足球机器人球队程序的强化学习模型,定义所述强化学习模型的状
8、基于所述强化学习模型,所述仿真足球平台与所述足球机器人球队程序进行交互,获取第二训练数据,并将所述第二训练数据存入训练数据集中;
9、基于所述第二训练数据更新所述动作决策网络和所述评价网络,所述动作决策网络用于作出决策并输出决策参数,所述评价网络用于输出更新的价值函数值,通过不断更新的决策参数、价值函数值和奖励函数值训练所述强化学习模型,直至所述强化学习模型达到预设性能标准。
10、在本申请实施例所述的基于强化学习的仿真足球机器人决策优化方法中,所述动作决策网络包括多分类模型和回归网络模型;
11、所述多分类模型用于实现所述状态空间到所述动作空间的映射,其中,所述动作空间内的原子动作至少包括移动、转身、截球、带球、射门、传球;
12、所述回归网络模型用于实现所述状态空间到所述动作参数空间的映射,其中,所述动作参数包括动作的力度和动作方向与所述机器人智能体身体朝向的夹角。
13、在本申请实施例所述的基于强化学习的仿真足球机器人决策优化方法中,基于所述第二训练数据和监督学习方法,实现所述状态空间到所述动作空间和所述动作参数空间的映射。
14、在本申请实施例所述的基于强化学习的仿真足球机器人决策优化方法中,基于核密度负例学习方法对每一所述第二训练数据中的每一动作空间和动作参数空间中的参数进行多分类操作,并基于分类结果,对所述机器人智能体的动作特征进行归纳,筛选出符合当前所述动作决策网络的特征的所述第二训练数据,将符合当前所述动作决策网络特征的所述第二训练数据设为正样本数据,扩大所述正样本数据在所述训练数据集中的占比,基于深度确定性策略梯度方法更新所述强化学习模型。
15、在本申请实施例所述的基于强化学习的仿真足球机器人决策优化方法中,在所述动作决策网络作出决策并输出决策参数时,所述动作决策网络做出的决策与随机探索策略作出的决策相结合,输出第一决策参数,基于所述第一决策参数、价值函数值以及所述奖励函数值更新所述强化学习模型。
16、在本申请实施例所述的基于强化学习的仿真足球机器人决策优化方法中,基于经验回放机制,在所述动作决策网络每一次作出决策后存储本次输入所述强化学习模型的所述第二训练数据,并将本次输入的所述第二训练数据设为经验数据,将所述经验数据存入经验池中,在所述第二训练数据训练所述强化学习模型的过程中,随机从所述经验池中抽取所述经验数据以训练所述强化学习模型。
17、在本申请实施例所述的基于强化学习的仿真足球机器人决策优化方法中,所述状态空间至少包括所述机器人智能体的位置参数、球的位置参数、球的速度参数以及所述机器人智能体的速度和方向参数。
18、在本申请实施例所述的基于强化学习的仿真足球机器人决策优化方法中,基于所述第一q值评价网络或所述第二q值评价网络与所述目标q值网络更新所述动作决策网络,其中,所述第一q值评价网络和所述第二q值评价网络的输入为当前的所述第二训练数据中的环境参数和当前所述动作决策网络的输出;
19、当所述第一q值评价网络输出的q值小于所述第二q值评价网络输出的q值时,基于所述第一q值评价网络与所述目标q值网络更新所述动作决策网络;
20、当所述第二q值评价网络输出的q值小于所述第一q值评价网络输出的q值时,基于所述第二q值评价网络与所述目标q值网络更新所述动作决策网络;
21、所述动作决策网络损失函数如下:
22、
23、其中,πφ(at|st)表示所述动作决策网络在状态空间st做出动作at的分数输出,qθ(st,at)表示第一q值评价网络或第二q值评价网络在状态空间st做出动作at的分数输出,α表示所述动作决策网络更新的超参数。
24、在本申请实施例所述的基于强化学习的仿真足球机器人决策优化方法中,所述第一q值评价网络和所述第二q值评价网络均通过最小化自身的损失进行网络参数的更新;
25、所述第一q值评价网络和所述第二q值评价网络的损失函数均如下:
26、
27、其中,qθ(st,at)表示第一q值评价网络或第二q值评价网络在当前状态空间st做出动作at的分数输出,rt表示正则化熵项,表示目标q值网络在下一状态空间st+1做出动作at+1的分数输出,πφ(at+1|st+1)表示所述动作决策网络在下一状态空间st+1做出动作at+1的分数输出,α1表示所述第一q值评价网络或第二q值评价网络更新的超参数。
28、在本申请实施例所述的基于强化学习的仿真足球机器人决策优化方法中,基于所述第一q值评价网络或所述第二q值评价网络和所述动作决策网络,更新所述目标q值网络,其中,所述第一q值评价网络和所述第二q值评价网络的输入为当前的所述第二训练数据中的环境参数和当前所述动作决策网络的输出;
29、当所述第一q值评价网络输出的q值小于所述第二q值评价网络输出的q值时,基于所述第一q值评价网络和所述动作决策网络更新所述目标q值网络;
30、当所述第二q值评价网络输出本文档来自技高网...
【技术保护点】
1.一种基于强化学习的仿真足球机器人决策优化方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,所述动作决策网络包括多分类模型和回归网络模型;
3.如权利要求2所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于所述第二训练数据和监督学习方法,实现所述状态空间到所述动作空间和所述动作参数空间的映射。
4.如权利要求2所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于核密度负例学习方法对每一所述第二训练数据中的每一动作空间和动作参数空间中的参数进行多分类操作,并基于分类结果,对所述机器人智能体的动作特征进行归纳,筛选出符合当前所述动作决策网络的特征的所述第二训练数据,将符合当前所述动作决策网络特征的所述第二训练数据设为正样本数据,扩大所述正样本数据在所述训练数据集中的占比,基于深度确定性策略梯度方法更新所述强化学习模型。
5.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,在所述动作决策网络作出决策并输出决策参数时,所述
6.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于经验回放机制,在所述动作决策网络每一次作出决策后存储本次输入所述强化学习模型的所述第二训练数据,并将本次输入的所述第二训练数据设为经验数据,将所述经验数据存入经验池中,在所述第二训练数据训练所述强化学习模型的过程中,随机从所述经验池中抽取所述经验数据以训练所述强化学习模型。
7.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,所述状态空间至少包括所述机器人智能体的位置参数、球的位置参数、球的速度参数以及所述机器人智能体的速度和方向参数。
8.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于所述第一Q值评价网络或所述第二Q值评价网络与所述目标Q值网络更新所述动作决策网络,其中,所述第一Q值评价网络和所述第二Q值评价网络的输入为当前的所述第二训练数据中的环境参数和当前所述动作决策网络的输出;
9.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,所述第一Q值评价网络和所述第二Q值评价网络均通过最小化自身的损失进行网络参数的更新;
10.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于所述第一Q值评价网络或所述第二Q值评价网络和所述动作决策网络,更新所述目标Q值网络,其中,所述第一Q值评价网络和所述第二Q值评价网络的输入为当前的所述第二训练数据中的环境参数和当前所述动作决策网络的输出;
...【技术特征摘要】
1.一种基于强化学习的仿真足球机器人决策优化方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,所述动作决策网络包括多分类模型和回归网络模型;
3.如权利要求2所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于所述第二训练数据和监督学习方法,实现所述状态空间到所述动作空间和所述动作参数空间的映射。
4.如权利要求2所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于核密度负例学习方法对每一所述第二训练数据中的每一动作空间和动作参数空间中的参数进行多分类操作,并基于分类结果,对所述机器人智能体的动作特征进行归纳,筛选出符合当前所述动作决策网络的特征的所述第二训练数据,将符合当前所述动作决策网络特征的所述第二训练数据设为正样本数据,扩大所述正样本数据在所述训练数据集中的占比,基于深度确定性策略梯度方法更新所述强化学习模型。
5.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,在所述动作决策网络作出决策并输出决策参数时,所述动作决策网络做出的决策与随机探索策略作出的决策相结合,输出第一决策参数,基于所述第一决策参数、价值函数值以及所述奖励函数值更新所述强化学习模型。
6.如权利要求1所述的基于强化学习的仿真足球机器人决策优化方法,其特征在于,基于经验回放...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。