【技术实现步骤摘要】
基于自适应贪婪的Q学习算法足球系统仿真方法
本专利技术属于机器学习领域,涉及到机器学习中的考虑负报酬的Q学习与自适应贪婪算法的结合,并应用到了足球比赛系统中。
技术介绍
在多机器人领域的任务分配问题及研究是一个基本问题和近年来的研究热点。多机器人系统任务分配(Multi-RobotTaskAllocation,MRTA)算法在确定一些基本条件的前提下,为机器人最优化地分配任务,从而使得每个机器人都能得到最优任务,规划完成某项任务的最短路径,进而节省完成总任务所花费的时间,提高效率。多机器人任务分配方法在总体上分类的话,可以分为集中式分配和分布式分配。集中式分配中最典型和应用最广泛的是线性规划法,而分布式分配中,应用最广泛的有阈值法、市场机制法、黑板模型法等这些常用方法。相关人员通过研究自然规律和社会的某些组织或者系统提出了一些新方法或者改进的方法,比如说遗传免疫算法、微粒群算法、蚁群算法和模拟退火算法等。强化学习算法中的Q学习算法和ε贪婪算法搜索出最优的可行解空间,减少执行时间,提高分配效率,从而实现最优分配。但是,经典的贪婪策略往往值得到局部的最优解,而且基数较 ...
【技术保护点】
1.基于自适应贪婪的Q学习算法足球系统仿真方法,其特征在于:该方法的实现步骤如下:(1)基于传播负报酬的新方式;考虑负报酬的Q学习与传统的Q学习之间的差异;在一个状态中选择三个动作;对于传统的Q学习来说,选择具有最大Q值的动作;尽管最大Q值第一个,但因为第三个具有最大绝对Q值,所以选择第三个动作;因此,如果状态具有负Q值,负值将在该状态周围传播;在这里,提出一个学习方法传播负值,如公式(1):p=arg maxQ(st,a)Q(st,at)=Q(st,at)+α(rt+γ(st+1,p)‑Q(st,at)) (1)在这个等式中,p是在下一个状态st+1中具有最大Q值的绝对值 ...
【技术特征摘要】
1.基于自适应贪婪的Q学习算法足球系统仿真方法,其特征在于:该方法的实现步骤如下:(1)基于传播负报酬的新方式;考虑负报酬的Q学习与传统的Q学习之间的差异;在一个状态中选择三个动作;对于传统的Q学习来说,选择具有最大Q值的动作;尽管最大Q值第一个,但因为第三个具有最大绝对Q值,所以选择第三个动作;因此,如果状态具有负Q值,负值将在该状态周围传播;在这里,提出一个学习方法传播负值,如公式(1):p=argmaxQ(st,a)Q(st,at)=Q(st,at)+α(rt+γ(st+1,p)-Q(st,at))(1)在这个等式中,p是在下一个状态st+1中具有最大Q值的绝对值的动作的自变量;在一个状态中选择三个动作a1,a2和a3;对于公式(1),虽然最大的Q值是a1,因为a3具有最大的绝对Q值,所以选择动作a3;如果状态具有负Q值,则负值将在此状态下传播;(2)基于自适应ε-贪婪策略;ε-贪婪策略是一个简单的平衡方法,但ε值是静态;该方法基于ε-贪婪方法,允许系统修改其行为,在环境中奖励来改变ε的值,即从静态的系统改变成为具有动态规则的系统;在环境中,通过检测变化点,自适应的修改代理的状态,因此自适应ε-贪婪在环境中表现优于经典ε-贪婪的性能;经典的ε-贪婪策略中的ε是静态值,即固定不变的;在ε-贪婪探索模式中增加了一个改变ε值的自适应行为;参数l用于在执行改变ε值的自适应操作之前设置运行探索模式的次数;参数f用于规范所收到的奖励的计算值,以获得产生ε的新值的函数的适当值;决定使用探索或利用模式中的哪一个;如果要使用利用的模式,则选择最大Q值或者是平均报酬最高的行动如果要进行探索模式,算法需要最大Q值,随机地选择某个动作,从而提高探索新的动作的概率;当算法处于探索模式时,根据其配置来执行自适应动作,进而来修改ε的值;自适...
【专利技术属性】
技术研发人员:张丽雅,宁振虎,薛菲,王小平,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。