当前位置: 首页 > 专利查询>中国人民解放军军事科学院战略评估咨询中心专利>正文

一种基于生成式目标课程学习的自博弈智能对抗方法技术

技术编号：35140058 阅读：22 留言：0更新日期：2022-10-05 10:15

本发明专利技术涉及智能体自博弈训练技术领域，尤其涉及一种基于生成式目标课程学习的自博弈智能对抗方法，包括筛选目标课程以组成训练集和验证集，使用训练集训练一个目标生成式对抗网络模型并根据模型的loss值对模型的学习率进行调节，学习率调节完成后，根据训练结果的误差率和标准误差确定最佳训练次数，在对模型进行验证时根据验证合格率对模型的迭代次数进行调节，在判定模型训练完成后，可产生新目标以进行自我博弈智能体训练。本发明专利技术采用生成式目标课程以设计学习目标的方法，采用渐进式的学习，逐渐地提高智能体自身和对手的水平，通过不断与自身或自身历史版本的对抗提升能力，进而提高智能体习得策略的速度和鲁棒性。进而提高智能体习得策略的速度和鲁棒性。进而提高智能体习得策略的速度和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于生成式目标课程学习的自博弈智能对抗方法

[0001]本专利技术涉及智能体自博弈训练
，尤其涉及一种基于生成式目标课程学习的自博弈智能对抗方法。

技术介绍

[0002]在竞赛、对抗类场景中，智能体训练通常比较困难，需要设计非常精妙的奖励机制才能取得很好的效果。
[0003]在传统的强化学习场景中，智能体会尝试习得最大化奖励的行为策略，奖励 (Reward)信号组成了智能体的任务，比如达成特定状态或收集物品，智能体的行为则受到环境的限制，比如重力、路上的障碍，以及智能体自身行动产生的影响，像为自己施加移动的外力，这些都属于环境限制，会限定智能体的有效行为。而为了取得更高的奖励，智能体必须学会应对这些环境中的外力，就是说，智能体必须与环境中的种种约束不断抗争，以达成奖励最大的状态序列。
[0004]在对抗性场景中，智能体不仅需要与环境动态抗争，还需要与另一个对手抗争，可以将对手看作嵌入环境的一部分，它的动作会直接影响到智能体观察到的状态、以及收到的奖励。
[0005]就好像人类运动员在学习网球时，会找水平近似的对手一同训练一样，因为对手如果太强或太弱并不有助于提高技术。为了更好地提高水平，网球初学者的对手应该也是初学者，而不是球都拿不起的小朋友或者是世界冠军，这样的训练才更有价值；前者无法把球打回，后者无法打出容易打回的球；在初学者有了足够的击球力量后，就可以与水平更强一点的对手竞技了，这本身是一个循序渐进的过程，这是课程学习(Curriculum Learning)的基本理念。/>[0006]智能体对抗性场景的训练也应该找到合适的水平相近且能够不断提升的对手。从某个角度来看，智能体自身就满足了作为对手的要求，水平(与自己相比) 近似，也会随时间提升，这时，嵌入到环境中的正是智能体自己的对策，可以将整个过程看作智能体对抗逐渐增强的对手，从而形成一种自然进化般的渐进学习，这种训练方法即称为自我博弈(Self
‑
Play)。
[0007]在这种训练方式中，关键是需要实现渐进式的学习过程，从简单到复杂，从低能力到高能力，形成一个系统的方法，就像一个课程学习计划。一个科学的课程学习计划，可以逐步地实现从简单到复杂的过程，把复杂的事情变得简单，一个好的课程学习计划，不仅能够加速学习(模型收敛)过程，甚至能够提升学习 (模型)的最终效果。然而，设计一个有效且高效的课程计划并不简单。特别要记住的是，一个不好的课程计划甚至会阻碍模型的学习。这就是课程学习 (Curriculum Learning)希望解决的问题。

技术实现思路

[0008]为此，本专利技术提供一种基于生成式目标课程学习的自博弈智能对抗方法，用以克
服现有技术中无法针对智能体对抗性训练制定有效且高效的课程计划的问题。
[0009]为实现上述目的，本专利技术提供一种基于生成式目标课程学习的自博弈智能对抗方法，包括：
[0010]步骤S1，筛选目标课程中与当前智能体策略相同等级的目标，将筛选出的目标组成训练集；
[0011]步骤S2，筛选目标课程中比当前智能体策略高一等级的目标，将筛选出的目标组成验证集；
[0012]步骤S3，使用所述步骤S1得到的训练集训练一个目标生成式对抗网络模型，在对所述目标生成式对抗网络模型进行训练时，根据计算的loss值判定目标生成式对抗网络模型收敛状态并在判定模型不收敛时对目标生成式对抗网络模型的学习率进行调节；
[0013]步骤S4，学习率调节完成后，根据每次训练结果数据的误差率和每个训练次数对应的训练结果数据的标准误差确定最佳训练次数；
[0014]步骤S5，使用验证集对目标生成式对抗网络模型进行验证，根据验证合格率判定模型是否训练充分并在模型训练不充分时对目标生成式对抗网络模型的迭代次数进行调节；
[0015]步骤S6，在判定所述目标生成式对抗网络模型训练完成后，可产生新目标，使用这些新目标来进行自我博弈智能体训练。
[0016]进一步地，在对所述目标生成式对抗网络模型进行训练时，将模型的学习率设置为A，将训练次数设置为q，将迭代次数设置为N。
[0017]进一步地，在完成对所述目标生成式对抗网络模型训练后，使用代价函数计算loss值C，所述中心处理器将loss值C与C0进行比对，其中，C0为中心处理器预设的loss值，
[0018]若C≥C0，所述中心处理器判定所述目标生成式对抗网络模型loss值C过高，目标生成式对抗网络模型不收敛；
[0019]若C＜C0，所述中心处理器判定所述目标生成式对抗网络模型loss值C符合标准，目标生成式对抗网络模型收敛。
[0020]进一步地，当所述中心处理器判定所述目标生成式对抗网络模型不收敛时，计算目标生成式对抗网络模型loss值C与C0的差值ΔC并根据ΔC将所述目标生成式对抗网络模型的学习率调节至对应值，设定ΔC＝C
‑
C0，所述中心处理器设有第一预设loss值差值ΔC1、第二预设loss值差值ΔC2、第三预设loss值差值ΔC3、第一学习率调节系数α1、第二学习率调节系数α2以及第三学习率调节系数α3，其中ΔC1＜ΔC2＜ΔC3，设定0.3＜α3＜α2＜α1＜0.5，当中心处理器判定所述目标生成式对抗网络模型的loss值C≥C0并根据C与C0的差值ΔC对模型的学习率A进行减小时，
[0021]若ΔC≤ΔC1，所述中心处理器选取第一学习率调节系数α1对所述学习率进行调节；
[0022]若ΔC1＜ΔC≤ΔC2，所述中心处理器选取第二学习率调节系数α2对所述学习率进行调节；
[0023]若ΔC2＜ΔC≤ΔC3，所述中心处理器选取第三学习率调节系数α3对所述学习率进行调节；
[0024]当所述中心处理器选取第s学习率调节系数αs对所述学习率进行调节时，设定s＝
1，2，3，所述中心处理器将调节后的学习率记为A1，设定A1＝A
×
αs，中心处理器以调节后的学习率进行模型训练。
[0025]进一步地，学习率调节完成后，按照预设的训练次数q进行训练，q为大于 1的正整数，在完成训练后，所述中心处理器计算每次训练结果数据的均值G1， G2，，，Gq，在完成每次训练结果数据的均值的计算后，中心处理器计算q次训练结果数据的均值设定中心处理器将分别计算与每次训练结果数据的均值G1，G2，，，Gq之间的误差率σm，设定Gq之间的误差率σm，设定其中，m＝1，2，，，q。
[0026]进一步地，当所述中心处理器完成对q次训练结果的均值与每次训练结果数据的均值G1，G2，，，Gq之间的误差率σm的计算时，中心处理器将σm 按照训练顺序与σ0进行比对，其中，σ0为中心处理器预设误差率，在所述中心处理器将σm与σ0进行顺序比对时，
[0027]若存在σm≤σ0，则所述中心处理器判定完成对应次数m的训练得到的误差率符合标准并继续计算m次训练次数到q次训练次数的每个训练次数对应的训练结果数据的标本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于生成式目标课程学习的自博弈智能对抗方法，其特征在于，包括：步骤S1，筛选目标课程中与当前智能体策略相同等级的目标，将筛选出的目标组成训练集；步骤S2，筛选目标课程中比当前智能体策略高一等级的目标，将筛选出的目标组成验证集；步骤S3，使用所述步骤S1得到的训练集训练一个目标生成式对抗网络模型，在对所述目标生成式对抗网络模型进行训练时，根据计算的loss值判定目标生成式对抗网络模型收敛状态并在判定模型不收敛时对目标生成式对抗网络模型的学习率进行调节；步骤S4，学习率调节完成后，根据每次训练结果数据的误差率和每个训练次数对应的训练结果数据的标准误差确定最佳训练次数；步骤S5，使用验证集对目标生成式对抗网络模型进行验证，根据验证合格率判定模型是否训练充分并在模型训练不充分时对目标生成式对抗网络模型的迭代次数进行调节；步骤S6，在判定所述目标生成式对抗网络模型训练完成后，可产生新目标，使用这些新目标来进行自我博弈智能体训练。2.根据权利要求1所述的基于生成式目标课程学习的自博弈智能对抗方法，其特征在于，在对所述目标生成式对抗网络模型进行训练时，将模型的学习率设置为A，将训练次数设置为q，将迭代次数设置为N。3.根据权利要求2所述的基于生成式目标课程学习的自博弈智能对抗方法，其特征在于，在完成对所述目标生成式对抗网络模型训练后，使用代价函数计算loss值C，所述中心处理器将loss值C与C0进行比对，其中，C0为中心处理器预设的loss值，若C≥C0，所述中心处理器判定所述目标生成式对抗网络模型loss值C过高，目标生成式对抗网络模型不收敛；若C＜C0，所述中心处理器判定所述目标生成式对抗网络模型loss值C符合标准，目标生成式对抗网络模型收敛。4.根据权利要求3所述的基于生成式目标课程学习的自博弈智能对抗方法，其特征在于，当所述中心处理器判定所述目标生成式对抗网络模型不收敛时，计算目标生成式对抗网络模型loss值C与C0的差值ΔC并根据ΔC将所述目标生成式对抗网络模型的学习率调节至对应值，设定ΔC＝C
‑
C0，所述中心处理器设有第一预设loss值差值ΔC1、第二预设loss值差值ΔC2、第三预设loss值差值ΔC3、第一学习率调节系数α1、第二学习率调节系数α2以及第三学习率调节系数α3，其中ΔC1＜ΔC2＜ΔC3，设定0.3＜α3＜α2＜α1＜0.5，当中心处理器判定所述目标生成式对抗网络模型的loss值C≥C0并根据C与C0的差值ΔC对模型的学习率A进行减小时，若ΔC≤ΔC1，所述中心处理器选取第一学习率调节系数α1对所述学习率进行调节；若ΔC1＜ΔC≤ΔC2，所述中心处理器选取第二学习率调节系数α2对所述学习率进行调节；若ΔC2＜ΔC≤ΔC3，所述中心处理器选取第三学习率调节系数α3对所述学习率进行调节；当所述中心处理器选取第s学习率调节系数αs对所述学习率进行调节时，设定s＝1，2，3，所述中心处理器将调节后的学习率记为A1，设定A1＝A
×
αs，中心处理器以调节后的学习
率进行模型训练。5.根据权利要求4所述的基于生成式目标课程学习的自博弈智能对抗方法，其特征在于，学习率调节完成后，按照预设的训练次数q进行训练，q为大于1的正整数，在完成训练后，所述中心处理器计算每次训练结果数据的均值G1，G2，，，Gq，在完成每次训练结果数据的均值的计算后，中心处理器计算q次训练结果数据的均值设定中心处理器将分别计算与每次训练结果数据的均值G1，G2，，，Gq之间的误差率σm，设定Gq之间的误差率σm，设定其中，m＝1，2，，，q。6.根据权利要求5所述的基于生成式目标课程学习的自博弈智能对抗方法，其特征在于，当所述中心处理器完成对q次训练结果的均值与每次训练结果数据的均值G1，G2，，，Gq之间的误差率σm的计算时，中心处理器将σm按照训练顺序与σ0进行比对，其中，σ0为中心处理器预设误差率，在所述中心处理器将σm与σ0进行顺序比对时，若存在σm≤σ0，则所述中心处理器判定完成对应次数m的训练得到的误差...

【专利技术属性】
技术研发人员：伊山，燕玉林，刘晓光，王锐华，路越，李禾，杨洲，
申请(专利权)人：中国人民解放军军事科学院战略评估咨询中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人