【技术实现步骤摘要】
本专利技术属于人工智能,尤其涉及一种基于行为树与强化学习的混合编程方法和系统。
技术介绍
1、行为树(behavior tree,bt)是一种广泛用于游戏ai和机器人决策制定的结构,它通过将复杂行为分解为更简单的子任务,提供了一种有效的方法来描述和执行行为。然而,传统的行为树在处理复杂环境和动态情况时存在局限性。
2、强化学习(reinforcement learning,rl)是一种通过试错学习的机器学习方法,它通过与环境的交互获得经验,并从中学习最佳行为策略。然而,强化学习在处理具有结构化任务和清晰奖励的长期规划时面临搜索空间爆炸的问题。
3、以上技术问题亟待解决。
技术实现思路
1、为解决上述技术问题,本专利技术提出一种基于行为树与强化学习的混合编程方法的技术方案,以解决上述技术问题。
2、本专利技术第一方面公开了一种基于行为树与强化学习的混合编程方法,所述方法包括:
3、步骤s1、根据任务需求,构建行为树;所述行为树包括一系列的行为节
...【技术保护点】
1.一种基于行为树与强化学习的混合编程方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤S1中,所述行为节点表示具体的行为操作;决策节点表示根据环境状态做出决策的节点,每个所述决策节点都有一个执行策略,用于指导节点的行为;
3.根据权利要求2所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤S3中,所述使用强化学习算法训练任务模型的方法包括:
4.根据权利要求3所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤S4中,所述将训练
...【技术特征摘要】
1.一种基于行为树与强化学习的混合编程方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤s1中,所述行为节点表示具体的行为操作;决策节点表示根据环境状态做出决策的节点,每个所述决策节点都有一个执行策略,用于指导节点的行为;
3.根据权利要求2所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤s3中,所述使用强化学习算法训练任务模型的方法包括:
4.根据权利要求3所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤s4中,所述将训练好的任务模型嵌入到所述行为树中的方法包括:
5.一种用于基于行为树与强化学习的混合编程系统,其特征在于,所述系统包括:
6.根据权利要求5所述的一种基于行为树与强化学习的混合编程系统,其特征在于,所述行为节点表示...
【专利技术属性】
技术研发人员:赵亮,鞠鸿彬,何晓,张鹏翼,顾启佳,
申请(专利权)人:中国船舶集团有限公司系统工程研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。