一种基于行为树与强化学习的混合编程方法和系统技术方案

技术编号:41344104 阅读:23 留言:0更新日期:2024-05-20 10:00
本发明专利技术提供一种基于行为树与强化学习的混合编程方法和系统。其中,方法包括:根据任务需求,构建行为树;所述行为树包括一系列的行为节点和决策节点;根据任务需求,定义强化学习子节点,包括状态空间、动作空间和奖励函数,建立任务模型;根据定义强化学习子节点和行为树,使用强化学习算法训练任务模型;将训练好的任务模型嵌入到所述行为树中;根据嵌入任务模型的行为树,生成代码;再根据生成的代码,不断优化行为树的节点结构和执行策略。本发明专利技术可以更快地适应新任务和环境,减少学习过程中的时间和资源消耗。更具智能性和适应性,从而提高了任务完成度。

【技术实现步骤摘要】

本专利技术属于人工智能,尤其涉及一种基于行为树与强化学习的混合编程方法和系统


技术介绍

1、行为树(behavior tree,bt)是一种广泛用于游戏ai和机器人决策制定的结构,它通过将复杂行为分解为更简单的子任务,提供了一种有效的方法来描述和执行行为。然而,传统的行为树在处理复杂环境和动态情况时存在局限性。

2、强化学习(reinforcement learning,rl)是一种通过试错学习的机器学习方法,它通过与环境的交互获得经验,并从中学习最佳行为策略。然而,强化学习在处理具有结构化任务和清晰奖励的长期规划时面临搜索空间爆炸的问题。

3、以上技术问题亟待解决。


技术实现思路

1、为解决上述技术问题,本专利技术提出一种基于行为树与强化学习的混合编程方法的技术方案,以解决上述技术问题。

2、本专利技术第一方面公开了一种基于行为树与强化学习的混合编程方法,所述方法包括:

3、步骤s1、根据任务需求,构建行为树;所述行为树包括一系列的行为节点和决策节点;...

【技术保护点】

1.一种基于行为树与强化学习的混合编程方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤S1中,所述行为节点表示具体的行为操作;决策节点表示根据环境状态做出决策的节点,每个所述决策节点都有一个执行策略,用于指导节点的行为;

3.根据权利要求2所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤S3中,所述使用强化学习算法训练任务模型的方法包括:

4.根据权利要求3所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤S4中,所述将训练好的任务模型嵌入到所...

【技术特征摘要】

1.一种基于行为树与强化学习的混合编程方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤s1中,所述行为节点表示具体的行为操作;决策节点表示根据环境状态做出决策的节点,每个所述决策节点都有一个执行策略,用于指导节点的行为;

3.根据权利要求2所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤s3中,所述使用强化学习算法训练任务模型的方法包括:

4.根据权利要求3所述的一种基于行为树与强化学习的混合编程方法,其特征在于,在所述步骤s4中,所述将训练好的任务模型嵌入到所述行为树中的方法包括:

5.一种用于基于行为树与强化学习的混合编程系统,其特征在于,所述系统包括:

6.根据权利要求5所述的一种基于行为树与强化学习的混合编程系统,其特征在于,所述行为节点表示...

【专利技术属性】
技术研发人员:赵亮鞠鸿彬何晓张鹏翼顾启佳
申请(专利权)人:中国船舶集团有限公司系统工程研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1