【技术实现步骤摘要】
本专利技术涉及无人系统模仿学习领域,特别是涉及一种面向动态场景的无人系统搜索和规划策略优化方法、装置、介质及产品。
技术介绍
1、在机器人、无人车等智能体的目标搜索和路径规划任务中,模仿学习可以使智能体的行为动作尽可能地向专家演示轨迹靠齐,直接从实际经验中学习到有效的策略,无需对环境进行深入的建模或者规划,提升了学习效率。然而模仿学习大都基于静态数据集进行训练,这在一定程度上限制了所学策略的泛化能力,当专家演示数据较少或环境发生变化时,智能体的行为决策能力会受到极大影响。例如在目标搜索任务中,机器人智能体难以从目标位置固定的演示数据集中学习到目标位置变化的搜索策略。又如在路径规划任务中,若演示数据集只包含了特定的路线和场景,而实际环境中可能存在新的道路、交通状况变化或障碍物出现,无人车可能无法有效地适应。
2、针对上述问题,目前主流方法是通过扩大和丰富演示数据来提高模型的泛化能力,但此类方法需要收集大量具有多样性的决策数据,较为消耗人力物力,不适用于实际任务场景。还有一些方法通过数据增强的方式对已有的演示数据进行变换、扩充或
...【技术保护点】
1.一种面向动态场景的无人系统搜索和规划策略优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的面向动态场景的无人系统搜索和规划策略优化方法,其特征在于,基于所述混合样本数据计算混合权重衰减因子,具体包括:
3.根据权利要求2所述的面向动态场景的无人系统搜索和规划策略优化方法,其特征在于,根据所述混合样本数据,确定自主行为决策模型的损失,具体包括:
4.根据权利要求1所述的面向动态场景的无人系统搜索和规划策略优化方法,其特征在于,所述策略模型的强化学习目标损失的表达式为:
5.根据权利要求4所述的面向动态场景的
...【技术特征摘要】
1.一种面向动态场景的无人系统搜索和规划策略优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的面向动态场景的无人系统搜索和规划策略优化方法,其特征在于,基于所述混合样本数据计算混合权重衰减因子,具体包括:
3.根据权利要求2所述的面向动态场景的无人系统搜索和规划策略优化方法,其特征在于,根据所述混合样本数据,确定自主行为决策模型的损失,具体包括:
4.根据权利要求1所述的面向动态场景的无人系统搜索和规划策略优化方法,其特征在于,所述策略模型的强化学习目标损失的表达式为:
5.根据权利要求4所述的面向动态场景的无人系统搜索和规划策略优化方法,其特征在于,所述策略模型的模仿学习目标损失的表达式为:
6.根据权利要求5所述的面向动态场景的无人系统搜索和规划策略优化方法,其特征在于,所...
【专利技术属性】
技术研发人员:骆祥峰,谢少荣,王欣芝,李洋,李玉峰,陈璐瑶,
申请(专利权)人:上海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。