当前位置: 首页 > 专利查询>浙江大学专利>正文

经验适配器和语言模型结合的持续任务规划系统及方法技术方案

技术编号:41295271 阅读:18 留言:0更新日期:2024-05-13 14:44
本发明专利技术属于持续任务规划技术领域,公开了一种经验适配器和语言模型结合的持续任务规划系统及方法,包括基于预训练语言模型的策略网络、记忆适配器和规则适配器;基于预训练语言模型的策略网络能够根据当前的任务目标和状态信息输出任务规划的结果;记忆适配器由记忆图和基于记忆的探索组成,基于记忆的探索是指记忆适配器基于记忆图对上述基于预训练语言模型的策略网络得到的任务规划的结果提供指导,通过采用的策略概率的修改任务规划结果为探索在及记忆图中与任务更相关的环境;规则适配器包含人类反馈组成的条件规则,用于纠正任务规划结果中与人类期望不符的行为。本发明专利技术能够显著改善任务的执行效果。

【技术实现步骤摘要】

本专利技术属于自然语言处理、持续任务规划、信息处理和算法,尤其涉及一种经验适配器和语言模型结合的持续任务规划系统及方法


技术介绍

1、目前,任务规划作为一种高层次的决策过程,广泛应用于决策、操纵、导航等各种机器人应用中。在传统的基于语言模型的任务规划中,任务的执行通常集中在单个任务上。然而,在实际应用中,现有的语言模型在持续任务规划方面存在一些挑战,主要的问题在于虽然预训练语言模型具有较强的任务规划能力,但是很难将先前任务的经验无缝地融入到模型中,而不导致灾难性遗忘或过度拟合模型参数。例如:在面对日常家务任务时,机器人需要连续执行一系列不同的任务,这些任务可能涉及刷碗、整理桌子以及放置餐具等,并且前一个任务的经验可以被用来优化后续任务的执行,但是现有的基于语言模型的任务规划只是孤立的执行单个任务,而不能利用先前任务执行的经验更好的完成后续任务。

2、对此,面对现有的语言模型在持续任务规划方面存在的挑战,我们需要设计一种方案使得基于语言模型的任务规划方法能够利用先前任务完成时的经验,以便更好的进行持续的任务规划。

r/>

技本文档来自技高网...

【技术保护点】

1.一种经验适配器和语言模型结合的持续任务规划系统,其特征在于,包括基于预训练语言模型的策略网络、记忆适配器和规则适配器;

2.根据权利要求1所述的持续任务规划系统,其特征在于,所述任务目标和状态信息是自然语言形式的文本,接收的状态信息包括任务目标完成度、历史动作和当前环境观察;所述任务规划的结果是下一步的行动或决策,表示为离散的动作或连续的动作参数。

3.根据权利要求1所述的持续任务规划系统,其特征在于,基于预训练语言模型的策略网络匹配预训练语言模型输入格式,当预训练语言模型只能接受向量输入时,基于预训练语言模型的策略网络将当前的任务目标和状态信息编码为向量作为...

【技术特征摘要】

1.一种经验适配器和语言模型结合的持续任务规划系统,其特征在于,包括基于预训练语言模型的策略网络、记忆适配器和规则适配器;

2.根据权利要求1所述的持续任务规划系统,其特征在于,所述任务目标和状态信息是自然语言形式的文本,接收的状态信息包括任务目标完成度、历史动作和当前环境观察;所述任务规划的结果是下一步的行动或决策,表示为离散的动作或连续的动作参数。

3.根据权利要求1所述的持续任务规划系统,其特征在于,基于预训练语言模型的策略网络匹配预训练语言模型输入格式,当预训练语言模型只能接受向量输入时,基于预训练语言模型的策略网络将当前的任务目标和状态信息编码为向量作为输入;在预训练语言模型输出为向量格式时,将当前的输出映射到对应的离散的动作或决策;在预训练语言模型输出为向量格式时,将当前的输出映射到对应的离散的动作或决策。

4.根据权利要求1所述的持续任务规划系统,其特征在于,所述记...

【专利技术属性】
技术研发人员:胡拓成周天张嘉韬宋伟朱世强
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1