经验适配器和语言模型结合的持续任务规划系统及方法技术方案

技术编号：41295271 阅读：18 留言：0更新日期：2024-05-13 14:44

本发明专利技术属于持续任务规划技术领域，公开了一种经验适配器和语言模型结合的持续任务规划系统及方法，包括基于预训练语言模型的策略网络、记忆适配器和规则适配器；基于预训练语言模型的策略网络能够根据当前的任务目标和状态信息输出任务规划的结果；记忆适配器由记忆图和基于记忆的探索组成，基于记忆的探索是指记忆适配器基于记忆图对上述基于预训练语言模型的策略网络得到的任务规划的结果提供指导，通过采用的策略概率的修改任务规划结果为探索在及记忆图中与任务更相关的环境；规则适配器包含人类反馈组成的条件规则，用于纠正任务规划结果中与人类期望不符的行为。本发明专利技术能够显著改善任务的执行效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理、持续任务规划、信息处理和算法，尤其涉及一种经验适配器和语言模型结合的持续任务规划系统及方法。

技术介绍

1、目前，任务规划作为一种高层次的决策过程，广泛应用于决策、操纵、导航等各种机器人应用中。在传统的基于语言模型的任务规划中，任务的执行通常集中在单个任务上。然而，在实际应用中，现有的语言模型在持续任务规划方面存在一些挑战，主要的问题在于虽然预训练语言模型具有较强的任务规划能力，但是很难将先前任务的经验无缝地融入到模型中，而不导致灾难性遗忘或过度拟合模型参数。例如：在面对日常家务任务时，机器人需要连续执行一系列不同的任务，这些任务可能涉及刷碗、整理桌子以及放置餐具等，并且前一个任务的经验可以被用来优化后续任务的执行，但是现有的基于语言模型的任务规划只是孤立的执行单个任务，而不能利用先前任务执行的经验更好的完成后续任务。

2、对此，面对现有的语言模型在持续任务规划方面存在的挑战，我们需要设计一种方案使得基于语言模型的任务规划方法能够利用先前任务完成时的经验，以便更好的进行持续的任务规划。

r/>

技本文档来自技高网...

【技术保护点】

1.一种经验适配器和语言模型结合的持续任务规划系统，其特征在于，包括基于预训练语言模型的策略网络、记忆适配器和规则适配器；
2.根据权利要求1所述的持续任务规划系统，其特征在于，所述任务目标和状态信息是自然语言形式的文本，接收的状态信息包括任务目标完成度、历史动作和当前环境观察；所述任务规划的结果是下一步的行动或决策，表示为离散的动作或连续的动作参数。
3.根据权利要求1所述的持续任务规划系统，其特征在于，基于预训练语言模型的策略网络匹配预训练语言模型输入格式，当预训练语言模型只能接受向量输入时，基于预训练语言模型的策略网络将当前的任务目标和状态信息编码为向量作为...

【技术特征摘要】

1.一种经验适配器和语言模型结合的持续任务规划系统，其特征在于，包括基于预训练语言模型的策略网络、记忆适配器和规则适配器；
2.根据权利要求1所述的持续任务规划系统，其特征在于，所述任务目标和状态信息是自然语言形式的文本，接收的状态信息包括任务目标完成度、历史动作和当前环境观察；所述任务规划的结果是下一步的行动或决策，表示为离散的动作或连续的动作参数。
3.根据权利要求1所述的持续任务规划系统，其特征在于，基于预训练语言模型的策略网络匹配预训练语言模型输入格式，当预训练语言模型只能接受向量输入时，基于预训练语言模型的策略网络将当前的任务目标和状态信息编码为向量作为输入；在预训练语言模型输出为向量格式时，将当前的输出映射到对应的离散的动作或决策；在预训练语言模型输出为向量格式时，将当前的输出映射到对应的离散的动作或决策。
4.根据权利要求1所述的持续任务规划系统，其特征在于，所述记...

【专利技术属性】
技术研发人员：胡拓成，周天，张嘉韬，宋伟，朱世强，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

上一篇：一种摄像头眩光旋转测试装置制造方法及图纸
下一篇：一种有机肥加工用造粒抛圆装置制造方法及图纸

相关技术

一种基于多智能体协同的表格转文本生成...

通过分级特征融合构建脑电数据与情绪状...

一种基于复用驱动机构的三栖机器人制造...

一种基于动态微批次调度的分布式大模型...

一种热稳定性提升的亚胺还原酶突变体及...

一种用于MIPI模拟前端的高速接口电...

螺旋藻细胞外囊泡载虾青素水凝胶及其制...

一种磷化钯镍催化剂及其制备方法与应用...

基于抽水蓄能需求侧电力响应促进城市景...

基于灵活性共享的电力需求响应协同优化...

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术

一种基于ZYNQ的四通道图像锐化系统...

一种输电线类地理信息数据处理方法和装...

一种建筑工程造价信息管理方法、系统及...

人脸溯源方法、装置、电子设备及存储介...

一种资源调度方法和相关设备技术

一种基于RFID标签的盘点校验系统、...

可见光图像引导红外图像的超分辨率方法...

一种穿透式液冷散热系统及服务器机箱技...