一种基于大语言模型分步推理的检索增强决策控制器制造技术

技术编号:41507687 阅读:30 留言:0更新日期:2024-05-30 14:47
本发明专利技术公开了一种基于大语言模型分步推理的检索增强决策控制器,涉及大语言模型控制器领域,大语言模型模块利用预训练的大语言模型,基于当前观测及历史轨迹信息进行推理,并根据推理的内容从预先标注的外部记忆中检索最相似的专家步骤,预测最终的动作输出;推理标注模块为外部记忆中的每个示例步骤提供推理过程;推理检索模块基于外部记忆中所有步骤的标注推理内容,利用分步推理检索方法,为每个时间步选择相关示例;增强决策模块对检索出的专家步骤样例进行处理,并将处理后的专家步骤样例作为示例。本发明专利技术在决策任务的每一步根据当前状态某种形式的抽象选取合适的专家示例,检索得到的专家示例与决策状态更相关、更能提升决策性能。

【技术实现步骤摘要】

本专利技术涉及大语言模型控制器领域,尤其涉及一种基于大语言模型分步推理的检索增强决策控制器


技术介绍

1、大语言模型(large language model,llm)[3,30]由于其广泛的知识和出色的文本理解与生成能力,在诸如问答[41]、聊天机器人[18]和代码合成[22]等各种任务中取得了巨大的成功。最近,一系列研究尝试基于llm构建性能出色的控制器,用于各种序列决策任务,包括基于文本的游戏[39]、在线购物[38]、网页导航[4]和信息检索[44]。

2、在现有的llm控制器中,有些是通过监督微调(supervised fine-tuning,sft)[7,8,16]使用大规模专家数据进行训练的,而有些则无需微调,直接使用少量专家示例利用上下文学习(in-context learning,icl)[12,32,40,42]。大多数现有基于icl的控制器在人工精心选择的专家轨迹的提示下表现良好[26,36,40]。然而,当能够使用包含大量专家轨迹的数据集或专家策略时,自动为每个任务指令选择合适的专家轨迹变得必要,这将对任务性能产生重要本文档来自技高网...

【技术保护点】

1.一种基于大语言模型分步推理的检索增强决策控制器,其特征在于,所述检索增强决策控制器对所处的状态进行推理,根据推理内容从外部记忆中检索相似的步骤,并结合与检索结果在时序上相邻的步骤及其相对位置信息来预测动作,所述检索增强决策控制器包括大语言模型模块、推理标注模块、推理检索模块、增强决策模块和任务环境模块,其中,

2.如权利要求1所述的检索增强决策控制器,其特征在于,所述检索增强决策控制器为序列决策任务提供更多相关示例,并减少无关上下文;所述检索增强决策控制器在不同时间步骤中检索完全不同的步骤,并为检索结果补充时序信息;所述检索增强决策控制器为记忆中的专家轨迹准备接近最优的推...

【技术特征摘要】

1.一种基于大语言模型分步推理的检索增强决策控制器,其特征在于,所述检索增强决策控制器对所处的状态进行推理,根据推理内容从外部记忆中检索相似的步骤,并结合与检索结果在时序上相邻的步骤及其相对位置信息来预测动作,所述检索增强决策控制器包括大语言模型模块、推理标注模块、推理检索模块、增强决策模块和任务环境模块,其中,

2.如权利要求1所述的检索增强决策控制器,其特征在于,所述检索增强决策控制器为序列决策任务提供更多相关示例,并减少无关上下文;所述检索增强决策控制器在不同时间步骤中检索完全不同的步骤,并为检索结果补充时序信息;所述检索增强决策控制器为记忆中的专家轨迹准备接近最优的推理过程,以便在原始数据不包含推理过程的情况下实现检索,并将单步推理同时用作查询和键进行精确检索。

3.如权利要求2所述的检索增强决策控制器,其特征在于,在测试开始前,使用所述大语言模型模块基于少量人类示例为外部记忆中的所有专家交互数据产生推理内容;每个任务流程开始时,所述任务环境模块给出与任务有关的元数据,所述元数据包括任务指令和任务领域信息,所述检索增强决策控制器在分步推理时使用根据所述元数据检索的相关轨迹作为示例,任务流程的每一步中,所述大语言模型模块给定当前观测及历史轨迹信息进行推理,并根据推理的内容从预先标注的外部记忆中检索最相似的专家步骤,所述专家步骤样例经过所述增强决策模块处理后作为示例,由所述检索增强决策控制器预测最终的动作输出。

4.如权利要求3所述的检索增强决策控制器,其特征在于,所述推理标注模块为外部记忆中的每个示例步骤提供推...

【专利技术属性】
技术研发人员:张伟楠周睿文杨滢轩温睦宁温颖徐国强
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1