一种基于大语言模型先验知识的推理状态控制方法及装置制造方法及图纸

技术编号:42397719 阅读:33 留言:0更新日期:2024-08-16 16:20
本发明专利技术涉及数据处理技术领域,特别是指一种基于大语言模型先验知识的推理状态控制方法及装置,该方法应用于自动驾驶离散化导航问题、集装箱堆叠问题、货物码放问题和自然语言文本下的文字数值计算问题,方法包括:获取无人系统决策推理的样本数据集;使用样本数据集、以及由ATE因果效应估计算法与交叉熵组成的损失函数,对初始的大语言模型进行训练;获取长程行动决策问题,构建因果概率树,确定剪枝和展开方向的优化问题,进而将长程行动决策问题切分为多个短程行动决策问题;使用训练好的大语言决策推理模型对多个短程行动决策问题进行求解,进而完成行动。采用本发明专利技术,可以解决大语言模型在长程推理任务中因果幻觉的问题,提高了推理的准确性。

【技术实现步骤摘要】

本专利技术涉及数据处理,特别是指一种基于大语言模型先验知识的推理状态控制方法及装置


技术介绍

1、大语言模型llm智能决策的核心部分在于规划,它包括生成一系列旨在实现预定目标的行动。经典的规划方法在机器人学和具身环境中得到了广泛应用,通常用于指导外部决策过程。思维链模型(chain-of-thoughtmodel)等最新进展极大地增强了llms执行详细推理的能力。该模型将复杂的查询分解成一系列易于管理的步骤,从而提高了大语言模型的决策能力。react等后续举措对这一方法进行了修改,以使用基于chain-of-thought的框架提高决策环境中的推理能力。此外,“反思”还提供了一种纠正机制,使当地语言学习者能够认识到自己在决策过程中的错误,对这些错误进行反思,并在随后的尝试中做出准确的决策。进一步的发展促成了基于树形结构的决策框架的诞生,这种框架可以根据特定场景调整llm的能力。思维树利用广度优先搜索(bfs)和深度优先搜索(dfs)算法促进决策。同时,规划推理(rap)采用蒙特卡洛树搜索技术来优化任务的解决方案。dfsdt提出了一种高效的dfs版本,用于本文档来自技高网...

【技术保护点】

1.一种基于大语言模型先验知识的推理状态控制方法,所述方法应用于自动驾驶离散化导航问题、集装箱堆叠问题、货物码放问题和自然语言文本下的文字数值计算问题,其特征在于,所述方法包括:

2.根据权利要求1所述的基于大语言模型先验知识的推理状态控制方法,其特征在于,所述S1的获取用于模型训练的无人系统决策推理的样本数据集,包括:

3.根据权利要求1所述的基于大语言模型先验知识的推理状态控制方法,其特征在于,所述S2的使用样本数据集、以及由ATE因果效应估计算法与交叉熵组成的损失函数,对初始的大语言模型进行训练,得到训练好的大语言决策推理模型,包括:p>

4.根据权...

【技术特征摘要】

1.一种基于大语言模型先验知识的推理状态控制方法,所述方法应用于自动驾驶离散化导航问题、集装箱堆叠问题、货物码放问题和自然语言文本下的文字数值计算问题,其特征在于,所述方法包括:

2.根据权利要求1所述的基于大语言模型先验知识的推理状态控制方法,其特征在于,所述s1的获取用于模型训练的无人系统决策推理的样本数据集,包括:

3.根据权利要求1所述的基于大语言模型先验知识的推理状态控制方法,其特征在于,所述s2的使用样本数据集、以及由ate因果效应估计算法与交叉熵组成的损失函数,对初始的大语言模型进行训练,得到训练好的大语言决策推理模型,包括:

4.根据权利要求3所述的基于大语言模型先验知识的推理状态控制方法,其特征在于,所述样本数据集为自动驾驶导航样本数据、集装箱堆叠样本数据或自然语言文本样本数据;

5.根据权利要求1所述的基于大语言模型先验知识的推理状态控制方法,其特征在于,所述s3的获取长程行动决策问题,根据长程行动决策问题构建因果概率树,根据因果概率树确定剪枝和展开方向的...

【专利技术属性】
技术研发人员:胡天宇王康晟张霄刘浩韩松德马惠敏
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1