当前位置: 首页 > 专利查询>清华大学专利>正文

基于大模型的任务执行方法和装置制造方法及图纸

技术编号:42504556 阅读:49 留言:0更新日期:2024-08-22 14:18
本发明专利技术提供一种基于大模型的任务执行方法和装置,包括将获取得到的任务需求输入至预先构建的大模型模块,基于所述大模型模块根据所述任务需求进行任务拆分,得到至少一个子任务;基于所述大模型模块及与所述大模型模块连接的预先构建的程序执行模块执行所述子任务并整合所述子任务的执行结果,得到第一综合结果;在所述第一综合结果不满足所述任务需求的情况下,基于所述大模型模块对所述子任务和/或子任务的执行结果进行优化,得到任务执行结果。本发明专利技术基于大模型模块进行大模型知识通用分析能力、代码生成能力与计算机精确执行代码能力的融合,实现性能更好的基于大模型的逻辑推理,从而更好的完成用户任务。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种基于大模型的任务执行方法和装置


技术介绍

1、随着人工智能的发展,神经网络被应用于各行各业,尤其是近年来大语言模型(llm)的发展使得人工智能的水平获得了巨大提升。但llm等神经网络模型存在严重的“幻觉”问题,即有时其只会输出看起来多样完整的回答,但是并不符合事实和逻辑。另外,llm等神经网络模型不具备精确逻辑推理的能力,使得其无法准确的按步骤完成某一精确程序。比如,在一些llm的使用场景中,其可以非常轻松的生成完成某项任务的代码,但可能无法给出一个简单的数学问题的答案。而传统的计算机程序恰恰会按照程序定义的过程准确执行,但其不具备在程序范围之外的泛化能力以及利用通用知识的能力。

2、为了解决这个问题以最大程度利用llm的强大的组合泛化能力,一些研究在输入中加入合理的引导。如何设计更好的输入引导大模型得到想要的输出的过程称作prompt工程。进一步地,一种prompt工程相关的技术称作思维链(cot)。cot与few-show prompting都是常用的构建llm输入的技术,除此之外还有各种各样的prom本文档来自技高网...

【技术保护点】

1.一种基于大模型的任务执行方法,其特征在于,包括:

2.根据权利要求1所述的基于大模型的任务执行方法,其特征在于,所述基于所述大模型模块根据所述任务需求进行任务拆分,得到至少一个子任务,具体包括:

3.根据权利要求2所述的基于大模型的任务执行方法,其特征在于,所述基于所述大模型模块及与所述大模型模块连接的预先构建的程序执行模块执行所述子任务并整合所述子任务的执行结果,得到第一综合结果,具体包括:

4.根据权利要求1所述的基于大模型的任务执行方法,其特征在于,所述大语言模型是基于深度神经网络利用预先构建的训练数据集采用混合训练的方式训练得到的;其中,所...

【技术特征摘要】

1.一种基于大模型的任务执行方法,其特征在于,包括:

2.根据权利要求1所述的基于大模型的任务执行方法,其特征在于,所述基于所述大模型模块根据所述任务需求进行任务拆分,得到至少一个子任务,具体包括:

3.根据权利要求2所述的基于大模型的任务执行方法,其特征在于,所述基于所述大模型模块及与所述大模型模块连接的预先构建的程序执行模块执行所述子任务并整合所述子任务的执行结果,得到第一综合结果,具体包括:

4.根据权利要求1所述的基于大模型的任务执行方法,其特征在于,所述大语言模型是基于深度神经网络利用预先构建的训练数据集采用混合训练的方式训练得到的;其中,所述训练数据集包括任务拆分数据集、任务分类数据集和程序生成数据集;所述混合训练包括任务拆分训练、任务分类训练、代码生成或优化训练中的一种或多种的组合;其中,所述任务拆分训练包括基于深度神经网络利用所述任务拆分数据集采用预设训练算法进行训练,以学习任务拆分数据集中输入的任务需求输入和输出的子任务的对应关系;所述任务分类训练包括基于深度神经网络利用所述任务分类数据集采用预设训练算法进行训练,以学习所述任务分类数据集中输入的子任务和输出的子任务分类的对应关系,所述代码生成或优化训练包括基于深度神经网络利用所述程序生成数据集采用预设训练算法进行训练,以学习所...

【专利技术属性】
技术研发人员:施路平牛彤张伟豪赵蓉
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1