通过细粒度分类建模提升大语言模型代理评测准确度的方法、装置制造方法及图纸

技术编号：43512809 阅读：28 留言：0更新日期：2024-11-29 17:14

本公开提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的方法，可以应用于人工智能技术领域。该通过细粒度分类建模提升大语言模型代理评测准确度的方法包括：将目标指令输入至大语言模型中，得到模型执行结果以及工具调取结果，其中，工具调取结果表征在大语言模型运行过程中调用工具的能力；确定模型参考结果和工具参考结果，其中，模型参考结果和工具参考结果均为按照与目标指令相匹配的方式确定的；基于模型执行结果和模型参考结果，确定任务完成评估结果；基于工具调取结果和工具参考结果，确定工具调用评估结果。本公开还提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的装置。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能领域，具体涉及一种通过细粒度分类建模提升大语言模型代理评测准确度的方法、装置。

技术介绍

1、大语言模型（large language model， llm）极大推进了自然语言处理领域的边界，使其能够分析复杂问题、调用各类工具以完成指令，从而形成大语言模型代理（largelanguage model agent，llm agent）的新范式。

2、现有的涉及到真实工具api交互的大语言模型代理评测方法，通常有先进大语言模型代理评估和人工评估两种。

3、在实现本公开专利技术构思的过程中，专利技术人发现相关技术的应用至少存在以下问题：评估结果不准确且效率低。

技术实现思路

1、鉴于上述问题，本公开提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的方法、装置。

2、根据本公开的第一个方面，提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的方法，包括：将目标指令输入至大语言模型中，得到模型执行结果工具调取结果，其中，工具调取结果...

【技术保护点】

1.一种通过细粒度分类建模提升大语言模型代理评测准确度的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定模型参考结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述指令类型包括固定式指令类型，所述固定式指令类型表征所述模型参考结果唯一的类型；

4.根据权利要求2所述的方法，其特征在于，所述指令类型包括开放式指令类型，所述开放式指令类型表征所述模型参考结果不唯一的类型；

5.根据权利要求2所述的方法，其特征在于，所述指令类型包括实时式指令类型，所述实时式指令类型表征模型输出结果随

【技术特征摘要】

1.一种通过细粒度分类建模提升大语言模型代理评测准确度的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定模型参考结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述指令类型包括固定式指令类型，所述固定式指令类型表征所述模型参考结果唯一的类型；

4.根据权利要求2所述的方法，其特征在于，所述指令类型包括开放式指令类型，所述开放式指令类型表征所述模型参考结果不唯一的类型；

5.根据权利要求2所述的方法，其特征在于，所述指令类型包括实时式指令类型，所述实时式指令类型表征模型...

【专利技术属性】
技术研发人员：熊德意，郭紫珊，黄宇霏，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人