一种大模型工具调用精度评估方法技术

技术编号：41946506 阅读：32 留言：0更新日期：2024-07-10 16:36

本发明专利技术公开了一种大模型工具调用精度评估方法，涉及人工智能技术领域，步骤S1：获取用户请求任务输入大模型后获得的大模型输出结果，基于所述大模型输出结果中工具调用的任务进行工具评估，获得大模型工具对应的工具标签；步骤S2：基于不同的应用场景为工具调用的任务设计对应的调用指标，基于调用指标分别获得工具调用评估信息；调用标签，基于用户请求任务对应工具标签的相似度匹配筛选用户调用工具；通过对大模型工具调用类流程的评估，并输出相应的指标，不仅可以提升模型的性能，还可以优化用户体验，增强系统的稳定性和鲁棒性，以及指导模型的进一步优化和泛化能力的提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种大模型工具调用精度评估方法。

技术介绍

1、大语言模型使用大量的文本数据进行训练，展现出了很强的语言理解能力和推理能力，以及拥有很宽泛的世界知识，但是要将它投入实际使用，还是会有很多问题，其中最重要的一个问题就是如何减少它生成内容的出错，其中最容易出错的场景有两种：

2、对于在大语言模型训练数据集没有包括的知识(例如训练数据集截止时间后的知识或者实际业务中客户私有的知识)，直接调用大语言模型无法做出相关内容的生成；对于很多专业问题(例如数学计算等)，直接调用大语言模型生成的内容经常会出错；

3、对于上述问题，由于大语言模型表现出的很强的推理能力与广泛的知识，令他调用各类工具解决这些问题是有可能的。但是由于目前大语言模型能力不足，以及相关调用工具的环境体系等不够完善，目前大语言模型调用工具的精度较低，还需要优化改善。但是目前提升精度面对的指标大多是一些端到端的指标，这些指标通常是针对一些数据集的qa(问答)任务，这些指标不能帮助我们准确地分析定位到目前大语言模型调用工具时内部的问题和缺陷。

<本文档来自技高网...

【技术保护点】

1.一种大模型工具调用精度评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种大模型工具调用精度评估方法，其特征在于：所述工具标签包括工具调用标签、负工具调用标签和退出标签；

3.根据权利要求1或2所述的一种大模型工具调用精度评估方法，其特征在于：所述工具评估的评估逻辑为：

4.根据权利要求1或2所述的一种大模型工具调用精度评估方法，其特征在于：所述工具标签的获取逻辑：

5.根据权利要求1或2所述的一种大模型工具调用精度评估方法，其特征在于：所述应用场景包括工具调用场景、负样本退出场景和直接退出场景；>

6.一种电子...

【技术特征摘要】

1.一种大模型工具调用精度评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种大模型工具调用精度评估方法，其特征在于：所述工具标签包括工具调用标签、负工具调用标签和退出标签；

3.根据权利要求1或2所述的一种大模型工具调用精度评估方法，其特征在于：所述工具评估的评估逻辑为：

4.根据权利要求1或2所述的一种大模型工具调用精度评估方法，其特征在于：...

【专利技术属性】
技术研发人员：戴国浩，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人