【技术实现步骤摘要】
本公开涉及人工智能领域,具体涉及一种通过细粒度分类建模提升大语言模型代理评测准确度的方法、装置。
技术介绍
1、大语言模型(large language model, llm)极大推进了自然语言处理领域的边界,使其能够分析复杂问题、调用各类工具以完成指令,从而形成大语言模型代理(largelanguage model agent,llm agent)的新范式。
2、现有的涉及到真实工具api交互的大语言模型代理评测方法,通常有先进大语言模型代理评估和人工评估两种。
3、在实现本公开专利技术构思的过程中,专利技术人发现相关技术的应用至少存在以下问题:评估结果不准确且效率低。
技术实现思路
1、鉴于上述问题,本公开提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的方法、装置。
2、根据本公开的第一个方面,提供了一种通过细粒度分类建模提升大语言模型代理评测准确度的方法,包括:将目标指令输入至大语言模型中,得到模型执行结果工具调取结果,其中,工具调取结果
...【技术保护点】
1.一种通过细粒度分类建模提升大语言模型代理评测准确度的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定模型参考结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述指令类型包括固定式指令类型,所述固定式指令类型表征所述模型参考结果唯一的类型;
4.根据权利要求2所述的方法,其特征在于,所述指令类型包括开放式指令类型,所述开放式指令类型表征所述模型参考结果不唯一的类型;
5.根据权利要求2所述的方法,其特征在于,所述指令类型包括实时式指令类型,所述实时式指令类型表征模型输出结果随
...【技术特征摘要】
1.一种通过细粒度分类建模提升大语言模型代理评测准确度的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定模型参考结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述指令类型包括固定式指令类型,所述固定式指令类型表征所述模型参考结果唯一的类型;
4.根据权利要求2所述的方法,其特征在于,所述指令类型包括开放式指令类型,所述开放式指令类型表征所述模型参考结果不唯一的类型;
5.根据权利要求2所述的方法,其特征在于,所述指令类型包括实时式指令类型,所述实时式指令类型表征模型...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。