大语言模型的评估方法和评估装置、电子设备及存储介质制造方法及图纸

技术编号:43945226 阅读:17 留言:0更新日期:2025-01-07 21:34
本申请实施例提供了一种大语言模型的评估方法和评估装置、电子设备及存储介质,属于模型检测技术领域。该方法包括:获取业务场景中各应用场景的特征信息;根据各应用场景的特征信息,确定各应用场景对应的模型评估方式;对于各应用场景,采用应用场景对应的模型评估方式,对大语言模型在应用场景的应用进行评估,得到应用场景对应的模型评估结果;根据各应用场景对应的模型评估结果,确定大语言模型的目标评估结果。本申请实施例能够基于不同的应用场景选择不同的模型评估方式对大语言模型进行评估,进而可以提高大语言模型评估的准确性。

【技术实现步骤摘要】

本申请涉及模型检测,尤其涉及一种大语言模型的评估方法和评估装置、电子设备及存储介质


技术介绍

1、通过对大语言模型进行评估,可以确定大语言模型在生成答案、理解文本和执行任务方面的准确性。

2、现有的大语言模型的评估一般采用对比评估的方式对大语言模型进行评估。但是,对比评估的方式只能评估有固定标准答案的问题,若大语言模型用于无固定标准答案的问题的答案生成,此时采用对比评估的方式对大语言模型进行评估,将导致大语言模型的评估准确性较低。


技术实现思路

1、本申请实施例的主要目的在于提出一种大语言模型的评估方法和评估装置、电子设备及存储介质,旨在提高大语言模型评估的准确性。

2、为实现上述目的,本申请实施例的第一方面提出了一种一种大语言模型的评估方法,所述评估方法包括:

3、获取业务场景中各应用场景的特征信息;

4、根据各应用场景的特征信息,确定各应用场景对应的模型评估方式;

5、对于各应用场景,采用应用场景对应的模型评估方式,对大语言模型在应用场景的应用本文档来自技高网...

【技术保护点】

1.一种大语言模型的评估方法,其特征在于,所述评估方法包括:

2.根据权利要求1所述的评估方法,其特征在于,所述应用场景的特征信息包括测试问题的问题类型,所述问题类型包括主观题和客观题;

3.根据权利要求1所述的评估方法,其特征在于,所述业务场景包括第一应用场景,所述第一应用场景对应的模型评估方式为裁判员模型评估;

4.根据权利要求3所述的评估方法,其特征在于,在所述第一信息中,所述预设基准答案以及所述第一大语言模型答案以第一排列顺序排列;

5.根据权利要求3所述的评估方法,其特征在于,所述根据各裁判员模型对应的第一评分集合,确定所述第一应...

【技术特征摘要】

1.一种大语言模型的评估方法,其特征在于,所述评估方法包括:

2.根据权利要求1所述的评估方法,其特征在于,所述应用场景的特征信息包括测试问题的问题类型,所述问题类型包括主观题和客观题;

3.根据权利要求1所述的评估方法,其特征在于,所述业务场景包括第一应用场景,所述第一应用场景对应的模型评估方式为裁判员模型评估;

4.根据权利要求3所述的评估方法,其特征在于,在所述第一信息中,所述预设基准答案以及所述第一大语言模型答案以第一排列顺序排列;

5.根据权利要求3所述的评估方法,其特征在于,所述根据各裁判员模型对应的第一评分集合,确定所述第一应用场景对应的模型评估结果,包括:

6.根据权利要求1所述的评估方法,其特征在...

【专利技术属性】
技术研发人员:刘纹石
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1