评测子集选择方法、装置、电子设备及存储介质制造方法及图纸

技术编号:46591908 阅读:0 留言:0更新日期:2025-10-10 21:25
本申请提供了一种评测子集选择方法、装置、电子设备及存储介质,涉及模型评估技术领域。获取基准测试集的得分向量;从所述基准测试集中进行预设轮次的挑选处理,每轮挑选处理包括:从所述基准测试集中选取出备选评测子集,并计算所述备选评测子集与所述基准测试集在得分向量上的差异,得到备选差异;将所述备选差异减去本轮挑选处理中的参考差异,得到差异差值;基于所述差异差值,从所述上一轮挑选出的目标评测子集与所述备选评测子集中挑选出本轮的目标评测子集。从基准评测集中选取子集进行模型评估的方式,计算开销小、成本低;且利用多轮迭代挑选的目标评测子集的评测误差小。

【技术实现步骤摘要】

本申请涉及模型评估,尤其涉及一种评测子集选择方法、装置、电子设备及存储介质


技术介绍

1、随着大语言模型(large language model,llm)规模的不断扩大,对其性能进行全面评估成为人工智能领域的重要需求。

2、相关技术中,通过大规模基准测试集(如mmlu、hellaswag、gsm8k等)对模型进行多任务、多维度的准确率统计的方式,对大语言模型进行性能评估。

3、然而,直接利用大规模基准测试集对模型进行多任务、多维度评估统计的方式,计算开销大、成本高。


技术实现思路

1、本申请提供一种评测子集选择方法、装置、电子设备及存储介质,至少在一定程度上克服了相关技术中计算开销大、成本高的问题。

2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

3、根据本申请的一个方面,提供了一种评测子集选择方法,包括:获取基准测试集的得分向量,所述基准测试集的得分向量基于多个语言模型对所述基准测试集进行预测得到的得分数据构建;从本文档来自技高网...

【技术保护点】

1.一种评测子集选择方法,其特征在于,包括:

2.根据权利要求1所述的评测子集选择方法,其特征在于,所述从所述基准测试集中选取出备选评测子集,包括:

3.根据权利要求2所述的评测子集选择方法,其特征在于,所述预设数量为1。

4.根据权利要求1所述的评测子集选择方法,其特征在于,所述备选评测子集被选中的概率如下公式所示:

5.根据权利要求1所述的评测子集选择方法,其特征在于,还包括:

6.一种评测子集选择方法,其特征在于,包括:

7.一种评测子集选择装置,其特征在于,包括:

8.一种评测子集选择装置,其特征...

【技术特征摘要】

1.一种评测子集选择方法,其特征在于,包括:

2.根据权利要求1所述的评测子集选择方法,其特征在于,所述从所述基准测试集中选取出备选评测子集,包括:

3.根据权利要求2所述的评测子集选择方法,其特征在于,所述预设数量为1。

4.根据权利要求1所述的评测子集选择方法,其特征在于,所述备选评测子集被选中的概率如下公式所示:

5.根据权利要求1所述的评测子集选择方...

【专利技术属性】
技术研发人员:熊德意李国鸿
申请(专利权)人:天津摩梯科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1