【技术实现步骤摘要】
本申请涉及模型评估,尤其涉及一种评测子集选择方法、装置、电子设备及存储介质。
技术介绍
1、随着大语言模型(large language model,llm)规模的不断扩大,对其性能进行全面评估成为人工智能领域的重要需求。
2、相关技术中,通过大规模基准测试集(如mmlu、hellaswag、gsm8k等)对模型进行多任务、多维度的准确率统计的方式,对大语言模型进行性能评估。
3、然而,直接利用大规模基准测试集对模型进行多任务、多维度评估统计的方式,计算开销大、成本高。
技术实现思路
1、本申请提供一种评测子集选择方法、装置、电子设备及存储介质,至少在一定程度上克服了相关技术中计算开销大、成本高的问题。
2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
3、根据本申请的一个方面,提供了一种评测子集选择方法,包括:获取基准测试集的得分向量,所述基准测试集的得分向量基于多个语言模型对所述基准测试集进行预测得
...【技术保护点】
1.一种评测子集选择方法,其特征在于,包括:
2.根据权利要求1所述的评测子集选择方法,其特征在于,所述从所述基准测试集中选取出备选评测子集,包括:
3.根据权利要求2所述的评测子集选择方法,其特征在于,所述预设数量为1。
4.根据权利要求1所述的评测子集选择方法,其特征在于,所述备选评测子集被选中的概率如下公式所示:
5.根据权利要求1所述的评测子集选择方法,其特征在于,还包括:
6.一种评测子集选择方法,其特征在于,包括:
7.一种评测子集选择装置,其特征在于,包括:
8.一种评测
...【技术特征摘要】
1.一种评测子集选择方法,其特征在于,包括:
2.根据权利要求1所述的评测子集选择方法,其特征在于,所述从所述基准测试集中选取出备选评测子集,包括:
3.根据权利要求2所述的评测子集选择方法,其特征在于,所述预设数量为1。
4.根据权利要求1所述的评测子集选择方法,其特征在于,所述备选评测子集被选中的概率如下公式所示:
5.根据权利要求1所述的评测子集选择方...
【专利技术属性】
技术研发人员:熊德意,李国鸿,
申请(专利权)人:天津摩梯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。