一种数据集调整方法、装置、设备及介质制造方法及图纸

技术编号:46585384 阅读:2 留言:0更新日期:2025-10-10 21:22
本发明专利技术公开了一种数据集调整方法、装置、设备及介质。该方法包括:从原始数据集中抽取目标数量的候选集;针对各所述候选集,对所述候选集中数据进行增删调整,生成所述候选集对应的备选集;获取至少一个测试模型针对各所述备选集的准确率;根据各所述备选集的准确率,筛选所述目标数量的备选集,并更新候选集;根据各所述候选集的准确率,确定目标数据集。本发明专利技术实施例可以在兼顾数据集的代表性的同时提高数据集的评测效率。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,尤其涉及一种数据集调整方法、装置、设备及介质


技术介绍

1、大语言模型是在人工智能技术上的突破性发展,在多项能力上都有非常突破性的表现。大语言模型的评估依赖于大规模和跨领域的评测数据集,才能全面反应大语言模型在不同场景中的表现。

2、然而在当前的大语言模型评测中,大语言模型的运行需要较高算力成本,并且评测时间较长,这会降低大语言模型分析迭代的效率。


技术实现思路

1、本专利技术提供了一种数据集调整方法、装置、设备及介质,可以在兼顾数据集的代表性的同时提高数据集的评测效率。

2、第一方面,本专利技术实施例提供了一种数据集调整方法,该方法包括:

3、从原始数据集中抽取目标数量的候选集;

4、针对各所述候选集,对所述候选集中数据进行增删调整,生成所述候选集对应的备选集;

5、获取至少一个测试模型针对各所述备选集的准确率;

6、根据各所述备选集的准确率,筛选所述目标数量的备选集,并更新候选集;p>

7、根据各本文档来自技高网...

【技术保护点】

1.一种数据集调整方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述候选集中数据进行增删调整,包括下述至少一项:

3.根据权利要求1所述的方法,其特征在于,所述根据各所述备选集的准确率,筛选所述目标数量的备选集,并更新候选集,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据各所述测试模型针对各所述备选集的准确率差值,计算各所述备选集的准确率方差,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据各所述候选集的准确率,确定目标数据集,包括:

6.根据权利要求1所述的方法,其特征...

【技术特征摘要】

1.一种数据集调整方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述候选集中数据进行增删调整,包括下述至少一项:

3.根据权利要求1所述的方法,其特征在于,所述根据各所述备选集的准确率,筛选所述目标数量的备选集,并更新候选集,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据各所述测试模型针对各所述备选集的准确率差值,计算各所述备选集的准确率方差,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据各所述候选集的准确率,确定目...

【专利技术属性】
技术研发人员:林弼远周界徐萌
申请(专利权)人:北京面壁智能科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1