【技术实现步骤摘要】
本专利技术涉及人工智能领域,尤其涉及一种数据集调整方法、装置、设备及介质。
技术介绍
1、大语言模型是在人工智能技术上的突破性发展,在多项能力上都有非常突破性的表现。大语言模型的评估依赖于大规模和跨领域的评测数据集,才能全面反应大语言模型在不同场景中的表现。
2、然而在当前的大语言模型评测中,大语言模型的运行需要较高算力成本,并且评测时间较长,这会降低大语言模型分析迭代的效率。
技术实现思路
1、本专利技术提供了一种数据集调整方法、装置、设备及介质,可以在兼顾数据集的代表性的同时提高数据集的评测效率。
2、第一方面,本专利技术实施例提供了一种数据集调整方法,该方法包括:
3、从原始数据集中抽取目标数量的候选集;
4、针对各所述候选集,对所述候选集中数据进行增删调整,生成所述候选集对应的备选集;
5、获取至少一个测试模型针对各所述备选集的准确率;
6、根据各所述备选集的准确率,筛选所述目标数量的备选集,并更新候选集;
...【技术保护点】
1.一种数据集调整方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述候选集中数据进行增删调整,包括下述至少一项:
3.根据权利要求1所述的方法,其特征在于,所述根据各所述备选集的准确率,筛选所述目标数量的备选集,并更新候选集,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据各所述测试模型针对各所述备选集的准确率差值,计算各所述备选集的准确率方差,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据各所述候选集的准确率,确定目标数据集,包括:
6.根据权利要求
...【技术特征摘要】
1.一种数据集调整方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述候选集中数据进行增删调整,包括下述至少一项:
3.根据权利要求1所述的方法,其特征在于,所述根据各所述备选集的准确率,筛选所述目标数量的备选集,并更新候选集,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据各所述测试模型针对各所述备选集的准确率差值,计算各所述备选集的准确率方差,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据各所述候选集的准确率,确定目...
【专利技术属性】
技术研发人员:林弼远,周界,徐萌,
申请(专利权)人:北京面壁智能科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。