一种机器学习模型选择方法技术

技术编号:38930586 阅读:23 留言:0更新日期:2023-09-25 09:35
本发明专利技术通过软件工程和人工智能领域的方法,实现了一种面向分类任务的机器学习模型选择方法,总体上包括样本标注优先级排序算法、样本筛选与标注、模型测试与排序三个部分;输入是一组候选模型和一个未标注的目标任务数据集,输出是这组模型中在这个数据集上表现最好的一个模型,通过五个步骤实现模型的对比测试与选择;本发明专利技术采用样本标注优先级评估算法,主要从样本分类置信度、样本标签误判程度两个方面评估样本标注优先级,以此筛选出小部分样本进行标注,降低了对比测试的标注成本;同时使用样本优先级评估算法针对现有数据集挑选少量样本对模型进行微调,有效地提高了模型的准确度。型的准确度。型的准确度。

【技术实现步骤摘要】
一种机器学习模型选择方法


[0001]本专利技术涉及人工智能
,尤其涉及一种机器学习模型选择方法。

技术介绍

[0002]目前随着Kaggle、GitHub、PaperWithCode、HuggingFace等开源社区对于模型开源的支持,大量机器学习模型被共享和复用。例如,PaperWithCode是一个提供最新的论文及源码的社区,目前累计包括问答、语义分割、目标检测、图像分类等18000多篇论文、1000多项任务。Hugging Face是一个开源模型仓库,收集了许多机器学习领域开源模型和数据集。代码、数据、模型参数公开后,开发者可以更便利地获取模型,并通过复用来构建更复杂、效果更好的模型。这一方面促进了模型的构建和应用,帮助开发者快速解决问题。但另一方面,对于某个特定的任务,即开发者的目标任务,开发者很难从众多模型中选择最合适的模型,因为这些模型可能是由第三方开发者在不同分布的数据集和实验环境下训练的,在目标任务上的效果是没有保障的,因此这些模型需要进行测试。与以往针对单个模型的测试不同,这里的模型测试是指多个模型的对比测试,测试目的从提高单个模型的性能转变为多个模型的性能对比,也即对比众多候选模型的准确率并进行排序。一种朴素的思路是在已有的测试集上进行测试,准确性最高的模型就是最好的模型。但许多研究指出,在测试集的获取上,未标注的数据是廉价且容易收集的,而标注的成本却很昂贵。耗费大量人力和时间成本的样本标注已经成为很多机器学习模型测试的瓶颈。所以如何识别并优先标注那些对于区分模型好坏最有效的少量样本,然后用这些标注的少量数据评估多个模型的性能并对其进行排名成为了问题的关键。
[0003]为了解决样本标注优先级的问题,一些研究人员提出了一种基于多数投票与测试问题区分度计算的样本区分度筛选方法,该方法包括4步:(a)首先记录所有模型在全体样本上的预测结果;(b)接着根据多数投票的原则为每条样本生成标签;(c)将多数投票的标注当作ground

truth,计算所有模型的准确率,并以此对模型排序,挑选排名前27%与后27%的模型;(d)将前27%的模型预测正确的样本记为1,后27%的模型预测正确的样本记为

1,预测错误的不计分,接着将每条样本的记分求和作为样本的区分度值。根据区分度对样本排序,排名靠前的为优先标注的样本。
[0004]以上研究就基于样本标注优先级的模型测试给出了解决方案,但仍存在一些局限性。基于多数投票的方法从实验设置上与问题的假设有一定程度的相悖。该研究问题的一个重要假设是:候选模型是由第三方开发者在不同的数据集和实验环境下训练的,也就是模型的训练集和目标任务的测试集是不同分布的,因此这些模型在目标任务上的性能是没有保障的,所以才有测试的必要性。但在上述研究的实验中,候选模型的训练集和目标任务的测试集是相同的,这并不符合问题的假设;而且为了满足多数投票的有效性,所有候选模型在测试集上的准确度都较高且集中在0.7到0.8之间,导致候选模型在目标任务上的效果比较接近,这一点也削弱了模型排序的必要性。
[0005]本专利技术设计了一种新的样本标注优先级排序算法,主要从样本分类置信度、样本
标签误判程度两个方面评估样本标注优先级,以此筛选出少量样本进行标注,进一步以此为基础设计了模型选择方法,从而降低了测试的标注成本,提高了模型测试的效率,具有一定的先进性。具体来说,主要解决的问题包括:(1)对于某个特定目标任务,有多个模型可以选择,但无法保证这些模型在目标任务上的效果。本专利技术通过对比测试对模型进行排名,以解决模型选优问题。(2)在多模型的对比测试问题中,测试数据高昂的标注成本制约了测试的效率。本专利技术采用基于分类置信度与投票熵的样本优先级评估算法,以此筛选出少量样本进行标注,从而降低了对比测试的标注成本。(3)在实际应用中,筛选出的模型在测试集上的效果往往无法满足预期,难以直接投入使用。本专利技术使用样本优先级评估算法针对现有数据集挑选少量样本进行fine

tune(微调),有效地提高了模型的准确度。

技术实现思路

[0006]为此,本专利技术提出一种用于分类任务的机器学习模型的选择方法,采用基于分类置信度和标签误判分数的样本标注优先级评估算法进行测试样本的筛选,并以此进行模型的测试与选择;
[0007]所述基于分类置信度和标签误判分数的样本标注优先级评估算法的输入是一组模型和一个未标注的目标任务数据集,输出是这组模型中在这个数据集上表现最好的一个模型,具体通过五个步骤实现模型的选择:
[0008]步骤一、收集目标任务数据集,即根据目标任务收集未标注数据集;
[0009]步骤二、收集候选模型即收集不同开发者在不同分布的数据集上训练的不同模型;
[0010]步骤三、样本标注优先级评估,即通过对多个模型在样本置信度不确定性与标签误判程度的分析,给出样本标注优先级分数,用于指导下一步的样本筛选;
[0011]步骤四、样本筛选与标注,即根据样本标注优先级分数将样本降序排列,选择排名靠前的样本标注;
[0012]步骤五、模型测试与选择,即将测试样本输入到候选模型集中的所有模型中,通过对比预测结果与标注结果,计算各模型的准确率指标;
[0013]所述样本标注优先级评估的计算方法为:首先计算样本区分度,所述样本区分度由样本置信度分数和样本误判分数组成;
[0014]所述样本置信度分数评估预测标签的分类置信度对于样本标注的贡献,对于每条样本,计算所有候选模型对于样本的不确定度,并计算这些不确定度的离散程度,若候选模型对该条样本的分类结果的不确定度有高有低,即离散程度较高,说明该条样本对于区分模型的优劣有较大贡献,考虑优先标注,样本置信度分数的计算方式为:首先获取分类置信度矩阵,接着通过函数uncert计算样本不确定性,函数uncert的计算公式如下:
[0015][0016][0017]其中,表示模型m
i
对样本s
j
在标签l
k
上的置信度,smooth是一个类似sigmoid
的平滑函数,用于突出中靠近中位数的值;然后基于不确定性计算样本置信度分数:对于每条样本,已经得到m个候选模型对其的分类不确定性分数,通过计算这个一维向量的离散程度,得到置信度分数,其中离散函数discret的计算方法为方差,计算公式如下:
[0018][0019]其中X为一维向量,表示输入数据,n为数据个数,为X的平均数;
[0020]样本误判分数评估预测标签对于样本标注的贡献,通过引入主动学习中的投票熵方法,使用熵衡量样本数据被分类器划分的难易程度,如果所有分类器都将样本数据划分到同一类别,则说明该样本数据容易区分;相反,如果分类器将样本数据划分到不同类别,则说明它难以区分,需要被优先标注;样本误判分数的计算方法为:首先获取分类标签矩阵,接着计算误判区分度,对于每条样本,通过函数voteEntropy计算候选模型分类的熵,以表示这条样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器学习模型选择方法,其特征在于:采用基于分类置信度和标签误判分数的样本标注优先级评估算法进行测试样本的筛选,并以此进行模型的测试与选择;所述基于分类置信度和标签误判分数的样本标注优先级评估算法的输入是一组模型和一个未标注的目标任务数据集,具体通过五个步骤实现模型的选择:步骤一、收集目标任务数据集,即根据目标任务收集未标注数据集;步骤二、收集候选模型即收集不同开发者在不同分布的数据集上训练的不同模型;步骤三、样本标注优先级评估,即通过对多个模型在样本置信度不确定性与标签误判程度的分析,给出样本标注优先级分数,用于指导下一步的样本筛选;步骤四、样本筛选与标注,即根据样本标注优先级分数将样本降序排列,选择排名靠前的样本标注;步骤五、模型测试与选择,即将测试样本输入到候选模型集合中的所有模型中,通过对比预测结果与标注结果,计算各模型在测试样本上达到的准确率指标,接着根据模型准确率对模型进行排序,并据此选择在目标任务上表现最好的模型;最终输出所述一组模型中在所述未标注的目标任务数据集上表现最好的一个模型。2.如权利要求1所述的一种机器学习模型选择方法,其特征在于:所述样本标注优先级评估的计算方法为:首先计算样本区分度,所述样本区分度由样本置信度分数和样本误判分数组成。3.如权利要求2所述的一种机器学习模型选择方法,其特征在于:所述样本置信度分数用于评估预测标签的分类置信度对于样本标注的贡献,对于每条样本,计算所有候选模型对于样本的不确定度,并计算这些不确定度的离散程度,若候选模型对该条样本的分类结果的不确定度有高有低,即离散程度较高,说明该条样本对于区分模型的优劣有较大贡献,考虑优先标注。4.如权利要求3所述的一种机器学习模型选择方法,其特征在于:所述样本置信度分数的计算方式为:首先获取分类置信度矩阵,接着通过函数uncert计算样本不确定性,函数uncert的计算公式如...

【专利技术属性】
技术研发人员:孙海龙王靖越齐斌航
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1