一种机器学习模型选择方法技术

技术编号：38930586 阅读：23 留言：0更新日期：2023-09-25 09:35

本发明专利技术通过软件工程和人工智能领域的方法，实现了一种面向分类任务的机器学习模型选择方法，总体上包括样本标注优先级排序算法、样本筛选与标注、模型测试与排序三个部分；输入是一组候选模型和一个未标注的目标任务数据集，输出是这组模型中在这个数据集上表现最好的一个模型，通过五个步骤实现模型的对比测试与选择；本发明专利技术采用样本标注优先级评估算法，主要从样本分类置信度、样本标签误判程度两个方面评估样本标注优先级，以此筛选出小部分样本进行标注，降低了对比测试的标注成本；同时使用样本优先级评估算法针对现有数据集挑选少量样本对模型进行微调，有效地提高了模型的准确度。型的准确度。型的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种机器学习模型选择方法

[0001]本专利技术涉及人工智能
，尤其涉及一种机器学习模型选择方法。

技术介绍

[0002]目前随着Kaggle、GitHub、PaperWithCode、HuggingFace等开源社区对于模型开源的支持，大量机器学习模型被共享和复用。例如，PaperWithCode是一个提供最新的论文及源码的社区，目前累计包括问答、语义分割、目标检测、图像分类等18000多篇论文、1000多项任务。Hugging Face是一个开源模型仓库，收集了许多机器学习领域开源模型和数据集。代码、数据、模型参数公开后，开发者可以更便利地获取模型，并通过复用来构建更复杂、效果更好的模型。这一方面促进了模型的构建和应用，帮助开发者快速解决问题。但另一方面，对于某个特定的任务，即开发者的目标任务，开发者很难从众多模型中选择最合适的模型，因为这些模型可能是由第三方开发者在不同分布的数据集和实验环境下训练的，在目标任务上的效果是没有保障的，因此这些模型需要进行测试。与以往针对单个模型的测试不同，这里的模型测试是指多个模型的对比测试，测试目的从提高单个模型的性能转变为多个模型的性能对比，也即对比众多候选模型的准确率并进行排序。一种朴素的思路是在已有的测试集上进行测试，准确性最高的模型就是最好的模型。但许多研究指出，在测试集的获取上，未标注的数据是廉价且容易收集的，而标注的成本却很昂贵。耗费大量人力和时间成本的样本标注已经成为很多机器学习模型测试的瓶颈。所以如何识别并优先标注那些对于区分模型好坏最有效的少量样本，然后...

【技术保护点】

【技术特征摘要】
1.一种机器学习模型选择方法，其特征在于：采用基于分类置信度和标签误判分数的样本标注优先级评估算法进行测试样本的筛选，并以此进行模型的测试与选择；所述基于分类置信度和标签误判分数的样本标注优先级评估算法的输入是一组模型和一个未标注的目标任务数据集，具体通过五个步骤实现模型的选择：步骤一、收集目标任务数据集，即根据目标任务收集未标注数据集；步骤二、收集候选模型即收集不同开发者在不同分布的数据集上训练的不同模型；步骤三、样本标注优先级评估，即通过对多个模型在样本置信度不确定性与标签误判程度的分析，给出样本标注优先级分数，用于指导下一步的样本筛选；步骤四、样本筛选与标注，即根据样本标注优先级分数将样本降序排列，选择排名靠前的样本标注；步骤五、模型测试与选择，即将测试样本输入到候选模型集合中的所有模型中，通过对比预测结果与标注结果，计算各模型在测试样本上达到的准确率指标，接着根据模型准确率对模型进行排序，并据此选择在目标任务上表现最好的模型；最终输出所述一组模型中在所述未标注的目标任务数据集上表现最好的一个模型。2.如权利要求1所述的一种机器学习模型选择方法，其特征在于：所述样本标注优先级评估的计算方法为：首先计算样本区分度，所述样本区分度由样本置信度分数和样本误判分数组成。3.如权利要求2所述的一种机器学习模型选择方法，其特征在于：所述样本置信度分数用于评估预测标签的分类置信度对于样本标注的贡献，对于每条样本，计算所有候选模型对于样本的不确定度，并计算这些不确定度的离散程度，若候选模型对该条样本的分类结果的不确定度有高有低，即离散程度较高，说明该条样本对于区分模型的优劣有较大贡献，考虑优先标注。4.如权利要求3所述的一种机器学习模型选择方法，其特征在于：所述样本置信度分数的计算方式为：首先获取分类置信度矩阵，接着通过函数uncert计算样本不确定性，函数uncert的计算公式如...

【专利技术属性】
技术研发人员：孙海龙，王靖越，齐斌航，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人