The invention discloses a method and device for evaluating classification model, which relates to the field of computer technology. One specific implementation of the method includes: acquiring multiple first-class datasets classified by multiple classification models, each of which corresponds to a classification model; determining false positive datasets in each first-class dataset according to the pre-selected reference dataset; and determining the number of false positive cases in each first-class dataset and the first-class dataset according to the first-class dataset and the number of false positive cases in the said first-class dataset. The data set evaluates the multiple classification models. The implementation method can completely get rid of the dependence on manual labeling, the operation process can be fully automated, the cost of evaluation can be reduced, the speed of evaluation can be accelerated, the scope of evaluation can be expanded, the reliability of evaluation can be improved, and the efficiency of model development can be improved.
【技术实现步骤摘要】
一种评估分类模型的方法和装置
本专利技术涉及计算机
,尤其涉及一种评估分类模型的方法和装置。
技术介绍
分类在工业中有广泛的应用,在分类模型的开发过程中,评估模型效果是至关重要的一环,直接决定了一个模型最终是否可以上线。目前,业界主要采用在测试集上计算混淆矩阵的方法来评估模型效果。使用分类模型对该测试集中的样本进行预测后,每个样本都会有两个标注,一个是模型的预测标注,另一个是样本的真值标注,由此构建混淆矩阵,混淆矩阵中的每一行表示一种模型预测结果,每一列表示一种真值结果,而混淆矩阵中每个单元的内容就是符合相应条件的样本个数。利用混淆矩阵就可以计算出识别精度、敏感度、特异性等指标来客观评估一个分类模型的识别效果。这种评估方法必须有大量优质的人工标注样本。以一个成熟的电商企业为例,每天会产生上亿笔交易订单,要获得同等规模的人工标注样本集,成本极大。同时,线上环境变化多端,若测试样本集与上线日期相隔久远,那么模型在该测试集上的表现就不足以作为指导其未来上线后实际运行效果的标准。即使在模型离线训练完成后,重新从线上拉取最新的数据作为测试集,仍需要人工标注,人力和时间开销都很大,无法做到即时评估、快速上线,降低了系统的迭代速度,并且难以观察在一个较长的时间范围内模型效果随时间的变化情况。此外,人工标注可靠性不足,无法反映出模型的真实分类效果。传统的模型评估方法以准确率为核心,完全依赖人工标注,成本高且可靠性低,严重制约着机器学习模型从实验走向实际生产。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:人工标注成本高、耗时长,无法对模型效果做出即 ...
【技术保护点】
1.一种评估分类模型的方法,其特征在于,包括:获取多个分类模型对输入数据集分类得到的多个第一类别数据集,每个第一类别数据集对应一分类模型;根据预选的参考数据集确定各第一类别数据集中的假正例数据集;根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型。
【技术特征摘要】
1.一种评估分类模型的方法,其特征在于,包括:获取多个分类模型对输入数据集分类得到的多个第一类别数据集,每个第一类别数据集对应一分类模型;根据预选的参考数据集确定各第一类别数据集中的假正例数据集;根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型。2.根据权利要求1所述的方法,其特征在于,所述参考数据集包括预设数量的第二类别数据集,根据预选的参考数据集确定各第一类别数据集中的假正例数据集的步骤,包括:根据所述预设数量的第二类别数据集与所述各第一类别数据集的交集确定所述各第一类别数据集中的假正例数据集。3.根据权利要求2所述的方法,其特征在于,根据各第一类别数据集和所述各第一类别数据集中的假正例数据集评估所述多个分类模型的步骤,包括:根据每个第一类别数据集和所述第一类别数据集中的假正例数据集计算所述第一类别数据集对应的分类模型的误分类率;根据各分类模型的误分类率评估所述各分类模型。4.根据权利要求3所述的方法,其特征在于,每个第一类别数据集对应的分类模型的各个误分类率分别对应一第二类别数据集,根据各分类模型的误分类率评估所述各分类模型的步骤,包括:每次从所述多个分类模型中选取两个分类模型,比对所述两个分类模型的对应相同第二类别数据集的各误分类率;统计所述两个分类模型的各次比较的结果中,每个分类模型的各误分类率作为较大值出现的次数和作为较小值出现的次数,将所述两个分类模型中,各误分类率作为较大值出现的次数小于作为较小值出现的次数的一个分类模型评估为高精度模型,直到评估出所述多个分类模型中任意两个分类模型中的高精度模型,从而完成对所有分类模型的评估。5.根据权利要求2所述的方法,其特征在于,所述参考数据集至少满足如下条件:在所述参考数据集与所述输入数据集之间的公共数据集中,所述第二类别数据集的数据数量在所述公共数据集中的占比大于预设阈值;所述公共数据集中的数据分布特征与所述输入数据集中的数据分布特征相同。6.一种评估分类模型的装置,其特征在于,包括:获取模块,用于获取多个分类模型对输入数据集分类得到的多个第一类别...
【专利技术属性】
技术研发人员:王晨阳,陈福豪,寿如阳,林睿,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。