The present invention provides a method and a device for obtaining the evaluation index, the classifier training samples the input, output data classification model, the probability distribution of the output statistics data acquisition probability statistical results, the probability statistical results including probability intervals and each interval probability of positive samples and the actual number of actual negative samples, evaluation according to the statistical results of classification index calculation model and probability threshold set. The output data of the classification model of the invention in probability and statistics, probability and statistics results based on the evaluation index calculation, solve the problem of multiple scanning output data in the evaluation indicators in the calculation process, especially in the output data for large-scale data can improve the computational efficiency evaluation index.
【技术实现步骤摘要】
评估指标获取方法及装置
本专利技术属于数据处理领域,尤其涉及一种评估指标获取方法及装置。
技术介绍
在大数据挖掘的业务场景中,经常需要针对超大规模的数据使用分类算法进行训练分类。当前分类算法有很多,而且不同的分类算法又用很多不同的变种。当根据分类算法建立一个分类模型之后,会考虑该分类模型的性能或准确率,因此需要对该分类模型的优良情况进行评估。目前,二分类算法模型的评估指标包括:混淆矩阵、受试者工作特征曲线(receiveroperatingcharacteristiccurve,简称ROC)图、ROC图中的曲线下的面积(AreaUnderRocCurve,简称AUC)值与提升(Lift)图等指标。现有的对二分类算法对应的分类模型的评估方法或者系统中,在获取评估指标的过程中,每当输入一个阈值点时,在计算与该阈值点对应的评估参数时,就需要对分类模型的输出数据进行一次扫描。经过大量阈值点的输入,然后获取到该分类模型的评估指标。对大规模数据来说,通过多次扫描分类模型的输出数据,获取该分类模型评估指标的方式存在计算效率较低的问题。
技术实现思路
本专利技术提供一种评估指标获取方法及装置,用于解决通过多次扫描分类模型的输出数据来获取评估指标的方式存在计算效率较低的问题。为了实现上述目的,本专利技术提供了一种评估指标获取方法,包括:将样本输入分类模型进行分类训练,获取分类模型的输出数据;对所述输出数据进行概率分布统计获取概率统计结果;其中,所述概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量;根据阈值集和所述概率统计结果计算所述分类模型的评估指标。为 ...
【技术保护点】
一种评估指标获取方法,其特征在于,包括:将样本输入分类模型进行分类训练,获取分类模型的输出数据;对所述输出数据进行概率分布统计获取概率统计结果;其中,所述概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量;根据阈值集和所述概率统计结果计算所述分类模型的评估指标。
【技术特征摘要】
1.一种评估指标获取方法,其特征在于,包括:将样本输入分类模型进行分类训练,获取分类模型的输出数据;对所述输出数据进行概率分布统计获取概率统计结果;其中,所述概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量;根据阈值集和所述概率统计结果计算所述分类模型的评估指标。2.根据权利要求1所述的评估指标获取方法,其特征在于,所述对所述输出数据进行概率分布统计获取概率统计结果,包括:基于直方图算法对所述输出数据进行概率区间划分,统计每个概率区间内所述实际正样本数量和所述实际负样本数量。3.根据权利要求2所述的评估指标获取方法,其特征在于,所述输出数据包括:每个样本原始的样本属性以及每个样本被所述分类模型预测成正样本的预测概率;其中,样本属性包括正样本属性和负样本属性。4.根据权利要求3所述的评估指标获取方法,其特征在于,所述基于直方图算法对所述输出数据进行概率区间划分,统计每个概率区间内所述实际正样本数量和所述实际负样本数量,包括:扫描所述输出数据;根据每个样本被预测成正样本的预测概率和所述输出数据中每个样本原始的样本属性生成正样本对应的第一直方图和负样本对应的第二直方图;其中,所述第一直方图的横轴是预测概率,所述第一直方图的纵轴是实际正样本数量;所述第二直方图的横轴是预测概率,所述第二直方图的纵轴是实际负样本数量;调整横轴步长使所述第一直方图和所述第二直方图的概率区间一致,以获取所述概率统计结果中的所述概率区间;统计所述第一直方图中每个概率区间内所述实际正样本的数量;统计所述第二直方图中每个概率区间内所述实际负样本的数量。5.根据权利要求4所述的评估指标获取方法,其特征在于,所述根据阈值集和所述概率统计结果计算所述分类模型的评估指标,包括:将每个概率区间的端点值作为阈值点构成所述阈值集;按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵,其中,所述混淆矩阵包括实际为正样本被预测为正样本的数量TP、实际为正样本被预测为负样本的数量FP、实际为负样本被预测为负样本的数量TN、实际为负样本被预测为正样本的数量FN;将每个阈值点对应的混淆矩阵作为评估指标。6.根据权利要求4所述的评估指标获取方法,其特征在于,所述根据阈值集和所述概率统计结果计算所述分类模型的评估指标,包括:接收用户输入的根据概率区间的端点值构成的所述阈值集;按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵,其中,所述混淆矩阵包括:TP、FP、TN和FN;将每个阈值点对应的混淆矩阵作为所述评估指标。7.根据权利要求5或6所述的评估指标获取方法,其特征在于,所述按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵,包括:对于所述第一直方图,按照阈值点的大小顺序逐次对大于阈值点的所有概率区间内实际正样本数量进行累积得到所述TP,以及对小于阈值点的所有概率区间内实际正样本数量进行累积得到所述FN;对于所述第二直方图,按照阈值点的大小顺序逐次对大于阈值点的所有概率区间内负样本数量进行累积得到所述FP,以及对小于阈值点的所有概率区间内负样本数量进行累积得到所述TN。8.根据权利要求7所述的评估指标获取方法,其特征在于,所述按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵之后,还包括:针对每个阈值点,将所述FP与实际负样本总量的比值作为所述ROC的横坐标;将所述TP与实际正样本总量的比值作为所述ROC的纵坐标;利用所有阈值点对应的ROC坐标绘制所述分类模型的评估指标ROC曲线。9.根据权利要求8所述的评估指标获取方法,其特征在于,所述利用所有阈值点对应的ROC坐标绘制所述分类模型的评估指标ROC曲线之后,还包括:获取每个由相邻阈值点对应的ROC坐标与所述ROC曲线构成的曲边梯形的面积;将所有曲边梯形的面积相加得到所述ROC曲线对应的AUC值。10.根据权利要求7所述的评估指标获取方法,其特征在于,所述按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵之后,还包括:针对每个阈值点,将所述TP和所述FP的和值与样本总量的比值作为Lift图的横坐标;将所述TP作为Lift图的纵坐标;利用所有阈值点对应的Lift坐标绘制所述分类模型的评估指标Lift图。11.一...
【专利技术属性】
技术研发人员:姜晓燕,王少萌,杨旭,蔡宁,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。