评估指标获取方法及装置制造方法及图纸

技术编号:15999406 阅读:34 留言:0更新日期:2017-08-15 14:11
本发明专利技术提供了评估指标获取方法及装置,通过将样本输入分类模型进行分类训练,获取分类模型的输出数据,对输出数据进行概率分布统计获取概率统计结果,其中概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量,根据阈值集和概率统计结果计算分类模型的评估指标。本发明专利技术中对分类模型的输出数据进行概率统计,基于得到的概率统计结果对评估指标进行计算,解决了在评估指标的计算过程中多次扫描输出数据的问题,尤其在输出数据为大规模数据时可以提高评估指标的计算效率。

Method and device for obtaining evaluation index

The present invention provides a method and a device for obtaining the evaluation index, the classifier training samples the input, output data classification model, the probability distribution of the output statistics data acquisition probability statistical results, the probability statistical results including probability intervals and each interval probability of positive samples and the actual number of actual negative samples, evaluation according to the statistical results of classification index calculation model and probability threshold set. The output data of the classification model of the invention in probability and statistics, probability and statistics results based on the evaluation index calculation, solve the problem of multiple scanning output data in the evaluation indicators in the calculation process, especially in the output data for large-scale data can improve the computational efficiency evaluation index.

【技术实现步骤摘要】
评估指标获取方法及装置
本专利技术属于数据处理领域,尤其涉及一种评估指标获取方法及装置。
技术介绍
在大数据挖掘的业务场景中,经常需要针对超大规模的数据使用分类算法进行训练分类。当前分类算法有很多,而且不同的分类算法又用很多不同的变种。当根据分类算法建立一个分类模型之后,会考虑该分类模型的性能或准确率,因此需要对该分类模型的优良情况进行评估。目前,二分类算法模型的评估指标包括:混淆矩阵、受试者工作特征曲线(receiveroperatingcharacteristiccurve,简称ROC)图、ROC图中的曲线下的面积(AreaUnderRocCurve,简称AUC)值与提升(Lift)图等指标。现有的对二分类算法对应的分类模型的评估方法或者系统中,在获取评估指标的过程中,每当输入一个阈值点时,在计算与该阈值点对应的评估参数时,就需要对分类模型的输出数据进行一次扫描。经过大量阈值点的输入,然后获取到该分类模型的评估指标。对大规模数据来说,通过多次扫描分类模型的输出数据,获取该分类模型评估指标的方式存在计算效率较低的问题。
技术实现思路
本专利技术提供一种评估指标获取方法及装置,用于解决通过多次扫描分类模型的输出数据来获取评估指标的方式存在计算效率较低的问题。为了实现上述目的,本专利技术提供了一种评估指标获取方法,包括:将样本输入分类模型进行分类训练,获取分类模型的输出数据;对所述输出数据进行概率分布统计获取概率统计结果;其中,所述概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量;根据阈值集和所述概率统计结果计算所述分类模型的评估指标。为了实现上述目的,本专利技术提供了一种评估指标获取装置,包括:分类训练模块,用于将样本输入分类模型进行分类训练,获取分类模型的输出数据;概率统计模块,用于对所述输出数据进行概率分布统计获取概率统计结果;其中,所述概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量;计算模块,用于根据阈值集和所述概率统计结果计算所述分类模型的评估指标。本专利技术提供的评估指标获取方法及装置,通过对分类模型的输出数据进行概率统计,基于得到的包括概率区间以及对应的实际正样本和实际负样本数量的概率统计结果对评估指标进行计算,解决了在评估指标的计算过程中多次扫描输出数据的问题,尤其在输出数据为大规模数据时可以提高评估指标的计算效率。附图说明图1为本专利技术实施例一的评估指标获取方法的流程示意图;图2为本专利技术实施例二的评估指标获取方法的流程示意图;图3为本专利技术实施例二的评估指标获取方法的应用示例示意图之一;图4为本专利技术实施例二的评估指标获取方法的应用示例示意图之二;图5为本专利技术实施例三的评估指标获取装置的结构示意图;图6为本专利技术实施例四的评估指标获取装置的结构示意图。具体实施方式下面结合附图对本专利技术实施例提供的评估指标获取方法及装置进行详细描述。实施例一如图1所示,其为本专利技术实施例一的评估指标获取方法的流程示意图。该评估指标获取方法包括以下步骤:S101、将样本输入分类模型进行分类训练,获取分类模型的输出数据。二分类算法对应的分类模型将样本分成正样本或者负样本。在分类模型中往往将正样本用“1”表示,将负样本用“0”表示。其中,输入分类模型的每个样本都有一个原始的样本属性。本实施例中,样本属性包括正样本属性和负样本属性。原始的样本属性表示样本实际是正样本还是负样本。为了对分类模型进行评估,需要将样本输入分类模型中进行分类训练,在训练完成后,分类模型会对每个样本进行分类和概率预测。具体地,分类模型在训练完成后为每个样本输出训练后的样本属性,训练后的样本属性可以指示出样本经过分类模型后是正样本还是负样本。进一步地,分类模型在训练完成后还会为每个样本进行概率预测,用户可以根据实际需要选择输出每个样本经过分类模型预测成正样本的概率,或者选择输出每个样本经过分类模型预测成负样本的概率。其中,样本经过分类模型被预测成正样本的概率和被预测成负样本的概率的和为1。S102、对输出数据进行概率分布统计获取概率统计结果;其中,概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量。在获取到输出数据后,由于分类模型会对每个样本进行概率预测,这样输出数据中每个样本会有一个预测概率,本实施例中,分类模型输出的每个样本的概率为每个样本被分类模型预测成正样本的预测概率。进一步地,根据预测概率对输出数据进行概率分布统计,获取概率统计结果。在进行概率统计时首先需要划分概率区间,然后在每个概率区间内基于输出数据中每个样本原始的样本属性统计实际正样本数量和实际负样本数量,得到正样本和负样本的概率分布图,基于正样本的概率分布图获取每个概率区间内实际正样本数量,基于负样本的概率分布图获取每个概率区间内实际负样本数量。优选地,基于直方图算法对输出数据进行概率分布的统计,获取正样本的直方图和负样本的直方图,基于正样本的直方图和负样本的直方图能够获取到上述概率统计结果。S103、根据阈值集和概率统计结果计算分类模型的评估指标。在获取到概率统计结果后,需要获取阈值集,其中阈值集中包括多个阈值点,然后基于每个阈值点和概率统计结果中每个概率区间内实际正样本数据和实际负样本数据,获取每个阈值点对应的评估参数,利用所有阈值点对应的评估参数生成分类模型的评估指标。本实施例中,在概率统计结果后,可以将概率统计结果中的概率区间的端点值作为阈值点构成阈值集。例如,可以利用每个概率区间的下限值作为阈值点构成阈值集。或者将部分概率区间的下限值作为阈值点构成阈值集。再例如,可以将概率区间的上限值作为阈值点构成阈值集。本实施例中在概率统计的过程中,对概率区间进行划分,概率区间的端点可作为分界点,直接将概率区间的端点值作为阈值点,不需要进行阈值点的重新设定,进而提高了评估指标的计算效率。可选地,可以接收用户输入的利用概率区间的端点值作为阈值点构成阈值集。例如,用户可以将每个概率区间的下限值作为阈值点构成阈值集,或者用户选取部分概率区间的下限值作为阈值点构成阈值集。本实施例中,用户根据反馈的概率统计结果,可以初步对分类模型的效果有一定的了解,从而能够选取合适的阈值点构成阈值集,用户交互较好,而且对分类模型的评估更加准确。进一步地,在获取到阈值集后,根据阈值集中的阈值点和概率统计结果计算评估指标。其中,评估指标包括混淆矩阵、ROC曲线、AUC值和Lift图。其中,混淆矩阵中包括:实际为正样本预测为正样本的数量(TruePositives,简称TP)、实际为负样本预测为正样本的数量(FalsePositives,简称FP)、实际为负样本预测为负样本的数量(TrueNegatives,简称TN)和实际为正样本预测为负样本的数量(FalseNegatives,简称FN)。在获取到阈值点之后,将阈值点作为分界点,对于正样本的概率分布来说,大于阈值点的所有概率区间内实际正样本被分类模型预测成正样本,对实际正样本被分类模型预测成正样本的数量进行累积,将累积的实际正样本被分类模型预测成正样本的数量作为混淆矩阵的TP。而小于阈值点的所有概率区间内实际正样本被分类模型预测成负样本,对实际正样本被分类模型预测成负样本的数量进行累计,将累计后的实际正样本本文档来自技高网...
评估指标获取方法及装置

【技术保护点】
一种评估指标获取方法,其特征在于,包括:将样本输入分类模型进行分类训练,获取分类模型的输出数据;对所述输出数据进行概率分布统计获取概率统计结果;其中,所述概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量;根据阈值集和所述概率统计结果计算所述分类模型的评估指标。

【技术特征摘要】
1.一种评估指标获取方法,其特征在于,包括:将样本输入分类模型进行分类训练,获取分类模型的输出数据;对所述输出数据进行概率分布统计获取概率统计结果;其中,所述概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量;根据阈值集和所述概率统计结果计算所述分类模型的评估指标。2.根据权利要求1所述的评估指标获取方法,其特征在于,所述对所述输出数据进行概率分布统计获取概率统计结果,包括:基于直方图算法对所述输出数据进行概率区间划分,统计每个概率区间内所述实际正样本数量和所述实际负样本数量。3.根据权利要求2所述的评估指标获取方法,其特征在于,所述输出数据包括:每个样本原始的样本属性以及每个样本被所述分类模型预测成正样本的预测概率;其中,样本属性包括正样本属性和负样本属性。4.根据权利要求3所述的评估指标获取方法,其特征在于,所述基于直方图算法对所述输出数据进行概率区间划分,统计每个概率区间内所述实际正样本数量和所述实际负样本数量,包括:扫描所述输出数据;根据每个样本被预测成正样本的预测概率和所述输出数据中每个样本原始的样本属性生成正样本对应的第一直方图和负样本对应的第二直方图;其中,所述第一直方图的横轴是预测概率,所述第一直方图的纵轴是实际正样本数量;所述第二直方图的横轴是预测概率,所述第二直方图的纵轴是实际负样本数量;调整横轴步长使所述第一直方图和所述第二直方图的概率区间一致,以获取所述概率统计结果中的所述概率区间;统计所述第一直方图中每个概率区间内所述实际正样本的数量;统计所述第二直方图中每个概率区间内所述实际负样本的数量。5.根据权利要求4所述的评估指标获取方法,其特征在于,所述根据阈值集和所述概率统计结果计算所述分类模型的评估指标,包括:将每个概率区间的端点值作为阈值点构成所述阈值集;按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵,其中,所述混淆矩阵包括实际为正样本被预测为正样本的数量TP、实际为正样本被预测为负样本的数量FP、实际为负样本被预测为负样本的数量TN、实际为负样本被预测为正样本的数量FN;将每个阈值点对应的混淆矩阵作为评估指标。6.根据权利要求4所述的评估指标获取方法,其特征在于,所述根据阈值集和所述概率统计结果计算所述分类模型的评估指标,包括:接收用户输入的根据概率区间的端点值构成的所述阈值集;按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵,其中,所述混淆矩阵包括:TP、FP、TN和FN;将每个阈值点对应的混淆矩阵作为所述评估指标。7.根据权利要求5或6所述的评估指标获取方法,其特征在于,所述按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵,包括:对于所述第一直方图,按照阈值点的大小顺序逐次对大于阈值点的所有概率区间内实际正样本数量进行累积得到所述TP,以及对小于阈值点的所有概率区间内实际正样本数量进行累积得到所述FN;对于所述第二直方图,按照阈值点的大小顺序逐次对大于阈值点的所有概率区间内负样本数量进行累积得到所述FP,以及对小于阈值点的所有概率区间内负样本数量进行累积得到所述TN。8.根据权利要求7所述的评估指标获取方法,其特征在于,所述按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵之后,还包括:针对每个阈值点,将所述FP与实际负样本总量的比值作为所述ROC的横坐标;将所述TP与实际正样本总量的比值作为所述ROC的纵坐标;利用所有阈值点对应的ROC坐标绘制所述分类模型的评估指标ROC曲线。9.根据权利要求8所述的评估指标获取方法,其特征在于,所述利用所有阈值点对应的ROC坐标绘制所述分类模型的评估指标ROC曲线之后,还包括:获取每个由相邻阈值点对应的ROC坐标与所述ROC曲线构成的曲边梯形的面积;将所有曲边梯形的面积相加得到所述ROC曲线对应的AUC值。10.根据权利要求7所述的评估指标获取方法,其特征在于,所述按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵之后,还包括:针对每个阈值点,将所述TP和所述FP的和值与样本总量的比值作为Lift图的横坐标;将所述TP作为Lift图的纵坐标;利用所有阈值点对应的Lift坐标绘制所述分类模型的评估指标Lift图。11.一...

【专利技术属性】
技术研发人员:姜晓燕王少萌杨旭蔡宁
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1