【技术实现步骤摘要】
一种针对二分类模型的数据处理方法、装置以及电子设备
本说明书涉及计算机软件
,尤其涉及一种针对二分类模型的数据处理方法、装置以及电子设备。
技术介绍
二分类模型是智能识别领域常用的一种模型。受试者工作特征(ReceiverOperatingCharacteristic,ROC)曲线常常作为二分类模型的评价标准。在现有技术中,针对二分类模型,可以绘制该二分类模型对应的ROC曲线,然后计算该ROC曲线的ROC曲线线下面积(AreaUnderROCCurve,AUC),一般地,该AUC越大,可以认为该二分类模型越优。基于现有技术,需要能够更准确地对二分类模型进行评价的方案。
技术实现思路
本说明书实施例提供一种针对二分类模型的数据处理方法、装置以及电子设备,用以解决如下技术问题:需要能够更准确地对二分类模型进行评价的方案。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种针对二分类模型的数据处理方法,包括:获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据;估计所述样本的指定指标的密度函数,作为ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线;根据所述调整过的ROC曲线,确定所述二分类模型对应的加权AUC。本说明书实施例提供的一种针对二分类模型的数据处理装置,包括:第一获取模块,获取二分类模型和包含多个样本的训练数据,所述二分类模型 ...
【技术保护点】
一种针对二分类模型的数据处理方法,包括:获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据;估计所述样本的指定指标的密度函数,作为受试者工作特征ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线;根据所述调整过的ROC曲线,确定所述二分类模型对应的加权ROC曲线线下面积AUC。
【技术特征摘要】
1.一种针对二分类模型的数据处理方法,包括:获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据;估计所述样本的指定指标的密度函数,作为受试者工作特征ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线;根据所述调整过的ROC曲线,确定所述二分类模型对应的加权ROC曲线线下面积AUC。2.如权利要求1所述的方法,所述方法还包括:对所述二分类模型进行一次或者多次参数调整,对于每次参数调整后的二分类模型,根据该二分类模型、所述训练数据以及所述ROC曲线调整因子,获取该二分类模型对应的调整过的ROC曲线,以及确定对应的加权AUC;根据各次确定的所述加权AUC,筛选出符合预期的二分类模型。3.如权利要求1所述的方法,所述根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线,具体包括:获取所述二分类模型计算出的所述训练数据包含的各所述样本对应的得分;获取所述判定结果对应的真实结果,所述真实结果表明所述样本实际是正样本还是负样本;根据所述得分、所述真实结果以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线。4.如权利要求3所述的方法,所述根据所述得分、所述真实结果以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线,具体包括:根据所述得分,对所述训练数据包含的各所述样本进行排序;根据所述排序顺序、所述真实结果以及所述ROC曲线调整因子,通过在ROC曲线坐标系中,从各所述样本对应的起始点向终点移动,绘制得到所述二分类模型对应的调整过的ROC曲线;其中,所述ROC曲线坐标系的横坐标轴表示假正例率FPR,纵坐标轴表示真正例率TPR,在所述移动过程中,利用所述ROC曲线调整因子,对在所述横坐标轴方向和/或所述纵坐标轴方向的移动方式进行调整。5.如权利要求4所述的方法,对所述移动方式进行的调整以绘制标准的ROC曲线时相应的移动方式为基准进行;所述利用所述ROC曲线调整因子,对在所述横坐标轴方向和/或所述纵坐标轴方向的移动方式进行调整,具体包括:在所述横坐标轴方向的移动方式与绘制标准的ROC曲线时在所述横坐标轴方向的移动方式保持一致;对于各所述样本中根据所述真实结果确定为正样本的样本,利用所述ROC曲线调整因子,对当前在所述纵坐标轴方向的移动方式进行调整。6.如权利要求5所述的方法,所述利用所述ROC曲线调整因子,对当前在所述纵坐标轴方向的移动方式进行调整,具体包括:针对该确定为正样本的样本,对当前在所述纵坐标轴方向的移动方式进行调整,以使向所述纵坐标轴方向移动指定距离,所述指定距离利用所述ROC曲线调整因子计算得到。7.如权利要求6所述的方法,所述指定距离为:其中,p表示该确定为正样本的样本的所述指定指标,f(p)表示对应于p的所述ROC曲线调整因子,np表示各所述样本中正样本的实际数量。8.如权利要求1~7任一项所述的方法,所述指定事件包括请款,所述指定指标包括请款成功率;若请款成功,表示对应的样本实际为正样本,否则,表示对应的样本实际为负样本。9.一种针对二分类模型的数据处理装置,包括:第一获取模块,获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据;估计模块,估计所述样本的指定指标的密度函数,作为受试者工作特征ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;第二获取模块,根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整...
【专利技术属性】
技术研发人员:宋博文,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。