一种针对二分类模型的数据处理方法、装置以及电子设备制造方法及图纸

技术编号:17249411 阅读:17 留言:0更新日期:2018-02-11 07:48
本说明书实施例公开了一种针对二分类模型的数据处理方法、装置以及电子设备。所述方法包括:通过基于二分类模型对应的样本的指定指标的密度函数,对该二分类模型对应的ROC曲线进行调整,并在调整后再确定出加权AUC,以用于对该二分类模型进行评价。

【技术实现步骤摘要】
一种针对二分类模型的数据处理方法、装置以及电子设备
本说明书涉及计算机软件
,尤其涉及一种针对二分类模型的数据处理方法、装置以及电子设备。
技术介绍
二分类模型是智能识别领域常用的一种模型。受试者工作特征(ReceiverOperatingCharacteristic,ROC)曲线常常作为二分类模型的评价标准。在现有技术中,针对二分类模型,可以绘制该二分类模型对应的ROC曲线,然后计算该ROC曲线的ROC曲线线下面积(AreaUnderROCCurve,AUC),一般地,该AUC越大,可以认为该二分类模型越优。基于现有技术,需要能够更准确地对二分类模型进行评价的方案。
技术实现思路
本说明书实施例提供一种针对二分类模型的数据处理方法、装置以及电子设备,用以解决如下技术问题:需要能够更准确地对二分类模型进行评价的方案。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种针对二分类模型的数据处理方法,包括:获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据;估计所述样本的指定指标的密度函数,作为ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线;根据所述调整过的ROC曲线,确定所述二分类模型对应的加权AUC。本说明书实施例提供的一种针对二分类模型的数据处理装置,包括:第一获取模块,获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据;估计模块,估计所述样本的指定指标的密度函数,作为ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;第二获取模块,根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线;确定模块,根据所述调整过的ROC曲线,确定所述二分类模型对应的加权AUC。本说明书实施例提供的一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据;估计所述样本的指定指标的密度函数,作为ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线;根据所述调整过的ROC曲线,确定所述二分类模型对应的加权AUC。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过基于二分类模型对应的样本的指定指标的密度函数,对该二分类模型对应的ROC曲线进行调整,并在调整后再确定出加权AUC,基于该加权AUC能够更准确地对该二分类模型进行评价。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图;图2为本说明书实施例提供的一种针对二分类模型的数据处理方法的流程示意图;图3为本说明书实施例提供的一种二分类模型的调优方案的流程示意图;图4a为本说明书实施例提供的一种实际应用场景下,二分类模型1和二分类模型2对应的标准的ROC曲线示意图;图4b为本说明书实施例提供的一种实际应用场景下,二分类模型1对应的调整过的ROC曲线示意图;图4c为本说明书实施例提供的一种实际应用场景下,二分类模型2对应的调整过的ROC曲线示意图;图5为本说明书实施例提供的对应于图2的一种针对二分类模型的数据处理装置的结构示意图。具体实施方式本说明书实施例提供一种针对二分类模型的数据处理方法、装置以及电子设备。为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图。该整体架构中,主要涉及两部分:二分类模型以及训练数据所在设备、加权AUC计算设备。加权AUC计算设备获取二分类模型以及训练数据,根据训练数据对二分类模型对应的ROC曲线进行调整,并计算加权AUC,以作为该二分类模型的评价依据。在实际应用中,二分类模型以及训练数据所在设备和加权AUC计算设备也可以是同一设备,如此可以减少网络数据传输量。基于以上整体架构,下面对本说明书的方案进行详细说明。图2为本说明书实施例提供的一种针对二分类模型的数据处理方法的流程示意图。该流程可能的执行主体包括但不限于可作为服务器或者终端的以下设备:个人计算机、中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。图2中的流程可以包括以下步骤:S202:获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据。在本说明书实施例中,一般地,当样本被判定为正样本,则可决策对该样本执行该指定事件,反之,当样本被判定为负样本,则可决策对该样本不执行该指定事件。需要说明的是,正负样本结果可以只是参考性的依据,实际对样本到底是否执行了该指定事件未必要依赖于正负样本判定结果。在二分类模型训练好之前,是否已针对样本执行了该指定事件可以是已知的。S204:估计所述样本的指定指标的密度函数,作为ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果。S206:根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线。对于标准的ROC曲线,其是根据权重相同的多个样本绘制得到的。而在实际应用中,二分类模型对于不同样本的分类结果的正确性所带来的后续影响(比如,所述指定事件的执行效果等)可能不同,则在评价该二分类模型时,也可以考虑不同样本的权重差异性,如此,有利于更准确地评价该二分类模型。基于这样的思路,在本说明书实施例中,可以选择样本涉及所述后续影响的参数,作为指定指标,根据该指定指标给不同的样本赋予可能不同的权重,基于权重实现对标准的ROC曲线的调整,并根据调整过的ROC曲线评价该二分类模型。例如,可以估计样本的指定指标的密度函数,作为ROC曲线调整因子;或者,也可以直接将该指定指标的具体取值作为ROC曲线调整因子。前一种方式的优点在于:进一步地考虑到了不同样本的指定指标的具体取值的出现概率,从而有利于使得样本更具代本文档来自技高网
...
一种针对二分类模型的数据处理方法、装置以及电子设备

【技术保护点】
一种针对二分类模型的数据处理方法,包括:获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据;估计所述样本的指定指标的密度函数,作为受试者工作特征ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线;根据所述调整过的ROC曲线,确定所述二分类模型对应的加权ROC曲线线下面积AUC。

【技术特征摘要】
1.一种针对二分类模型的数据处理方法,包括:获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据;估计所述样本的指定指标的密度函数,作为受试者工作特征ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线;根据所述调整过的ROC曲线,确定所述二分类模型对应的加权ROC曲线线下面积AUC。2.如权利要求1所述的方法,所述方法还包括:对所述二分类模型进行一次或者多次参数调整,对于每次参数调整后的二分类模型,根据该二分类模型、所述训练数据以及所述ROC曲线调整因子,获取该二分类模型对应的调整过的ROC曲线,以及确定对应的加权AUC;根据各次确定的所述加权AUC,筛选出符合预期的二分类模型。3.如权利要求1所述的方法,所述根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线,具体包括:获取所述二分类模型计算出的所述训练数据包含的各所述样本对应的得分;获取所述判定结果对应的真实结果,所述真实结果表明所述样本实际是正样本还是负样本;根据所述得分、所述真实结果以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线。4.如权利要求3所述的方法,所述根据所述得分、所述真实结果以及所述ROC曲线调整因子,获取所述二分类模型对应的调整过的ROC曲线,具体包括:根据所述得分,对所述训练数据包含的各所述样本进行排序;根据所述排序顺序、所述真实结果以及所述ROC曲线调整因子,通过在ROC曲线坐标系中,从各所述样本对应的起始点向终点移动,绘制得到所述二分类模型对应的调整过的ROC曲线;其中,所述ROC曲线坐标系的横坐标轴表示假正例率FPR,纵坐标轴表示真正例率TPR,在所述移动过程中,利用所述ROC曲线调整因子,对在所述横坐标轴方向和/或所述纵坐标轴方向的移动方式进行调整。5.如权利要求4所述的方法,对所述移动方式进行的调整以绘制标准的ROC曲线时相应的移动方式为基准进行;所述利用所述ROC曲线调整因子,对在所述横坐标轴方向和/或所述纵坐标轴方向的移动方式进行调整,具体包括:在所述横坐标轴方向的移动方式与绘制标准的ROC曲线时在所述横坐标轴方向的移动方式保持一致;对于各所述样本中根据所述真实结果确定为正样本的样本,利用所述ROC曲线调整因子,对当前在所述纵坐标轴方向的移动方式进行调整。6.如权利要求5所述的方法,所述利用所述ROC曲线调整因子,对当前在所述纵坐标轴方向的移动方式进行调整,具体包括:针对该确定为正样本的样本,对当前在所述纵坐标轴方向的移动方式进行调整,以使向所述纵坐标轴方向移动指定距离,所述指定距离利用所述ROC曲线调整因子计算得到。7.如权利要求6所述的方法,所述指定距离为:其中,p表示该确定为正样本的样本的所述指定指标,f(p)表示对应于p的所述ROC曲线调整因子,np表示各所述样本中正样本的实际数量。8.如权利要求1~7任一项所述的方法,所述指定事件包括请款,所述指定指标包括请款成功率;若请款成功,表示对应的样本实际为正样本,否则,表示对应的样本实际为负样本。9.一种针对二分类模型的数据处理装置,包括:第一获取模块,获取二分类模型和包含多个样本的训练数据,所述二分类模型用于计算所述样本对应的得分,以判定正负样本并将判定结果作为是否针对所述样本执行指定事件的依据;估计模块,估计所述样本的指定指标的密度函数,作为受试者工作特征ROC曲线调整因子,所述指定指标反映所述指定事件的执行效果;第二获取模块,根据所述二分类模型、所述训练数据以及所述ROC曲线调整因子,获取所述二分类模型对应的调整...

【专利技术属性】
技术研发人员:宋博文
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1