System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理领域,特别涉及一种可用判定规则挖掘方法、系统、设备及介质。
技术介绍
1、随着网约车的普及,在出行方便的同时开始出现了一些司乘勾结以套取网约车平台补贴的虚假订单,给平台带来了较大的损失。
2、现有技术主要针对虚假订单的判定,通常是通过人为开发的一系列特征与设定好的阈值进行比较以判定当前订单是否是虚假订单;但人工判定总是会具有局限性,且判定准确率低。
3、因此,亟需一种可用于判定虚假订单的可用判定规则挖掘方法以解决上述技术问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种可用判定规则挖掘方法,以解决上述技术问题。
2、第一方面,本申请提供一种可用判定规则挖掘方法,所述方法包括:
3、根据预设规则在历史样本中选取第一目标样本,并对所述第一目标样本进行打标;
4、随机选取判定样本为第二目标样本并对所述第二目标样本进行打标;
5、为所述第一目标样本和第二目标样本分配样本权重值,并根据所述样本权重值生成权重评价函数;
6、根据所述第一目标样本、第二目标样本以及权重评价函数对第一决策树进行训练;
7、选取所述第一决策树中符合预设条件的目标决策树分支对应的判定规则为可用判定规则。
8、在一些实施例中,所述权重评价函数为:其中,d表示第一决策树中一个叶节点上的样本集,k表示样本类别,包括第一目标样本和第二目标样本两类样本,c'k表示第k类别样本的权重值求和。
9、在一些实施例中,所述根据预设规则在历史样本中选取第一目标样本包括:
10、随机选取历史样本中未被判定的历史样本作为待定样本;
11、利用多个已训练好的第二决策树分别对所述待定样本进行0、1预测;
12、计算每一所述待定样本的预测为1的预测概率值;
13、根据所述预测概率值从高到低选取预设数量的待定样本作为第一目标样本。
14、在一些实施例中,所述为所述第一目标样本和第二目标样本分配样本权重值,包括:
15、根据所述待定样本被所述第二决策树的预测总次数与被所述第二决策树预测为1的次数的比值,确定所述待定样本的预测概率值;
16、将所述待定样本的预测概率值作为所述待定样本对应的所述第一目标样本的样本权重值;
17、为所述第二目标样本分配样本权重值1。
18、在一些实施例中,所述根据所述第一目标样本、第二目标样本以及权重评价函数对第一决策树进行训练,包括:
19、对所述第一目标样本和第二目标样本开发样本特征;
20、根据分裂策略对所有所述样本特征中的可分裂点进行分裂直至满足分裂停止条件,其中,所述分裂策略包括:
21、计算各分裂点的权重评价函数值;
22、选取各分裂点中权重评价函数值最小的分裂点进行分裂。
23、在一些实施例中,所述选取所述第一决策树中符合预设条件的目标决策树分支对应的判定规则为可用判定规则,包括:
24、选取所述第一决策树中预测准确率大于第一预设阈值且打标为1的目标决策树分支;
25、修剪所述第一决策树中除所述目标决策树分支外的决策树分支以生成目标决策树;
26、利用所述目标决策树对新的预设时间段内的数据样本进行预测;
27、比较所述目标决策树的预测准确率是否大于等于第一预设阈值;
28、若所述目标决策树的预测准确率大于等于第一预设阈值,则确定所述目标决策树分支对应的判定规则为可用判定规则。
29、在一些实施例中,所述方法还包括第二决策树的训练过程:
30、随机选取判定样本并作为训练样本及验证样本,并对所述训练样本进行打标;
31、对所述训练样本开发多组样本特征,利用多组所述样本特征分别训练多个所述第二决策树;
32、根据所述验证样本验证所述第二决策树的预测准确率;
33、若所述预测准确率大于等于第二预设阈值,则所述第二决策树训练成功。
34、第二方面,本申请提供一种可用判定规则挖掘系统,所述系统包括:
35、样本处理模块,用于根据预设规则在历史样本中选取第一目标样本,并对所述第一目标样本进行打标;
36、所述样本处理模块,还用于随机选取判定样本为第二目标样本并对所述第二目标样本进行打标;
37、数据处理模块,用于为所述第一目标样本和第二目标样本分配样本权重值,并根据所述样本权重值生成权重评价函数;
38、所述数据处理模块,还用于根据所述第一目标样本、第二目标样本以及权重评价函数对第一决策树进行训练;
39、规则挖掘模块,用于选取所述第一决策树中符合预设条件的目标决策树分支对应的判定规则为可用判定规则。
40、第三方面,本申请提供了一种电子设备,所述电子设备包括:
41、一个或多个处理器;
42、以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
43、根据预设规则在历史样本中选取第一目标样本,并对所述第一目标样本进行打标;
44、随机选取判定样本为第二目标样本并对所述第二目标样本进行打标;
45、为所述第一目标样本和第二目标样本分配样本权重值,并根据所述样本权重值生成权重评价函数;
46、根据所述第一目标样本、第二目标样本以及权重评价函数对第一决策树进行训练;
47、选取所述第一决策树中符合预设条件的目标决策树分支对应的判定规则为可用判定规则。
48、第四方面,本申请还提供了一种计算机可读存储介质,所述存储介质上存储计算机程序,所述计算机程序使得计算机执行如下操作:
49、根据预设规则在历史样本中选取第一目标样本,并对所述第一目标样本进行打标;
50、随机选取判定样本为第二目标样本并对所述第二目标样本进行打标;
51、为所述第一目标样本和第二目标样本分配样本权重值,并根据所述样本权重值生成权重评价函数;
52、根据所述第一目标样本、第二目标样本以及权重评价函数对第一决策树进行训练;
53、选取所述第一决策树中符合预设条件的目标决策树分支对应的判定规则为可用判定规则。
54、本申请实现的有益效果为:
55、本申请提供了一种可用判定规则挖掘方法,包括根据预设规则在历史样本中选取第一目标样本,并对所述第一目标样本进行打标;随机选取判定样本为第二目标样本并对所述第二目标样本进行打标;为所述第一目标样本和第二目标样本分配样本权重值,并根据所述样本权重值生成权重评价函数;根据所述第一目标样本、第二目标样本以及权重评价函数对第一决策树进行训练;选取所述第一决策树中符合预设条件的目标决策树分支对应本文档来自技高网...
【技术保护点】
1.一种可用判定规则挖掘方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求1所述的方法,其特征在于,所述根据预设规则在历史样本中选取第一目标样本包括:
4.根据权利要求3所述的方法,其特征在于,所述为所述第一目标样本和第二目标样本分配样本权重值,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一目标样本、第二目标样本以及权重评价函数对第一决策树进行训练,包括:
6.根据权利要求1-5任一所述的方法,其特征在于,所述选取所述第一决策树中符合预设条件的目标决策树分支对应的判定规则为可用判定规则,包括:
7.根据权利要求3所述的方法,其特征在于,所述方法还包括第二决策树的训练过程:
8.一种可用判定规则挖掘系统,其特征在于,所述系统包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行权利要求1-7中任一项所述方法。
【技术特征摘要】
1.一种可用判定规则挖掘方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求1所述的方法,其特征在于,所述根据预设规则在历史样本中选取第一目标样本包括:
4.根据权利要求3所述的方法,其特征在于,所述为所述第一目标样本和第二目标样本分配样本权重值,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一目标样本、第二目标样本以及权重评价函数对第一决策树进行训练,包括:
6.根...
【专利技术属性】
技术研发人员:张亚飞,孟晓楠,强琦,
申请(专利权)人:浙江吉利控股集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。