The embodiment of the invention described in the cases of traffic parameters acquisition method and related equipment, first configure the first candidate sample set, wherein, the first candidate sample set including a plurality of candidate samples, obtaining the first candidate samples for each candidate sample set the IV value in the first set of candidate samples IV value more than candidate samples the threshold is determined as the first primary sample, and will be the first to be selected in second samples of primary sample set, using stepwise discriminant analysis and / or clustering analysis of the second selected sample set to obtain significant standard target samples, the target sample for determining the traffic parameters, the use of IV the value of excluding non significant variables are second to select the sample set, through stepwise discriminant analysis and cluster analysis of second selected sample set has significant scale The target sample guarantees the diversity of variables, optimizes the existing variables selection process, and reduces the loss of variable information in the process of dimensionality reduction.
【技术实现步骤摘要】
一种业务参数选取方法及相关设备
本专利技术涉及数据处理领域,特别涉及一种业务参数选取方法及相关设备。
技术介绍
在用互联网数据建立模型时,我们往往要从海量的数据当中去挑选出对模型有用的业务参数,由于选取变量时候,会有海量的数据产生,直接利用这些数据进行业务开展的时候,会导致运算比较耗时,另外由于对业务参数的选取方式不恰当还会导致具有统计价值的业务参数的损失。
技术实现思路
有鉴于此,本专利技术实施例提供了一种业务参数选取方法及相关设备。第一方面,本专利技术实施例中提供的业务参数选取方法,所述方法包括:配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本:获取所述第一候选样本集合中每个候选样本的IV值;将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合;利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数。在一个可能的设计中,所述获取所述第一候选样本集合中每个候选样本的IV值具体包括:将所述候选样本按照预先配置的二级制文件个数进行 ...
【技术保护点】
一种业务参数选取方法,其特征在于,所述方法包括:配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本:获取所述第一候选样本集合中每个候选样本的IV值;将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合;利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数。
【技术特征摘要】
1.一种业务参数选取方法,其特征在于,所述方法包括:配置第一候选样本集合,其中,所述第一候选样本集合包括多个候选样本:获取所述第一候选样本集合中每个候选样本的IV值;将所述第一候选样本集合中IV值超过预设阈值的候选样本确定为第一初选样本,并将所述第一初选样本存入第二待选样本集合;利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本,所述目标样本用于确定所述业务参数。2.根据权利要求1所述的方法,其特征在于,所述获取所述第一候选样本集合中每个候选样本的IV值具体包括:将所述候选样本按照预先配置的二级制文件个数进行拆分;利用所述二进制文件与所述IV值的对应关系获得所述候选样本的IV值。3.根据权利要求1所述的方法,其特征在于,所述利用逐步判别分析和/或聚类分析对所述第二待选样本集合处理以得到具有显著性标准的目标样本具体包括:对所述第二待选样本集合进行逐步判别分析得到第三待处理样本集合和/或对所述第二待选样本集合进行聚类分析得到第四待处理样本集合;将所述第三待处理样本集合和/或第四待处理样本集合确定为所述目标样本。4.根据权利要求3所述的方法,其特征在于,所述对所述第二待选样本集合进行逐步判别分析得到第三待处理样本集合包括:利用所述逐步判别分析选出所述第二待选样本集合中多个具有显著性标准的第一变量及获取所述多个显著性标准的第一变量的N个输入至所述第三待处理样本集合,所述N为正整数,和/或将所述第二待选样本集合中第一待选样本均分为多个向前选择子集合并在每个所述向前选择子集合中选取出M个具有显著性的变量输入所述第三待处理样本集合,所述M为正整数。5.根据权利要求3所述的方法,其特征在于,对所述第二待选样本集合进行聚类分析得到第四待处理样本集合,具体包括:利用聚类分析将所述第二待选样本集合中第一初选样本进行分类得到多个具有不同类别的聚类分析集合;分别获取每个聚类分析集合中的具有显著性的变量组成所述第四待处理样本集合。6.一种业...
【专利技术属性】
技术研发人员:曾伟,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。