【技术实现步骤摘要】
一种用户样本特征优化处理方法和装置
本申请涉及计算机
,尤其涉及一种用户样本特征优化处理方法和装置。
技术介绍
随着信息技术的不断发展,时下已经步入大数据时代,商家或企业等可通过其提供的各种服务平台收集到海量用户样本,这些用户样本中通常具有很多特征,例如用户在网络上购物消费的金额,退换货的记录,购买金融投资产品的金额,用户A和用户B之间关系的紧密程度等,通过对这些用户样本的特征进行处理,进而输入模型进行训练,最终得到能够预测出新的用户行为的分类模型。得出分类模型之后,将新的用户样本经过处理输入上述分类模型,经过模型计算即可对该用户样本进行预测,例如,预测该用户为信用良好或信用较差等。对用户样本的特征进行处理时,通常是对特征值进行处理以得到该特征的新取值,目前常用的处理方法为最大值最小值处理法,其步骤如下:第一步,统计出用户样本在特征上的最大值与最小值;第二步,利用最大值最小值法将每个用户样本的该特征的取值进行处理,由此将特征的新取值范围映射到了0到1之间。利用上述最大值最小值处理法对用户样本特征值处理,容易使处理后特征的新取值不能贴合正样本浓度的变化趋势,最 ...
【技术保护点】
一种用户样本特征优化处理方法,其特征在于,包括:确定用户样本集内用户样本的待优化特征,所述用户样本集中包括有正样本;根据各个用户样本的所述特征的取值以预定的N个分位点将用户样本集内的用户样本划分到N+1个区间,N为大于1的正整数;对于N+1个区间中的每一个区间,均计算每一个区间中正样本的数量占区间整体用户样本数量的比值;将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。
【技术特征摘要】
1.一种用户样本特征优化处理方法,其特征在于,包括:确定用户样本集内用户样本的待优化特征,所述用户样本集中包括有正样本;根据各个用户样本的所述特征的取值以预定的N个分位点将用户样本集内的用户样本划分到N+1个区间,N为大于1的正整数;对于N+1个区间中的每一个区间,均计算每一个区间中正样本的数量占区间整体用户样本数量的比值;将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。2.根据权利要求1所述的方法,其特征在于,将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值之后,所述方法还包括:对用户样本的所述特征的新取值进行归一化处理。3.根据权利要求2所述的方法,其特征在于,对用户样本的所述特征的新取值进行归一化处理,具体包括:确定所述特征的新取值中的最大值与最小值;对所述特征中的每一个新取值,均按如下公式进行处理,将处理后的数值作为所述特征的取值:其中,Fnew为进行处理后的数值,Fold为进行处理之前所述特征的新取值,Fmax、Fmin分别为所述特征新取值中的最大值与最小值。4.根据权利要求1所述的方法,其特征在于,将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值之前,所述方法还包括:选取出每个区间中的比值和所述预定分位点所确定的预设值之间不满足线性关系的特征。5.根据权利要求1所述的方法,其特征在于,根据各个用户样本的所述特征的取值以预定的N个分位点将用户样本集内的用户样本划分到N+1个区间,具体包括:根据各个用户样本的所述特征的取值进行排序;将N个分位点上对应的取值作为边界,将用户样本集内的用户样本分成N+...
【专利技术属性】
技术研发人员:席炎,张柯,余舟华,漆远,杨军,李澜博,黄俊,叶伟,郭曦,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。