A feature screening method is disclosed to solve the problem of low efficiency of feature screening in the manner in which manual screening characteristics are used in the prior art. The method includes: determining the feature set in the feature of machine learning algorithm, feature weights; machine learning algorithm to select weights: as features of the sample values as the input to the feature selection history as a probability to determine features of business models that contain variables as the value of the specified output training machine learning algorithm, the a machine learning algorithm of weight; according to the characteristic of the machine learning algorithm is used to determine the weights, screening business model features included variables from the set of features; including the business model variables used to implement business model business function. A feature screening device is also disclosed.
【技术实现步骤摘要】
一种特征筛选方法及装置
本申请涉及计算机
,尤其涉及一种特征筛选方法及装置。
技术介绍
目前,人们可以利用构建的业务模型,实现业务功能。这里所说的业务功能,比如是输出表示用户信用等级或用户消费能力的数据,等等。在业务模型构建完毕后,可以将数据赋值给业务模型包含的变量,以触发业务模型输出相应的结果。需要说明的是,业务模型,一般是指包含“与期望业务模型实现的业务功能相关的变量”的数学模型(比如计算公式)。其中,与期望业务模型实现的业务功能相关的变量,是根据与所述业务功能相关的特征确定的。具体而言,在现有技术中,技术人员可以依靠以往的业务经验,采用人工一一分析特征并进行选取的方式,选取出与所述业务功能比较相关的特征,进而根据该些特征,确定与所述业务功能相关的变量。例如,以所要构建的业务模型为用户信用评估模型为例,技术人员可以通过一一分析与用户信用相关的特征,选取出与期望该用户信用评价模型实现的业务功能相关的包括用户的工作单位性质、用户的偿还能力以及用户的人脉关系在内的特征,并根据该些特征,确定分别对应于用户的工作单位性质、用户的偿还能力以及用户的人脉关系的变量e、 ...
【技术保护点】
一种特征筛选方法,其特征在于,包括:确定特征集合中特征的机器学习算法权值;其中,特征的机器学习算法权值为:以选取作为样本的特征的值为输入,以特征历史上被选取作为确定业务模型包含的变量的特征的概率值为输出训练指定机器学习算法后,得到的机器学习算法的权值;根据所述特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征;所述业务模型包含的变量用于实现业务模型的业务功能。
【技术特征摘要】
1.一种特征筛选方法,其特征在于,包括:确定特征集合中特征的机器学习算法权值;其中,特征的机器学习算法权值为:以选取作为样本的特征的值为输入,以特征历史上被选取作为确定业务模型包含的变量的特征的概率值为输出训练指定机器学习算法后,得到的机器学习算法的权值;根据所述特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征;所述业务模型包含的变量用于实现业务模型的业务功能。2.如权利要求1所述的方法,其特征在于,确定特征集合中特征的机器学习算法权值,包括:选取样本构成样本集合;其中所述样本集合中的各样本具备所述特征集合中的部分或全部的特征;通过分别利用所述样本集合中样本的特征的值对至少两个指定机器学习算法分别进行训练,确定所述特征集合中特征的机器学习算法权值。3.如权利要求2所述的方法,其特征在于,所述特征集合中的特征,包括:与待建立的所述业务模型预期实现的业务功能具有关联关系的特征。4.如权利要求2所述的方法,其特征在于,通过分别利用样本集合中样本的特征的值对至少两个指定机器学习算法分别进行训练,确定所述特征的机器学习算法权值,包括:通过对所述样本集合中的样本进行抽样,得到至少两个样本子集;所述样本子集由抽样得到的样本构成;通过利用所述样本子集中的各样本的特征的值对所述至少两个指定机器学习算法分别进行训练,确定所述样本子集中各样本的特征的机器学习算法权值。5.如权利要求4所述的方法,其特征在于,通过对所述样本集合中的样本进行抽样,包括:通过重复执行下述操作,以构建出至少两个样本子集:从所述样本集合中,随机抽取数量小于所述样本集合中所包含样本的数量的样本构建单个样本子集。6.如权利要求4或5所述的方法,其特征在于,根据所述特征的机器学习算法权值,从所述特征集合中筛选用于确定业务模型包含的变量的特征,包括:根据所述特征的机器学习算法权值,分别计算所述特征对应的筛选总分;所述筛选总分表示:所述特征被选取作为确定业务模型包含的变量的特征的概率;根据所述筛选总分,从所述特征集合中筛选用于确定业务模型包含的变量的特征。7.如权利要求6所述的方法,其特征在于,根据所述特征的机器学习算法权值,分别计算所述特征对应的筛选总分,包括:根据各样本子集中各样本的特征的机器学习算法权值,计算所述各样本子集中各特征对应的筛选分数;通过对同一特征在包括该特...
【专利技术属性】
技术研发人员:席炎,张柯,谢树坤,黄俊,付子豪,杨强鹏,李文鹏,王晓光,余舟华,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。