The present invention discloses a method and a device for screening user characteristics. The method includes: extracting user feature sets the user feature set contains at least two user characteristics; for each user characteristics of the set of user characteristics in the dependent variable the user features, the user characteristics set the user characteristics of its user characteristics as independent variables, determine related factors for the user characteristics; the correlation factor of each user user features in the feature set and a preset threshold comparison, select the user characteristics according to the results of. The utility model solves the problem that the prior art can complete the screening of user characteristics only through manual intervention after the user's characteristics are extracted as much as possible, resulting in low screening efficiency of the user characteristics.
【技术实现步骤摘要】
一种筛选用户特征的方法及装置
本申请涉及机器学习
,尤其涉及一种筛选用户特征的方法及装置。
技术介绍
随着互联网的蓬勃发展,机器学习(MachineLearning,ML)技术作为一种新的技术,越来越受到人们的重视。机器学习技术通常用来分析和预测用户的行为,在实际应用中可以通过建立各种数学模型来实现。在数学模型的建立过程中,通常需要在网络中收集大量的用户数据,然后对这些用户数据进行分析和处理,从而提取用户数据中能够解释用户行为的用户特征,并将这些用户特征作为解释变量来建立数学模型。然而,在对网络中收集大量的用户数据进行分析和处理,进而提取用户特征时,由于事先很难知道所要分析的用户行为会和哪些用户特征有关,因此实际应用中通常会尽可能多的提取与所要分析的用户行相关的用户特征,由于用于奖励模型的用户特征增多,从而导致建立数学模型的时间较长,并且所建立的数学模型复杂。例如用于分析用户信用的数学模型中,通常会采集用户的收入信息和学历信息,但是通常收入信息和学历信息会用较强的依赖关系,如果将它们都作为解释变量,将会使该数学模型参数的数量增多,模型的建立时间加长,并且还会对模型的性能有所影响。现有技术在尽可能多的提取与所要分析的用户行相关的用户特征之后,只能通过人工干预的方式来完成对用户特征的筛选,从而导致用户特征的筛选效率较低。
技术实现思路
本申请实施例提供一种筛选用户特征的方法及装置,用于解决现有技术筛选用户特征效率低的问题。本专利技术实施例提供一种筛选用户特征的方法,所述方法包括:提取用户特征集合,所述用户特征集合至少包含两个用户特征;针对所述用户特征集合中的 ...
【技术保护点】
一种筛选用户特征的方法,其特征在于,包括:提取用户特征集合,所述用户特征集合至少包含两个用户特征;针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子;将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。
【技术特征摘要】
1.一种筛选用户特征的方法,其特征在于,包括:提取用户特征集合,所述用户特征集合至少包含两个用户特征;针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子;将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。2.如权利要求1所述的方法,其特征在于,所述将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选具体包括:将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,筛选出所述用户特征集合中关联因子大于预设阈值的用户特征子集合。3.如权利要求2所述的方法,其特征在于,当筛选出的用户特征子集合中至少包含两个用户特征时,所述方法还包括:通过用户特征子集合中每一个用户特征的标准差以及用户特征子集合中用户特征两两之间的协方差,确定用户特征子集合中用户特征两两之间的相关系数;将所确定的每一个相关系数取绝对值并分别与预设变量对比,当所述相关系数的绝对值大于所述预设变量时,将所述相关系数以及所述相关系数对应的两个用户特征构建为关联组;通过所构建的各个关联组,确定构建各个关联组的用户特征的特征相关分;根据所述特征相关分,筛选出至少一个用户特征。4.如权利要求3所述的方法,其特征在于,当特征相关分越高表示相关关系越强时,所述根据所述特征相关分,筛选出至少一个用户特征具体包括:提取最高特征相关分所对应的用户特征,并将所述用户特征构建筛选集合;根据特征相关分从高到低的顺序,针对构建各个关联组的每一个用户特征依次执行如下操作:获取所述用户特征和所述筛选集合中的每一个用户特征之间的相关系数;判断所获取的各相关系数的绝对值是否均小于第二阈值,若是,则...
【专利技术属性】
技术研发人员:杜玮,张柯,李文鹏,李屾,姜晓燕,王晓光,谢树坤,俞吴杰,朱训,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。