一种筛选用户特征的方法及装置制造方法及图纸

技术编号:15690879 阅读:81 留言:0更新日期:2017-06-24 03:37
本申请公开了一种筛选用户特征的方法及装置。该方法包括:提取用户特征集合,所述用户特征集合至少包含两个用户特征;针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子;将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。从而解决了,现有技术在尽可能多的提取的用户特征之后,只能通过人工干预的方式来完成对用户特征的筛选,导致用户特征的筛选效率低的问题。

Method and device for screening user characteristics

The present invention discloses a method and a device for screening user characteristics. The method includes: extracting user feature sets the user feature set contains at least two user characteristics; for each user characteristics of the set of user characteristics in the dependent variable the user features, the user characteristics set the user characteristics of its user characteristics as independent variables, determine related factors for the user characteristics; the correlation factor of each user user features in the feature set and a preset threshold comparison, select the user characteristics according to the results of. The utility model solves the problem that the prior art can complete the screening of user characteristics only through manual intervention after the user's characteristics are extracted as much as possible, resulting in low screening efficiency of the user characteristics.

【技术实现步骤摘要】
一种筛选用户特征的方法及装置
本申请涉及机器学习
,尤其涉及一种筛选用户特征的方法及装置。
技术介绍
随着互联网的蓬勃发展,机器学习(MachineLearning,ML)技术作为一种新的技术,越来越受到人们的重视。机器学习技术通常用来分析和预测用户的行为,在实际应用中可以通过建立各种数学模型来实现。在数学模型的建立过程中,通常需要在网络中收集大量的用户数据,然后对这些用户数据进行分析和处理,从而提取用户数据中能够解释用户行为的用户特征,并将这些用户特征作为解释变量来建立数学模型。然而,在对网络中收集大量的用户数据进行分析和处理,进而提取用户特征时,由于事先很难知道所要分析的用户行为会和哪些用户特征有关,因此实际应用中通常会尽可能多的提取与所要分析的用户行相关的用户特征,由于用于奖励模型的用户特征增多,从而导致建立数学模型的时间较长,并且所建立的数学模型复杂。例如用于分析用户信用的数学模型中,通常会采集用户的收入信息和学历信息,但是通常收入信息和学历信息会用较强的依赖关系,如果将它们都作为解释变量,将会使该数学模型参数的数量增多,模型的建立时间加长,并且还会对模型的性能有所影响。现有技术在尽可能多的提取与所要分析的用户行相关的用户特征之后,只能通过人工干预的方式来完成对用户特征的筛选,从而导致用户特征的筛选效率较低。
技术实现思路
本申请实施例提供一种筛选用户特征的方法及装置,用于解决现有技术筛选用户特征效率低的问题。本专利技术实施例提供一种筛选用户特征的方法,所述方法包括:提取用户特征集合,所述用户特征集合至少包含两个用户特征;针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子;将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。优选的,所述将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选具体包括:将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,筛选出所述用户特征集合中关联因子大于预设阈值的用户特征子集合。优选的,当筛选出的用户特征子集合中至少包含两个用户特征时,所述方法还包括:通过用户特征子集合中每一个用户特征的标准差以及用户特征子集合中用户特征两两之间的协方差,确定用户特征子集合中用户特征两两之间的相关系数;将所确定的每一个相关系数取绝对值并分别与预设变量对比,当所述相关系数的绝对值大于所述预设变量时,将所述相关系数以及所述相关系数对应的两个用户特征构建为关联组;通过所构建的各个关联组,确定构建各个关联组的用户特征的特征相关分;根据所述特征相关分,筛选出至少一个用户特征。优选的,当特征相关分越高表示相关关系越强时,所述根据所述特征相关分,筛选出至少一个用户特征具体包括:提取最高特征相关分所对应的用户特征,并将所述用户特征构建筛选集合;根据特征相关分从高到低的顺序,针对构建各个关联组的每一个用户特征依次执行如下操作:获取所述用户特征和所述筛选集合中的每一个用户特征之间的相关系数;判断所获取的各相关系数的绝对值是否均小于第二阈值,若是,则将所述用户特征放入所述筛选集合;筛选出筛选集合中的用户特征。优选的,当所确定的每一个相关系数的绝对值均小于预设变量时,减小所述预设变量并将所确定的每一个相关系数的绝对值分别与减小后的预设变量对比。优选的,当用户特征集合中每一个用户特征的方差膨胀因子均小于预设阈值时,所述用户特征子集合具体为空集。优选的,所述以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的方差膨胀因子具体包括:以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,通过逻辑回归确定所述用户特征的方差膨胀因子。优选的,所述用户特征用于建立分析用户行为的数学模型。优选的,所述关联因子具体包括方差膨胀因子。本专利技术实施例还提供一种筛选用户特征的装置,所述装置包括:提取单元、确定单元和筛选单元,其中:提取单元,用于提取用户特征集合,所述用户特征集合至少包含两个用户特征;确定单元,用于针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的方差膨胀因子;筛选单元,用于将用户特征集合中每一个用户特征的方差膨胀因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。优选的,所述筛选单元包括筛选子单元,用于将用户特征集合中每一个用户特征的方差膨胀因子分别和预设阈值对比,筛选出所述用户特征集合中方差膨胀因子大于预设阈值的用户特征子集合,所述用户特征子集合包括空集。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:根据所确定的每一个用户特征的关联因子,将各关联因子分别和预设阈值进行对比,从而对用户特征集合中的用户特征进行筛选,提高了用户特征的筛选效率。从而解决了,现有技术在尽可能多的提取的用户特征之后,只能通过人工干预的方式来完成对用户特征的筛选,导致用户特征的筛选效率低的问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例1提供的一种筛选用户特征的方法的具体实现流程示意图;图2为本申请实施例2提供的一种筛选用户特征的方法的具体实现流程示意图;图3为本申请实施例3提供的一种筛选用户特征的方法的具体实现流程示意图;图4为本申请实施例4提供的一种筛选用户特征的装置的具体结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。实施例1实施例1提供了一种筛选用户特征的方法,用于解决现有技术只能通过人工干预的方式来完成对用户特征的筛选,导致用户特征的筛选效率低的问题。该方法的具体流程示意图如图1所示,包括下述步骤:步骤11:提取用户特征集合。所述用户特征集合至少包含两个用户特征,用户特征是用户各属性抽象的结果,这些属性可以包括年龄、性别、收入等。由于用户特征提取之后用于建立数学模型,所以提取的用户特征集合包含的用户特征可以根据所要建立的模型来确定,例如当建立评估用户信用的模型时,该用户特征集合包含的用户特征至少有用户年龄、用户收入等一般来说,在提取用户特征集合前先建立用户数据库,然后从用户数据库中提取用户特征集合,不过本申请并不限于这种方式提取用户特征集合,也可以是问卷调查等形式提取用户特征集合,甚至也可以任意的方式选取用户特征集合,提取用户特征集合的方式并不会影响本申请的技术效果。但是,在实际应用中,如果提取用户特征集合的目的最终是用于建立数学模型,用以评估用户行为,用户特征集合中包含的用户特征可以从用户数据库中本文档来自技高网...
一种筛选用户特征的方法及装置

【技术保护点】
一种筛选用户特征的方法,其特征在于,包括:提取用户特征集合,所述用户特征集合至少包含两个用户特征;针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子;将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。

【技术特征摘要】
1.一种筛选用户特征的方法,其特征在于,包括:提取用户特征集合,所述用户特征集合至少包含两个用户特征;针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子;将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。2.如权利要求1所述的方法,其特征在于,所述将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选具体包括:将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,筛选出所述用户特征集合中关联因子大于预设阈值的用户特征子集合。3.如权利要求2所述的方法,其特征在于,当筛选出的用户特征子集合中至少包含两个用户特征时,所述方法还包括:通过用户特征子集合中每一个用户特征的标准差以及用户特征子集合中用户特征两两之间的协方差,确定用户特征子集合中用户特征两两之间的相关系数;将所确定的每一个相关系数取绝对值并分别与预设变量对比,当所述相关系数的绝对值大于所述预设变量时,将所述相关系数以及所述相关系数对应的两个用户特征构建为关联组;通过所构建的各个关联组,确定构建各个关联组的用户特征的特征相关分;根据所述特征相关分,筛选出至少一个用户特征。4.如权利要求3所述的方法,其特征在于,当特征相关分越高表示相关关系越强时,所述根据所述特征相关分,筛选出至少一个用户特征具体包括:提取最高特征相关分所对应的用户特征,并将所述用户特征构建筛选集合;根据特征相关分从高到低的顺序,针对构建各个关联组的每一个用户特征依次执行如下操作:获取所述用户特征和所述筛选集合中的每一个用户特征之间的相关系数;判断所获取的各相关系数的绝对值是否均小于第二阈值,若是,则...

【专利技术属性】
技术研发人员:杜玮张柯李文鹏李屾姜晓燕王晓光谢树坤俞吴杰朱训
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1