【技术实现步骤摘要】
一种用户的分类方法及装置
本申请涉及数据处理领域,尤其是涉及一种用户的分类方法及装置。
技术介绍
人的本质在其现实性上是一切社会关系的总和,对于不同的用户,其所具有的特性在某种意义上也表征了一些其他的特性,如工作区域与职业类型的关联、消费习惯与收入水平的关联等等。对于一些行业,掌握用户类别对于开展各项业务是具有极大的推进作用。目前,很多行业通过多种方式对用户进行信息分类,以达到开展针对不同用户类型业务的目的。但是现有技术中在对用户进行信息分类时,只能根据单一特征对用户进行分类,分类结果不够精准。因此,更加精准的对用户进行分类就显得尤为重要。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种用户的分类方法及装置,能够对用户进行分类,提升用户分类的精准性。第一方面,本申请实施例提供了一种用户的分类方法,包括:获取多个样本待分类用户中每个样本待分类用户的待选用户属性特征下的特征值;所述用户属性特征包括用户居住区域、房屋价格、房屋面积以及楼层中一种或者多种;基于各个样 ...
【技术保护点】
1.一种用户的分类方法,其特征在于,包括:/n获取多个样本待分类用户中每个样本待分类用户的待选用户属性特征下的特征值;所述用户属性特征包括用户居住区域、房屋价格、房屋面积以及楼层中一种或者多种;/n基于各个样本待分类用户的待选用户属性特征下的特征值,对所述待选用户属性特征进行筛选,从所述待选用户属性特征中,确定至少一个选定用户属性特征;/n基于各个所述样本待分类用户的在各个选定用户属性特征下的特征值,构成用于表征各个样本待分类用户属性特征的特征矩阵;/n基于各个样本待分类用户的特征矩阵,训练得到用户分群模型;/n基于预先训练的用户分群模型中,对待分类用户进行分群。/n
【技术特征摘要】
1.一种用户的分类方法,其特征在于,包括:
获取多个样本待分类用户中每个样本待分类用户的待选用户属性特征下的特征值;所述用户属性特征包括用户居住区域、房屋价格、房屋面积以及楼层中一种或者多种;
基于各个样本待分类用户的待选用户属性特征下的特征值,对所述待选用户属性特征进行筛选,从所述待选用户属性特征中,确定至少一个选定用户属性特征;
基于各个所述样本待分类用户的在各个选定用户属性特征下的特征值,构成用于表征各个样本待分类用户属性特征的特征矩阵;
基于各个样本待分类用户的特征矩阵,训练得到用户分群模型;
基于预先训练的用户分群模型中,对待分类用户进行分群。
2.根据权利要求1所述的方法,其特征在于,所述基于各个样本待分类用户的待选用户属性特征下的特征值,对所述待选用户属性特征进行筛选,包括:
针对每种待选用户属性特征,基于各个所述样本待分类用户分别在该待选用户属性特征下的特征值,得到该待选用户属性特征对应的标准差;将该待选用户属性特征对应的标准差与预设标准差阈值进行比对;
若该待选用户属性特征对应的标准差大于所述预设标准差预阈值,则将该待选用户属性特征确定为选定用户属性特征。
3.根据权利要求1所述的方法,其特征在于,基于各个所述样本待分类用户的在各个选定用户特征下的特征值,构成用于表征各个样本待分类用户属性特征的特征矩阵,包括:
针对在所有选定用户特征下均不存在特征值确实的样本待分类用户,基于该样本待分类用户在各个选定用户特征下均不存在特征值,构成该样本待分类用户的特征矩阵;
针对在任一选定用户特征下存在特征值缺失的样本待分类用户,基于除该样本待分类用户外的其他样本待分类用户在该任一选定用户特征下的特征值,对该样本待分类用户在该任一选定用户特征下的特征值进行数据填充,得到该样本待分类用户在该任一选定用户特征下的填充值;
基于该样本待分类用户在该任一选定用户特征下的填充值,以及该样本待分类用户在其他未存在缺失的选定用户特征下的特征值,构成该样本待分类用户的特征矩阵。
4.根据权利要求3所述的方法,其特征在于,基于除该样本待分类用户外的其他样本待分类用户在该任一选定用户特征下的特征值,对该样本待分类用户在该任一选定用户特征下的特征值进行数据填充,包括:
确定除该样本待分类用户外的其他样本待分类用户在该任一选定用户特征下的特征值的平均数或众数,基于确定的所述平均数或者众数,对该样本待分类用户在该任一选定用户特征下的特征值进行数据填充。
5.根据权利要求1所述的方法,其特征在于,所述用户分群模型包括:岭回归模型、套索回归模型、弹性网络模型、轻量级梯度提升机模型、以及梯度回归决策树模型;
基于各个样本待分类用户的特征矩阵,训练得到用户分群模型,包括:
针对每个样本待分类用户,将该样本待分类用户的特征矩阵依次输入至岭回归模型、套索回归模型、弹性网络模型、轻量级梯度提升机模型、以及梯度回归决策树模型,得到与岭回归模型、套索回归模型、弹性网络模型、轻量级梯度提升机模型、以及梯度回归决策树模型分别对应的中间预测分类结果;
基于岭回归模型、套索回归模型、弹性网络模型、轻量级梯度提升机模型、以及梯度回归决策树模型分别对应的中间预测分类结果,得到与该样本待分类用户对应的预测分类结果;
基于各个样本待分类用户分别对应的实际分类结果,以及预测分类结果,对岭回归模型、套索回归模型、弹性网络模型、轻量级梯度提升机模型、以及梯度回归决策树模型进行本轮训练,并训练岭回归模型、套索回归模型、弹性网络模型、轻量级梯度提升机模型、以及梯度回归决策树模型分别对应的权重;
对岭回归模型、套索回归模型、弹性网络模型、轻量级梯度提升机模型、以及梯度回归决策树模型进行多轮训练,得到用户分群模型。
6.一种用户的分类装置,其特征在于,包括:
获取模块,用于获取多个样本待分类用户中每个样本待分类用户的待选用户属性特征下的特征值;所述用户属性特征包括用户居住区域、房屋价格、房屋面积以及楼层中一种或者多种;
筛选模块,用于基于各个样本待分类用户的待选用户属性特征下的特征...
【专利技术属性】
技术研发人员:张茂洪,
申请(专利权)人:恩亿科北京数据科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。