【技术实现步骤摘要】
一种用户分类方法、装置、电子设备及存储介质
[0001]本专利技术涉及分析领域,具体涉及一种用户分类方法、装置、电子设备及存储介质。
技术介绍
[0002]在对用户进行精准营销的过程中,首先需要对用户进行分类。在用户行为埋点的过程中,一般会获取十几个甚至上百个维度的用户数据。在这些数据中,有很多数据是相互影响的,具有多重共线性。然而在实际过程中,我们通常无法区分哪些数据之间会相互影响,哪些数据对用户分类无用;我们在用户分类的过程中,数据维度过大会提高模型的复杂度,特别对于一些样本数据不足的情况,在对用户聚类时,训练的模型会泛化性差,且会显著的延长模型的训练时间。
技术实现思路
[0003]为解决现有数据维度过多所造成的用户分类时间过长的技术问题,本专利技术提供了一种用户分类方法,包括以下步骤:
[0004]对所采集的用户的行为数据进行抽样得到抽样数据;
[0005]基于所述抽样数据进行主成分分析以确定主成分参数所对应的特征向量矩阵;
[0006]基于所述特征向量矩阵和所述行为数据来确定主成分数据;
[0007]基于所述主成分数据来对所述用户进行分类。
[0008]在一些实施例中,所述基于所述抽样数据进行主成分分析以确定主成分参数所对应的特征向量矩阵,包括:
[0009]基于所述抽样数据的平均值来确定去均值矩阵;
[0010]基于所述去均值矩阵之间的协方差来确定协方差矩阵;
[0011]确定所述协方差矩阵的特征值和特征向量;
[00 ...
【技术保护点】
【技术特征摘要】
1.一种用户分类方法,其特征在于,包括:对所采集的用户的行为数据进行抽样得到抽样数据;基于所述抽样数据进行主成分分析以确定主成分参数所对应的特征向量矩阵;基于所述特征向量矩阵和所述行为数据来确定主成分数据;基于所述主成分数据来对所述用户进行分类。2.根据权利要求1所述的用户分类方法,其特征在于,所述基于所述抽样数据进行主成分分析以确定主成分参数所对应的特征向量矩阵,包括:基于所述抽样数据的平均值来确定去均值矩阵;基于所述去均值矩阵之间的协方差来确定协方差矩阵;确定所述协方差矩阵的特征值和特征向量;基于所述特征值和所述特征向量来确定所述主成分参数所对应的特征向量矩阵。3.根据权利要求2所述的用户分类方法,其特征在于,所述基于所述特征值和所述特征向量来确定所述主成分参数所对应的特征向量矩阵,包括:将所述特征值按照从大到小的第一顺序排序;分别确定每个所述特征值的数据贡献率;按照所述第一顺序逐个累计每个所述特征值的数据贡献率得到累计数据贡献率;在所述累计数据贡献率达到第一阈值的情况下,确定此时所述累计数据贡献率中每个数据贡献率所对应的特征值为主成分参数,所述主成分参数所对应的特征向量即为所述主成分参数所对应的特征向量矩阵。4.根据权利要求3所述的用户分类方法,其特征在于,所述分别确定每个所述特征值的数据贡献率,包括:基于以下表达式来分别确定所述每个特征值的数据贡献率:其中,σ
i
表示第i个特征值的标准差,表示第一个特征值到第k个特征值得方差之和,表示第一个特征值到第n个特征值得方差之和,n表示与原始维度数量相等的特征值数量。5.根据权利要求1所述的用户分类方法,其特征在于,所述基于所述特征向量矩阵和所述行为数据来确定主成分数据,包括:将所述行为数据所组成的原始数据矩阵与所述特征向量矩阵相乘的结果确定为所述主成分数据。6.根据权利要求1所述的用户分类方法,其特征在于,所述基于所述主成分数据来对所述用户进行分类,包括:获取每个用户组所对应的最终中心点;确定所述主成分数据中各个主成分数据与所述每个用户组所对应的最终中心点之间的距离;将距离最小的最终中心点所对应的用户组确定为所述用户的分类。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:获取所述用户组与所述用户组所对应的第一中心点;基于样本主成...
【专利技术属性】
技术研发人员:马璐寒,
申请(专利权)人:珠海格力电器股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。