一种用户分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33809077 阅读:14 留言:0更新日期:2022-06-16 10:18
本发明专利技术公开了一种用户分类方法、装置、电子设备及存储介质,包括:对所采集的用户的行为数据进行抽样得到抽样数据;基于抽样数据进行主成分分析以确定主成分参数所对应的特征向量矩阵;基于特征向量矩阵和行为数据来确定主成分数据;基于主成分数据来对用户进行分类。类。类。

【技术实现步骤摘要】
一种用户分类方法、装置、电子设备及存储介质


[0001]本专利技术涉及分析领域,具体涉及一种用户分类方法、装置、电子设备及存储介质。

技术介绍

[0002]在对用户进行精准营销的过程中,首先需要对用户进行分类。在用户行为埋点的过程中,一般会获取十几个甚至上百个维度的用户数据。在这些数据中,有很多数据是相互影响的,具有多重共线性。然而在实际过程中,我们通常无法区分哪些数据之间会相互影响,哪些数据对用户分类无用;我们在用户分类的过程中,数据维度过大会提高模型的复杂度,特别对于一些样本数据不足的情况,在对用户聚类时,训练的模型会泛化性差,且会显著的延长模型的训练时间。

技术实现思路

[0003]为解决现有数据维度过多所造成的用户分类时间过长的技术问题,本专利技术提供了一种用户分类方法,包括以下步骤:
[0004]对所采集的用户的行为数据进行抽样得到抽样数据;
[0005]基于所述抽样数据进行主成分分析以确定主成分参数所对应的特征向量矩阵;
[0006]基于所述特征向量矩阵和所述行为数据来确定主成分数据;
[0007]基于所述主成分数据来对所述用户进行分类。
[0008]在一些实施例中,所述基于所述抽样数据进行主成分分析以确定主成分参数所对应的特征向量矩阵,包括:
[0009]基于所述抽样数据的平均值来确定去均值矩阵;
[0010]基于所述去均值矩阵之间的协方差来确定协方差矩阵;
[0011]确定所述协方差矩阵的特征值和特征向量;
[0012]基于所述特征值和所述特征向量来确定所述主成分参数所对应的特征向量矩阵。
[0013]在一些实施例中,所述基于所述特征值和所述特征向量来确定所述主成分参数所对应的特征向量矩阵,包括:
[0014]将所述特征值按照从大到小的第一顺序排序;
[0015]分别确定每个所述特征值的数据贡献率;
[0016]按照所述第一顺序逐个累计每个所述特征值的数据贡献率得到累计数据贡献率;
[0017]在所述累计数据贡献率达到第一阈值的情况下,确定此时所述累计数据贡献率中每个数据贡献率所对应的特征值为主成分参数,所述主成分参数所对应的特征向量即为所述主成分参数所对应的特征向量矩阵。
[0018]在一些实施例中,所述分别确定每个所述特征值的数据贡献率,包括:
[0019]基于以下表达式来分别确定所述每个特征值的数据贡献率:
[0020][0021]其中,σ
i
表示第i个特征值的标准差,表示第一个特征值到第k个特征值得方差之和,表示第一个特征值到第n个特征值得方差之和,n表示与原始维度数量相等的特征值数量。
[0022]在一些实施例中,所述基于所述特征向量矩阵和所述行为数据来确定主成分数据,包括:
[0023]将所述行为数据所组成的原始数据矩阵与所述特征向量矩阵相乘的结果确定为所述主成分数据。
[0024]在一些实施例中,所述基于所述主成分数据来对所述用户进行分类,包括:
[0025]获取每个用户组所对应的最终中心点;
[0026]确定所述主成分数据中各个主成分数据与所述每个用户组所对应的最终中心点之间的距离;
[0027]将距离最小的最终中心点所对应的用户组确定为所述用户的分类。
[0028]在一些实施例中,所述方法还包括:
[0029]获取所述用户组与所述用户组所对应的第一中心点;
[0030]基于样本主成分数据与所述用户组所对应的第一中心点之间的距离分别将所述样本主成分数据中的每个样本主成分数据划分到相应的用户组,得到第一划分结果;
[0031]基于所述第一划分结果来确定所述每个用户组所对应的第二中心点;
[0032]基于所述样本主成分数据与所述每个用户组所对应的第二中心点之间的距离分别将所述样本主成分数据中的每个样本主成分数据划分到相应的用户组,得到第二划分结果;
[0033]基于所述第二划分结果来确定所述每个用户组所对应的第n中心点;
[0034]基于所述每个用户组所对应的第n中心点来确定所述每个用户组所对应的最终中心点。
[0035]在一些实施例中,所述基于所述每个用户组所对应的第n中心点来确定所述每个用户组所对应的最终中心点,包括:
[0036]在确定所述每个用户组所对应的第n中心点与所述每个用户组所对应的第n

1中心点之间没有变化的情况下,将所述每个用户组所对应的第n中心点确定为所述每个用户组所对应的最终中心点。
[0037]在一些实施例中,所述方法还包括:
[0038]获取所述用户组与所述用户组所对应的第一初始中心点;
[0039]基于样本主成分数据与所述用户组所对应的第一初始中心点之间的距离分别将所述样本主成分数据中的每个样本主成分数据划分到相应的用户组,得到第三划分结果;
[0040]基于所述第三划分结果来确定所述每个用户组中各数据的方差,所述方差记为所述第一初始中心点所对应的方差信息;
[0041]获取所述用户组与所述用户组所对应的第n初始中心点;
[0042]确定所述第n初始中心点所对应的第n方差信息,此时存在n个方差信息;
[0043]将所述n个方差信息中最小的方差信息所对应的初始中心点确定为最终中心点。
[0044]本专利技术还提供了一种用户分类装置,包括:
[0045]抽样模块,用于对所采集的用户的行为数据进行抽样得到抽样数据;
[0046]第一确定模块,用于基于所述抽样数据进行主成分分析以确定主成分参数所对应的特征向量矩阵;
[0047]第二确定模块,用于基于所述特征向量矩阵和所述行为数据来确定主成分数据;
[0048]分类模块,用于基于所述主成分数据来对所述用户进行分类。
[0049]本专利技术还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如上所述的用户分类方法。
[0050]本专利技术还提供了一种存储介质,该存储介质存储的计算机程序能够被一个或多个处理器执行,能够用来实现如上所述的用户分类方法。
[0051]与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
[0052]本申请通过采用主成分分析方法,降低了训练用户分类模型的时间,实现了对用户进行分类的目的。
附图说明
[0053]通过结合附图阅读下文示例性实施例的详细描述可更好地理解本公开的范围。其中所包括的附图是:
[0054]图1示出了本专利技术实施例提供的一种用户分类方法的实现流程示意图;
[0055]图2示出了本专利技术实施例提供的一种用户分类方法的实现流程示意图;
[0056]图3示出了本专利技术实施例提供的一种显示装置的结构示意图;
[0057]图4示出了本专利技术实施例提供的电子设备的组成结构示意图。
具体实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户分类方法,其特征在于,包括:对所采集的用户的行为数据进行抽样得到抽样数据;基于所述抽样数据进行主成分分析以确定主成分参数所对应的特征向量矩阵;基于所述特征向量矩阵和所述行为数据来确定主成分数据;基于所述主成分数据来对所述用户进行分类。2.根据权利要求1所述的用户分类方法,其特征在于,所述基于所述抽样数据进行主成分分析以确定主成分参数所对应的特征向量矩阵,包括:基于所述抽样数据的平均值来确定去均值矩阵;基于所述去均值矩阵之间的协方差来确定协方差矩阵;确定所述协方差矩阵的特征值和特征向量;基于所述特征值和所述特征向量来确定所述主成分参数所对应的特征向量矩阵。3.根据权利要求2所述的用户分类方法,其特征在于,所述基于所述特征值和所述特征向量来确定所述主成分参数所对应的特征向量矩阵,包括:将所述特征值按照从大到小的第一顺序排序;分别确定每个所述特征值的数据贡献率;按照所述第一顺序逐个累计每个所述特征值的数据贡献率得到累计数据贡献率;在所述累计数据贡献率达到第一阈值的情况下,确定此时所述累计数据贡献率中每个数据贡献率所对应的特征值为主成分参数,所述主成分参数所对应的特征向量即为所述主成分参数所对应的特征向量矩阵。4.根据权利要求3所述的用户分类方法,其特征在于,所述分别确定每个所述特征值的数据贡献率,包括:基于以下表达式来分别确定所述每个特征值的数据贡献率:其中,σ
i
表示第i个特征值的标准差,表示第一个特征值到第k个特征值得方差之和,表示第一个特征值到第n个特征值得方差之和,n表示与原始维度数量相等的特征值数量。5.根据权利要求1所述的用户分类方法,其特征在于,所述基于所述特征向量矩阵和所述行为数据来确定主成分数据,包括:将所述行为数据所组成的原始数据矩阵与所述特征向量矩阵相乘的结果确定为所述主成分数据。6.根据权利要求1所述的用户分类方法,其特征在于,所述基于所述主成分数据来对所述用户进行分类,包括:获取每个用户组所对应的最终中心点;确定所述主成分数据中各个主成分数据与所述每个用户组所对应的最终中心点之间的距离;将距离最小的最终中心点所对应的用户组确定为所述用户的分类。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:获取所述用户组与所述用户组所对应的第一中心点;基于样本主成...

【专利技术属性】
技术研发人员:马璐寒
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1