数据处理方法及装置制造方法及图纸

技术编号:32644359 阅读:16 留言:0更新日期:2022-03-12 18:23
本公开提供一种数据处理方法及装置,所述数据处理方法包括:获取多个用户执行业务操作的历史行为数据样本;基于历史行为数据样本中的预设数据特征,按照与预设数据特征的特征值对应的用户数量,对预设数据特征的特征值进行排序,得到特征数据集;基于预设数据特征的不同特征值所对应的用户数量之间的变化信息,对特征数据集进行分层,得到每个用户的分层信息;基于每个用户的分层信息,对每个用户进行分类。根据本公开的数据处理方法及装置解决了现有的数据处理方法效率较低且缺乏可靠的分析结果的问题,能够对用户行为数据进行自动化的分析,提高数据处理效率,并且还能够考虑到数据本身的变化对用户进行划分,提高用户分类的准确性。的准确性。的准确性。

【技术实现步骤摘要】
数据处理方法及装置


[0001]本公开涉及数据处理
,更具体地讲,涉及一种数据处理方法及装置。

技术介绍

[0002]随着互联网技术的飞速发展和大数据时代的到来,在各类业务领域产生了大量的用户行为数据,这些用户行为数据与用户本身的行为特征存在着潜在的关联性,通过分析用户行为数据,可以对用户进行分类,以针对不同类别用户的目标需求提供匹配的信息或服务,以提高信息或服务推送效率,减小信息或服务提供端的数据处理压力。
[0003]在现有的一些用户行为数据分析方法中,一般是依靠人为硬分隔行为数据的方式对用户群体进行分层,对于这样的数据处理方法,一方面,人工操作的效率较低,无法应对大数据时代激增的数据处理需求;另一方面,这样的分层结果缺乏可靠的分层理论依据,并且没有充分考虑到数据本身的特异性。

技术实现思路

[0004]鉴于现有的对用户行为数据的处理方法的效率较低且缺乏可靠的分析结果的问题,本公开提供一种数据处理方法及装置。
[0005]根据本公开的第一方面,提供一种数据处理方法,所述数据处理方法包括:获取多个用户执行业务操作的历史行为数据样本;基于所述历史行为数据样本中的预设数据特征,按照与所述预设数据特征的特征值对应的用户数量,对所述预设数据特征的特征值进行排序,得到特征数据集;基于所述预设数据特征的不同特征值所对应的用户数量之间的变化信息,对所述特征数据集进行分层,得到每个用户的分层信息,所述分层信息指示该用户处于所述特征数据集的哪一层;基于每个用户的分层信息,对每个用户进行分类。r/>[0006]可选地,所述预设数据特征为连续变量特征,所述连续变量特征指的是具有任意取值的特征值的数据特征,其中,基于所述预设数据特征的不同特征值所对应的用户数量之间的变化信息,对所述特征数据集进行分层的步骤包括:按照第一预设条件,将所述特征数据集划分为预设层数,其中,所述第一预设条件为:将当前信息熵最大的数据集分层为两个数据集,使得分层前的数据集与分层后的两个数据集之间的信息增益最大,所述信息增益根据分层前的数据集的信息熵与分层后的两个数据集的信息熵之和之间的差值来确定,其中,所述信息熵基于特征值以及特征值所对应的用户数量来确定。
[0007]可选地,所述信息增益通过以下表达式确定:
[0008][0009]其中,E(D)表示分层前的数据集D的信息熵,和分别表示以所述预设数据特征的特征值g
i
作为切分点分层的第一数据集和第二数据集,和分别表示所述第一数据集和所述第二数据集的信息熵,运算符|
·
|表示集合中的样本个数。
[0010]在上述表达式中,其中,x
k
表示数据样本k的所述预设数据特征的特征值。
[0011]在上述表达式中,其中,m
g
表示数据集D中的所述预设数据特征的特征值的个数,p
j
表示第j个特征值所对应的用户数量占数据集D中的总用户数量的比例。
[0012]在上述表达式中,其中,m
g1
表示第一数据集中的所述预设数据特征的特征值的个数,p
i
表示第i个特征值所对应的用户数量占第一数据集中的总用户数量的比例。
[0013]在上述表达式中,其中,m
g2
表示第二数据集中的所述预设数据特征的特征值的个数,p
l
表示第l个特征值所对应的用户数量占第二数据集中的总用户数量的比例。
[0014]可选地,所述预设数据特征为离散变量特征,所述离散变量特征指的是具有以计数方式取值的特征值的数据特征,其中,基于所述预设数据特征的不同特征值所对应的用户数量之间的变化信息,对所述特征数据集进行分层的步骤包括:按照第二预设条件,将所述特征数据集划分为预设层数,其中,所述第二预设条件包括:按照所述特征数据集的排列顺序,确定所述特征数据集中相邻的第一数据样本和第二数据样本的用户数量之间的第一变化率,在所述第一变化率大于第一预设阈值时,将所述第一数据样本和所述第二数据样本划分到不同层的数据集中;在所述第一变化率小于或等于第一预设阈值时,将所述第一数据样本和所述第二数据样本划分到同一层的数据集中。
[0015]可选地,所述第二预设条件还包括:在所述第一变化率小于或等于所述第一预设阈值时,确定所述第二数据样本和与所述第二数据样本相邻的第三数据样本的用户数量之间的第二变化率,在所述第二变化率大于所述第一预设阈值时,将所述第二数据样本和所述第三数据样本划分到不同层的数据集中,在所述第二变化率小于或等于所述第一预设阈值时,确定所述第三数据样本和所述第一数据样本的用户数量之间的第三变化率,在所述第三变化率大于第二预设阈值时,将所述第二数据样本和所述第三数据样本划分到不同的数据集中;在所述第三变化率小于或等于第二预设阈值时,将所述第一数据样本、所述第二数据样本和所述第三数据样本划分到同一层的数据集中。
[0016]可选地,所述预设数据特征为多个预设数据特征,其中,基于每个用户的分层信息,对每个用户进行分类的步骤包括:基于每个用户的分层信息,确定每个预设数据特征的信息熵;比较所述多个预设数据特征之间的信息熵,确定每个预设数据特征的权重值;基于所述权重值和每个用户的分层信息,确定每个用户的分类得分,以按照所述分类得分对每个用户进行分类。
[0017]可选地,基于所述权重值和每个用户的分层信息,确定每个用户的分类得分的步骤包括:基于所述分层信息,确定每个用户在每个预设数据特征下所属的层;基于每个预设数据特征的权重值,对每个用户在每个预设数据特征下所属的层进行加权求和,确定每个用户的分类得分。
[0018]可选地,所述数据处理方法还包括:根据用户执行业务操作的时间,对具有相同分类得分的用户进行二次分类。
[0019]可选地,根据用户执行业务操作的时间,对具有相同分类得分的用户进行二次分类的步骤包括:确定用户最近一次执行业务操作的时间至当前时间的时间长度,并将所述时间长度与执行时间统计量进行比较,根据比较结果对具有相同分类得分的用户进行二次分类,其中,所述执行时间统计量指的是对所有用户中仅执行一次业务操作的用户的执行业务操作的时间至当前时间的时间长度的统计量;和/或,确定用户最近一次执行业务操作的时间至当前时间的时间长度,并将所述时间长度与用户自身执行业务操作的重复周期进行比较,根据比较结果对具有相同分类得分的用户进行二次分类。
[0020]可选地,所述执行时间统计量为对所有用户中仅执行一次业务操作的用户的执行业务操作的时间至当前时间的时间长度的分位数统计量。
[0021]可选地,所述业务操作为订单交易行为,所述预设数据特征包括成交总金额、订单数量、购买周期以及跨品类订单渗透品类数中的至少一者。
[0022]根据本公开的第二方面,提供一种数据处理装置,所述数据处理装置包括:获取单元,被配置为获取多个用户执行业务操作的历史行为数据样本;排序单元,被配置为基于所述历史行为数据样本中的预设数据特征,按照本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述数据处理方法包括:获取多个用户执行业务操作的历史行为数据样本;基于所述历史行为数据样本中的预设数据特征,按照与所述预设数据特征的特征值对应的用户数量,对所述预设数据特征的特征值进行排序,得到特征数据集;基于所述预设数据特征的不同特征值所对应的用户数量之间的变化信息,对所述特征数据集进行分层,得到每个用户的分层信息,所述分层信息指示该用户处于所述特征数据集的哪一层;基于每个用户的分层信息,对每个用户进行分类。2.根据权利要求1所述的数据处理方法,其特征在于,所述预设数据特征为连续变量特征,所述连续变量特征指的是具有任意取值的特征值的数据特征,其中,基于所述预设数据特征的不同特征值所对应的用户数量之间的变化信息,对所述特征数据集进行分层的步骤包括:按照第一预设条件,将所述特征数据集划分为预设层数,其中,所述第一预设条件为:将当前信息熵最大的数据集分层为两个数据集,使得分层前的数据集与分层后的两个数据集之间的信息增益最大,所述信息增益根据分层前的数据集的信息熵与分层后的两个数据集的信息熵之和之间的差值来确定,其中,所述信息熵基于特征值以及特征值所对应的用户数量来确定。3.根据权利要求2所述的数据处理方法,其特征在于,所述信息增益通过以下表达式确定:其中,E(D)表示分层前的数据集D的信息熵,和分别表示以所述预设数据特征的特征值g
i
作为切分点分层的第一数据集和第二数据集,和分别表示所述第一数据集和所述第二数据集的信息熵,运算符|
·
|表示集合中的样本个数,其中,其中,x
k
表示数据样本k的所述预设数据特征的特征值,其中,其中,m
g
表示数据集D中的所述预设数据特征的特征值的个数,p
j
表示第j个特征值所对应的用户数量占数据集D中的总用户数量的比例,其中,其中,m
g1
表示第一数据集中的所述预设数据特征的特征值的个数,p
i
表示第i个特征值所对应的用户数量占第一数据集中的总用户数量的比例,其中,其中,m
g2
表示第二数据集中的所述预设数据特征的特征值的个数,p
l
表示第l个特征值所对应的用户数量占第二数据集中的总用户数量的比例。
4.根据权利要求1所述的数据处理方法,其特征在于,所述预设数据特征为离散变量特征,所述离散变量特征指的是具有以计数方式取值的特征值的数据特征,其中,基于所述预设数据特征的不同特征值所对应的用户数量之间的变化信息,对所述特征数据集进行分层的步骤包括:按照第二预设条件,将所述特征数据集划分为预设层数,其中,所述第二预设条件包括:按照所述特征数据集的排列顺序,确定所述特征数据集中相邻的第一数据样本和第二数据样本的用户数量之间的第一变化率,在所述第一变化率大于第一预设阈值时,将所述第一数据样本和所述第二数据样本划分到不同层的数据集中;在所述第一变化率小于或等于第一预设阈值时,将所述第一数据样本和所述第二数据样本划分到同一层的数据集中。5.根据权利要求4所述的数据处理方法,其特征在于,所述第二预设条件还包括:在所述第一变化率小于或等于所述第一预设阈值时,确定所述第二数据样本和与所述第二数据样本相邻的第三数据样本的用户数量之间的第二变化率,在所述第二变化率大于所述第一预设阈值时,将所述第二数据样本和所述第三数据样本划分到不同层的数据集中;在所述第二变化率小于或等于所述第一预设阈值时,确定所述第三数据样本和所述第一数据样本的用户数量之间的第三变化率,在所述第三变化率大于第二预设阈值时,将所述第二数据样本和所述第三数据样本划分到不同的数据集中;在所述第三变化率小于或等于第二预设阈值时,将所述第一数据样本、所述第二数据样本和所述第三数据样本划分到同一层的数据集中。6.根据权利要求1至5中的任一项所述的数据处理方法,其特征在于,所述预设数据特征为多个预设数据特征,其中,基于每个用户的分层信息,对每个用户进行分类的步骤包括:基于每个用户的分层信息,确定每个预设数据特征的信息熵;比较所述多个预设数据特征之间的信息熵,确定每个预设数据特征的权重值;基于所述权重值和每个用户的分层信息,确定每个用户的分类得分,以按照所述分类得分对每个用户进行分类。7.根据权利要求6所述的数据处理方法,其特征在于,基于所述权重值和每个用户的分层信息,确定每个用户的分类得分的步骤包括:基于所述分层信息,确定每个用户在每个预设数据特征下所属的层;基于每个预设数据特征的权重值,对每个用户在每个预设数据特征下所属的层进行加权求和,确定每个用户的分类得分。8.根据权利要求1所述的数据处理方法,其特征在于,所述数据处理方法还包括:根据用户执行业务操作的时间,对具有相同分类得分的用户进行二次分类。9.根据权利要求8所述的数据处理方法,其特征在于,根据用户执行业务操作的时间,对具有相同分类得分的用户进行二次分类的步骤包括:确定用户最近一次执行业务操作的时间至当前时间的时间长度,并将所述时间长度与
执行时间统计量进行比较,根据比较结果对具有相同分类得分的用户进行二次分类,其中,所述执行时间统计量指的是对所有用户中仅执行一次业务操作的用户的执行业务操作的时间至当前时间的时间长度的统计量;和/或确定用户最近一次执行业务操作的时间至当前时间的时间长度,并将所述时间长度与用户自身执行业务操作的重复周期进行比较,根据比较结果对具有相同分类得分的用户进行二次分类。10.根据权利要求9所述的数据处理方法,其特征在于,所述执行时间统计量为对所有用户中仅执行一次业务操作的用户的执行业务操作的时间至当前时间的时间长度的分位数统计量。11.根据权利要求1所述的数据处理方法,其特征在于,所述业务操作为订单交易行为,所述预设数据特征包括成交总金额、订单数量、购买周期以及跨品类订单渗透品类数中的至少一者。12.一种数据处理装置,其特征在于,所述数据处理装置...

【专利技术属性】
技术研发人员:徐晓璐于群
申请(专利权)人:陆泽科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1