【技术实现步骤摘要】
一种用户分类方法和系统
本申请涉及数据处理领域,特别涉及一种用户分类方法和系统。
技术介绍
随着大数据时代的到来,对用户的进行分类,贴上标签,以为用户提供优质服务以成为一个热点问题。传统的分类方法,在处理海量数据时,可能会导致较低的效率,并且其分类准确性也无法保证。因此,有必要提出一种更加有效的、准确的用户分类方法。
技术实现思路
本申请实施例之一提供一种用户分类方法。所述用户分类方法包括:获取多组用户数据;基于所述多组用户数据生成至少一个的标识性向量;其中,每个标识性向量代表一种数据分布类型;确定每组用户数据的相关性指标,所述相关性指标反映该组用户数据与所述至少一个标识性向量之间的相关性;根据多组用户数据的相关性指标对多个用户进行分类。在一些实施例中,所述基于所述多组用户数据生成至少一个标识性向量,包括:对所述多组用户数据进行预处理,得到用户数据矩阵;对所述用户数据矩阵进行奇异值分解;选取至少一个奇异向量作为所述至少一个标识性向量。在一些实施例中,所述选取至少一个奇异向量作为所述至少一个 ...
【技术保护点】
1.一种用户分类方法,其特征在于,包括:/n获取多组用户数据;/n基于所述多组用户数据生成至少一个的标识性向量;其中,每个标识性向量代表一种数据分布类型;/n确定每组用户数据的相关性指标,所述相关性指标反映该组用户数据与所述至少一个标识性向量之间的相关性;/n根据多组用户数据的相关性指标对多个用户进行分类。/n
【技术特征摘要】
1.一种用户分类方法,其特征在于,包括:
获取多组用户数据;
基于所述多组用户数据生成至少一个的标识性向量;其中,每个标识性向量代表一种数据分布类型;
确定每组用户数据的相关性指标,所述相关性指标反映该组用户数据与所述至少一个标识性向量之间的相关性;
根据多组用户数据的相关性指标对多个用户进行分类。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多组用户数据生成至少一个标识性向量,包括:
对所述多组用户数据进行预处理,得到用户数据矩阵;
对所述用户数据矩阵进行奇异值分解;
选取至少一个奇异向量作为所述至少一个标识性向量。
3.根据权利要求2所述的方法,其特征在于,选取至少一个奇异向量作为所述至少一个标识性向量,包括:
在分解获得的奇异值中,选取平方和与全部奇异值平方和的比例大于预设阈值的若干奇异值;
将所述若干奇异值对应的奇异向量作为所述标识性向量。
4.根据权利要求2所述的方法,其特征在于,选取至少一个奇异向量作为所述至少一个标识性向量,包括:
在分解获得的奇异矩阵中,选取元素呈周期性分布的奇异向量作为所述标识性向量。
5.根据权利要求1所述的方法,其特征在于,所述相关性指标反映用户数据与标识性向量之间的相似度。
6.根据权利要求1所述的方法,其特征在于,所述根据多组用户数据的相关性指标对用户进行分类,包括:
对所述多组用户数据的相关性指标进行聚类运算,进而对用户进行分类。
7.根据权利要求6所述的方法,其特征在于,还包括:
基于所述多组用户数据确定分类数目K;
对所述多组用户数据的相关性指标进行聚类运算,进而将用户分为K类。
8.根据权利要求1所述的方法,其特征在于,所述用户数据反映用户在预设时间范围内的不同预设时间段的状态;其中,所述预设时间范围包括多个所述预设时间段。
9.根据权利要求8所述的方法,其特征在于,所述用户包括司机;所述用户数据反映司机在预设时间范围内的不同预设时间段的出车时长。
10.根据权利要求8所述的方法,其特征在于,所述预设时间范围包括一天、一个月、一个季度、半年或一年中的至少一种。
11.根据权利要求8所述的方法,其特征在于,所述预设时间段包括十分钟、二十分钟、半小时、一小时、六小时、十二小时、一天、一星期、半个月或一个月中的至少一种。
12.一种用户分类系统,其特征在于,包括:获取模块、确定模块和分类模块;
所述获取模块用于获取多组用户数据;
所述确定模块用于基于所述多组用户数据生成至少一个的标识性向量;其中,每个标识性向量代表一种数据分布类型;以及确定每组用户数据的相关性指标,所述相关...
【专利技术属性】
技术研发人员:谢梁,李盼,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。