基于成单数据的用户相似度计算方法及系统技术方案

技术编号:34096254 阅读:14 留言:0更新日期:2022-07-11 22:22
本申请涉及计算机机器学习技术领域,尤其是涉及一种基于成单数据的用户相似度计算方法及系统,旨在解决现有技术聚类相似用户的效率低的问题,其技术方案是一种基于成单数据的用户相似度计算方法,获取预设的时间区间内的历史订单数据;对历史订单数据进行离散化处理,以获取离散订单数据;筛选并去除重复的订单类型,每个订单类型作为一个字段构建并获取订单类型词典;基于用户信息将离散订单数据进行聚合,并将与同一用户信息对应的离散订单数据拼接为用户订单序列;基于订单类型词典以及用户订单序列获取用户向量;基于预设的相似度算法以及用户向量,获取目标用户与其他用户之间的相似度,本申请具有提高用户相似度计算的准确度和效率的效果。准确度和效率的效果。准确度和效率的效果。

【技术实现步骤摘要】
基于成单数据的用户相似度计算方法及系统


[0001]本申请涉及计算机机器学习
,尤其是涉及一种基于成单数据的用户相似度计算方法及系统。

技术介绍

[0002]随着互联网大数据的飞速发展和相关技术的成熟,各行各业利用大数据技术为行业发展带来了充足的机遇和广阔的发展,但是随着信息资源的膨胀式增长,信息过载的问题也随之出现。在信息过载的环境下,各领域在大数据技术的应用中通常会面临大量无效信息干扰的问题,导致商品无法精准地定位到目标用户,使得大数据分析的实际应用效果较差。
[0003]目前,为了降低信息过量对大数据应用的影响,用户相似度分析技术作为一种勾画目标用户的有效工具得到了广泛的应用,用户相似度分析技术通过在大数据中对目标用户的属性以及行为进行标签化分析,可以达到对相似用户进行聚类的效果,从而借助目标用户的相似用户,向目标用户提供针对性的商品信息推送。在实施中,通常需要预先根据商品的类别为用户构造出多种不同的用户属性,通过用户属性可以描述出目标用户在历史订单中针对不同的商品时的行为,进而表达出目标用户对不同商品的偏好,通过相似的偏好即可聚类多个相似用户。
[0004]在实现本申请的过程中,专利技术人发现上述技术至少存在以下问题:当分析不同的商品时需要由技术人员人为地针对商品类别构建用户属性,人为构造的用户属性具有一定的主观性,使得聚类相似用户的精确度和效率较低。

技术实现思路

[0005]为了取代由技术人员通过对用户偏好的理解构建用户属性,提高用户相似度分析依据的客观性,以提高用户相似度分析的准确度和效率,本申请提供一种基于成单数据的用户相似度计算方法及系统。
[0006]第一方面,本申请提供的一种基于成单数据的用户相似度计算方法,采用如下的技术方案:一种基于成单数据的用户相似度计算方法,所述方法包括以下步骤:获取预设的时间区间内的历史订单数据,所述历史订单数据至少包括用户信息以及订单信息;基于预设的离散处理规则,对所述历史订单数据进行离散化处理,以获取离散订单数据,所述离散订单数据包括用户信息以及订单类型;提取出所述离散订单数据中的订单类型,筛选并去除重复的所述订单类型,以筛选后的每个所述订单类型作为一个字段构建并获取订单类型词典;基于所述用户信息将离散订单数据进行聚合,并将与同一所述用户信息对应的离散订单数据拼接为用户订单序列;
基于所述订单类型词典以及用户订单序列获取用户向量,所述用户向量的维数为订单类型词典中订单类型的数量,所述用户向量每一维的数值为订单类型词典中的每个订单类型在用户订单序列中出现的次数;基于预设的相似度算法以及用户向量,获取目标用户与其他用户之间的相似度。
[0007]通过采用上述技术方案,获取用户订单数据之后将原始的用户订单数据进行离散处理,使得数据量较大的原始数据得以进行降维,降低了待处理数据的复杂度,有助于提高用户相似度的计算效率,离散处理后将历史订单数据进行聚合处理,有助于整合与目标用户相关的全部订单数据,整合而成的用户订单序列中包括用户的一定的时间区间内的全部订单,有助于对用户的商品偏好进行全面地、客观地描述,有助于提高用户相似度计算的精确度;通过构建共用的词典的方式,使得每个用户的用户订单序列得以以向量的形式表现,并以向量的形式进行相似度计算,降低了用户订单序列的数据量以及复杂度,在节约数据存储空间的同时,有助于进一步提高用户相似度的计算效率。
[0008]在一个具体的可实施方式中,所述获取预设的时间区间内的历史订单数据,所述历史订单数据至少包括用户信息以及订单信息之后,包括:将所述历史订单数据中的历史订单数与预设的所述样本数区间进行对照,所述样本数区间包括样本数上阈值以及样本数下阈值;当所述历史订单数低于样本数下阈值时,按照预设的步长逐级增大获取所述历史订单数据的时间区间;当所述历史订单数高于样本数上阈值时,按照预设的步长逐级减小获取所述历史订单数据的时间区间。
[0009]通过采用上述技术方案,可以使得原始数据的数据量适宜,即在满足分析计算的同时,不会过多地造成数据存储、运算的负担,此外,在原始数据获取时,当原始数据的获取量过低或过少时,通过调节时间区间的方式调节原始数据的获取量,有助于提高原始数据获取量调节的简易程度,进而有助于提高用户相似度的计算效率。
[0010]在一个具体的可实施方式中,预设的所述离散处理规则至少包括等频分桶、等距分桶以及聚类分桶,所述基于预设的离散处理规则,对所述历史订单数据进行离散化处理,以获取离散订单数据,所述离散订单数据包括用户信息以及订单类型包括:获取所述历史订单数据中包括的订单项集,基于所述订单项集选取离散处理规则;基于选取的所述离散处理规则,对所述历史订单数据进行离散化处理,以获取离散订单数据。
[0011]通过采用上述技术方案,设置的多种离散处理规则有助于使得技术人员根据实际使用需求选取适用的离散处理规则,有助于提高对历史订单数据处理的灵活性,针对历史订单数据类型可适应性调节的离散处理规则有助于提高离散处理的运算效率。
[0012]在一个具体的可实施方式中,所述提取出所述离散订单数据中的订单类型,筛选并去除重复的所述订单类型,以筛选后的每个所述订单类型作为一个字段构建并获取订单类型词典之后,包括:将所述订单类型词典中的字段数与预设的字段数区间进行对照;当所述订单类型词典中的字段数不属于字段数区间时,调节所述离散处理规则以
使字段数与字段数区间匹配。
[0013]通过采用上述技术方案,订单类型词典中的字段数过高时容易带来数据运算及存储的负担,当过低时则容易导致用户相似度的计算结果不准确,因此对订单类型词典中的字段数进行规定有助于获取运算效率以及准确度的平衡,通过离散处理规则进行调节,有助于提高订单类型词典调节的便捷度。
[0014]在一个具体的可实施方式中,所述基于预设的相似度算法以及用户向量,获取目标用户与其他用户之间的相似度包括:基于预设的相似度算法,分别计算目标用户的目标用户向量与其他用户的其他用户向量之间的相似度;基于所述相似度,将其他用户进行降序排列。
[0015]通过采用上述技术方案,基于相似度将除目标用户以外的其他用户进行降序排列,有助于辅助技术人员直观地获取与目标用户相似的其他用户,有助于提高对目标用户进行相似分析的效率。
[0016]在一个具体的可实施方式中,所述基于所述相似度,将其他用户进行降序排列之后,包括:按照排序从高到低选取预设数量个其他用户,并标记为与所述目标用户对应的相似用户;获取所述相似用户的偏好商品信息,并推送至目标用户。
[0017]通过采用上述技术方案,根据目标用户的相似用户,对目标用户推送相似用户的商品偏好,有助于获取目标用户潜在的不同维度、不同时间与空间的偏好商品,有助于提高商品推送的效果。
[0018]在一个具体的可实施方式中,所述方法还包括:当所述历史订单数据中出现数据缺失时,基于预设的替代规则对缺失数据进行替换。
[0019]通过采用上述技术方案,通过预设的替代规则本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于成单数据的用户相似度计算方法,其特征在于:所述方法包括以下步骤:获取预设的时间区间内的历史订单数据,所述历史订单数据至少包括用户信息以及订单信息;基于预设的离散处理规则,对所述历史订单数据进行离散化处理,以获取离散订单数据,所述离散订单数据包括用户信息以及订单类型;提取出所述离散订单数据中的订单类型,筛选并去除重复的所述订单类型,以筛选后的每个所述订单类型作为一个字段构建并获取订单类型词典;基于所述用户信息将离散订单数据进行聚合,并将与同一所述用户信息对应的离散订单数据拼接为用户订单序列;基于所述订单类型词典以及用户订单序列获取用户向量,所述用户向量的维数为订单类型词典中订单类型的数量,所述用户向量每一维的数值为订单类型词典中的每个订单类型在用户订单序列中出现的次数;基于预设的相似度算法以及用户向量,获取目标用户与其他用户之间的相似度。2.根据权利要求1所述的一种基于成单数据的用户相似度计算方法,其特征在于:所述获取预设的时间区间内的历史订单数据,所述历史订单数据至少包括用户信息以及订单信息之后,包括:将所述历史订单数据中的历史订单数与预设的所述样本数区间进行对照,所述样本数区间包括样本数上阈值以及样本数下阈值;当所述历史订单数低于样本数下阈值时,按照预设的步长逐级增大获取所述历史订单数据的时间区间;当所述历史订单数高于样本数上阈值时,按照预设的步长逐级减小获取所述历史订单数据的时间区间。3.根据权利要求1所述的一种基于成单数据的用户相似度计算方法,其特征在于:预设的所述离散处理规则至少包括等频分桶、等距分桶以及聚类分桶,所述基于预设的离散处理规则,对所述历史订单数据进行离散化处理,以获取离散订单数据,所述离散订单数据包括用户信息以及订单类型包括:获取所述历史订单数据中包括的订单项集,基于所述订单项集选取离散处理规则;基于选取的所述离散处理规则,对所述历史订单数据进行离散化处理,以获取离散订单数据。4.根据权利要求1所述的一种基于成单数据的用户相似度计算方法,其特征在于:所述提取出所述离散订单数据中的订单类型,筛选并去除重复的所述订单类型,以筛选后的每个所述订单类型作为一个字段构建并获取订单类型词典之后,包括:将所述订单类型词典中的字段数与预设的字段数区间进行对照;当所述订单类型词典中的字段数不属于字段数区间时,调节所述离散处理规则以使字段数与字段数区间匹配。5.根据权利要求1所述的一种基于成单数据的用户相似...

【专利技术属性】
技术研发人员:王安琪
申请(专利权)人:艺龙网信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1