基于成单数据的用户相似度计算方法及系统技术方案

技术编号：34096254 阅读：14 留言：0更新日期：2022-07-11 22:22

本申请涉及计算机机器学习技术领域，尤其是涉及一种基于成单数据的用户相似度计算方法及系统，旨在解决现有技术聚类相似用户的效率低的问题，其技术方案是一种基于成单数据的用户相似度计算方法，获取预设的时间区间内的历史订单数据；对历史订单数据进行离散化处理，以获取离散订单数据；筛选并去除重复的订单类型，每个订单类型作为一个字段构建并获取订单类型词典；基于用户信息将离散订单数据进行聚合，并将与同一用户信息对应的离散订单数据拼接为用户订单序列；基于订单类型词典以及用户订单序列获取用户向量；基于预设的相似度算法以及用户向量，获取目标用户与其他用户之间的相似度，本申请具有提高用户相似度计算的准确度和效率的效果。准确度和效率的效果。准确度和效率的效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于成单数据的用户相似度计算方法及系统

[0001]本申请涉及计算机机器学习
，尤其是涉及一种基于成单数据的用户相似度计算方法及系统。

技术介绍

[0002]随着互联网大数据的飞速发展和相关技术的成熟，各行各业利用大数据技术为行业发展带来了充足的机遇和广阔的发展，但是随着信息资源的膨胀式增长，信息过载的问题也随之出现。在信息过载的环境下，各领域在大数据技术的应用中通常会面临大量无效信息干扰的问题，导致商品无法精准地定位到目标用户，使得大数据分析的实际应用效果较差。
[0003]目前，为了降低信息过量对大数据应用的影响，用户相似度分析技术作为一种勾画目标用户的有效工具得到了广泛的应用，用户相似度分析技术通过在大数据中对目标用户的属性以及行为进行标签化分析，可以达到对相似用户进行聚类的效果，从而借助目标用户的相似用户，向目标用户提供针对性的商品信息推送。在实施中，通常需要预先根据商品的类别为用户构造出多种不同的用户属性，通过用户属性可以描述出目标用户在历史订单中针对不同的商品时的行为，进而表达出目标用户对不同商品的偏好，通过相似的偏好即可聚类多个相似用户。
[0004]在实现本申请的过程中，专利技术人发现上述技术至少存在以下问题：当分析不同的商品时需要由技术人员人为地针对商品类别构建用户属性，人为构造的用户属性具有一定的主观性，使得聚类相似用户的精确度和效率较低。

技术实现思路

[0005]为了取代由技术人员通过对用户偏好的理解构建用户属性，提高用户相似度分析依据的客观性，以提高用户...

【技术保护点】

【技术特征摘要】
1.一种基于成单数据的用户相似度计算方法，其特征在于：所述方法包括以下步骤：获取预设的时间区间内的历史订单数据，所述历史订单数据至少包括用户信息以及订单信息；基于预设的离散处理规则，对所述历史订单数据进行离散化处理，以获取离散订单数据，所述离散订单数据包括用户信息以及订单类型；提取出所述离散订单数据中的订单类型，筛选并去除重复的所述订单类型，以筛选后的每个所述订单类型作为一个字段构建并获取订单类型词典；基于所述用户信息将离散订单数据进行聚合，并将与同一所述用户信息对应的离散订单数据拼接为用户订单序列；基于所述订单类型词典以及用户订单序列获取用户向量，所述用户向量的维数为订单类型词典中订单类型的数量，所述用户向量每一维的数值为订单类型词典中的每个订单类型在用户订单序列中出现的次数；基于预设的相似度算法以及用户向量，获取目标用户与其他用户之间的相似度。2.根据权利要求1所述的一种基于成单数据的用户相似度计算方法，其特征在于：所述获取预设的时间区间内的历史订单数据，所述历史订单数据至少包括用户信息以及订单信息之后，包括：将所述历史订单数据中的历史订单数与预设的所述样本数区间进行对照，所述样本数区间包括样本数上阈值以及样本数下阈值；当所述历史订单数低于样本数下阈值时，按照预设的步长逐级增大获取所述历史订单数据的时间区间；当所述历史订单数高于样本数上阈值时，按照预设的步长逐级减小获取所述历史订单数据的时间区间。3.根据权利要求1所述的一种基于成单数据的用户相似度计算方法，其特征在于：预设的所述离散处理规则至少包括等频分桶、等距分桶以及聚类分桶，所述基于预设的离散处理规则，对所述历史订单数据进行离散化处理，以获取离散订单数据，所述离散订单数据包括用户信息以及订单类型包括：获取所述历史订单数据中包括的订单项集，基于所述订单项集选取离散处理规则；基于选取的所述离散处理规则，对所述历史订单数据进行离散化处理，以获取离散订单数据。4.根据权利要求1所述的一种基于成单数据的用户相似度计算方法，其特征在于：所述提取出所述离散订单数据中的订单类型，筛选并去除重复的所述订单类型，以筛选后的每个所述订单类型作为一个字段构建并获取订单类型词典之后，包括：将所述订单类型词典中的字段数与预设的字段数区间进行对照；当所述订单类型词典中的字段数不属于字段数区间时，调节所述离散处理规则以使字段数与字段数区间匹配。5.根据权利要求1所述的一种基于成单数据的用户相似...

【专利技术属性】
技术研发人员：王安琪，
申请(专利权)人：艺龙网信息技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人