基于用户画像与聚类算法的相似用户分析方法及系统技术方案

技术编号:34851146 阅读:37 留言:0更新日期:2022-09-08 07:51
本发明专利技术提出了一种基于用户画像与聚类算法的相似用户分析方法及系统,将用户画像相似度较高的用户聚类为多个簇,降低相似用户检索过程所产生的时间复杂度,由RV

【技术实现步骤摘要】
基于用户画像与聚类算法的相似用户分析方法及系统


[0001]本专利技术属于大数据分析领域,尤其涉及一种基于用户画像与聚类算法的相似用户分析方法。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]相似用户的分析方法在许多服务类应用中具有广泛的应用。其目的在于通过分析用户的某一类或者某几类特征,进而根据特征的相似度寻找出与目标用户特征相似度较高的近邻用户,从而进一步地为目标用户提供与近邻用户相关的推荐候选项。其中,推荐候选项一般是实际存在于现实世界的对象(如商品、地点等),在某些特殊情况下也可能是一种行为(如当前道路的交通情况下推荐采取的措施,向左转或者直行)。
[0004]协同过滤方法是衡量用户相似度的常用方法,该方法以用户

对象的评分矩阵为准,通常采用Pearson相关系数对目标用户与其它用户的相似度进行衡量,然而Pearson相关系数在用户之间的共同评分项较少的情况下也会得出相对较高的相似度值,因此在数据稀疏的情况下可靠性较差。因此,通常采用Jaccard相似度作为置信因子修正Pearson相关系数所得出的相似度值,Jaccard相似度以并交比的形式衡量用户之间的轨迹相似度,能够很好的规避用户共同交互项较少的情况下相似度计算所产生的误差,但对于未留下任何评分以及记录的新用户,其相似度的计算相对来说较为困难,在Pearson相关系数或Jaccard相似度无法计算的情况下,目标用户无法通过喜好特征相似度寻找与自己兴趣爱好相近的近邻用户。
[0005]基于协同过滤的相似用户分析方法对各类相似度函数进行整合与修正,从而以多角度准确计算用户之间的相似度,但是协同过滤本身的检索代价过高,对于相似用户的商品推荐,如果想要完全找到与自己最为相似的虚拟用户,则需要对整个用户表进行遍历,过程复杂且繁琐,需要花费大量的时间,大大降低了挖掘相应相似特征对象的效率。

技术实现思路

[0006]为克服上述现有技术的不足,本专利技术提供了一种基于用户画像与聚类算法的相似用户分析方法及系统,实现挖掘出相同用户兴趣爱好的相近用户,其目的在于将整个用户的历史商品信息按照兴趣爱好相似度聚类为多个簇,簇的中心点为簇内用户的整体喜好特征,目标用户仅仅通过与聚类过程生成的聚类中心点进行相似度比较,判断中心点所代表的簇是否与自己拥有相同的兴趣爱好特征,并对目标用户未接触过但是所倾向的目标商品进行挖掘。
[0007]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0008]一种基于用户画像与聚类算法的相似用户分析方法,包括如下步骤:
[0009]采集用户对于商品的历史行为信息数据;所述历史行为信息数据包括用户

商品
评分矩阵、商品信息、用户浏览商品记录以及商品的访问频率;
[0010]基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;
[0011]基于用户画像相似度的度量函数对用户画像进行聚类操作,将用户的历史行为信息数据划分为多个聚类簇,将每个簇内具备所有用户画像特征的虚拟用户作为每个聚类簇的中心点;
[0012]保存生成的聚类簇以及聚类中心点,当目标用户进行相似用户的检索时,先进行用户画像相似度的比对,再找出最为相似的虚拟用户以及对应的簇;
[0013]寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。
[0014]根据一些实施例,本公开的第二方案提供了一种基于用户画像与聚类算法的相似用户分析系统,包括:
[0015]数据采集单元,用于采集用户对于商品的历史行为信息数据;
[0016]函数构建单元,用于基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;
[0017]用户聚类单元,用于基于用户画像相似度的度量函数对用户画像进行聚类操作;
[0018]存储单元,用于保存生成的聚类簇以及聚类中心点;
[0019]用户推荐单元,用于寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。
[0020]以上一个或多个技术方案存在以下有益效果:
[0021]基于用户画像与聚类算法的相似用户分析方法有效地减少相似用户的查询长度,在提高检索准确度的同时提高了检索效率。
[0022]基于半径变化与用户画像的均值偏移聚类方法(以下称RV

UP

MSC),RV

UP

MSC继承了原均值偏移聚类方法的爬山优化思想,将相似用户聚类至密度较高的点,并且在此基础之上优化了用户距离(即相似度)的度量过程以及聚类半径的调整过程,目标用户在检索过程中,仅需对每个簇所对应的中心点(即虚拟用户)进行用户画像相似度比对,即可判断出与自己的兴趣爱好可能相似的簇。
[0023]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0024]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0025]图1为本专利技术所提出的相似用户分析方法的总体流程;
[0026]图2为本专利技术所提出的RV

UP

MSC方法的原理图。
具体实施方式
[0027]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0028]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根
据本专利技术的示例性实施方式。
[0029]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0030]本专利技术提出的总体思路:
[0031]由于本专利技术的目的是将用户按照其喜好特征与历史轨迹相似度划分为多个簇,衡量目标用户与每个簇之间的距离以判断与目标用户相似的群组,从而为目标用户寻找兴趣爱好相似的其它用户,并实现与目标用户相关的推荐,其中,用户画像的定义是指用户本身的喜好特征以及用户历史轨迹所组成的集合,以用户画像相似度为基准,目标用户能够被准确地归类为多个簇,每个簇中的用户之间具有相似的兴趣爱好,但归类的过程中簇的划分数量往往是未知的,而用户画像相似度的度量函数也影响簇的划分效果,所以本专利技术提出了一种基于半径变化与用户画像的均值偏移聚类方法(Mean Shift Clustering based on Radius Variation and User Portrayal,以下称RV

UP

MSC),根据用户的相似度分布情况生成一组候选半径以调整聚类效果,并且设置用户画像相似度度量函数使用户的聚类更加准确。而用户画像相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户画像与聚类算法的相似用户分析方法,其特征在于,包括如下步骤:1)采集用户对于商品的历史行为信息数据;所述历史行为信息数据包括用户

商品评分矩阵、商品信息、用户浏览商品记录以及商品的访问频率;2)基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;3)基于用户画像相似度的度量函数对用户画像进行聚类操作,将用户的历史行为信息数据划分为多个聚类簇,将每个簇内具备所有用户画像特征的虚拟用户作为每个聚类簇的中心点;4)保存生成的聚类簇以及聚类中心点,当目标用户进行相似用户的检索时,先进行用户画像相似度的比对,再找出最为相似的虚拟用户以及对应的簇;5)寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。2.如权利要求1所述的基于用户画像与聚类算法的相似用户分析方法,其特征在于,在步骤1)中,所述的商品信息包含商品本身的基本信息,即名称、性质以及商品所属的喜好标签信息,所述商品所属的喜好标签信息为商品所属类型以及是否优惠。3.如权利要求1所述的基于用户画像与聚类算法的相似用户分析方法,其特征在于,根据所述用户浏览商品记录统计用户的喜好标签特征,所述喜好标签特征以多维向量的形式进行表示,每一维的值代表当前维度所对应的喜好标签的访问频率次数;或根据所述用户

商品评分矩阵获取用户对当前维度所对应商品的评分。4.如权利要求3所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,获取用户当前维度对应商品的评分的方式为:利用用户

商品评分矩阵,将用户对应的行数据进行提取,则获得当前用户对所有商品的评分信息,并以向量的形式进行表示,所述向量为评分向量,且每一维的值代表用户对当前维度所对应商品的评分。5.如权利要求1所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述用户画像相似度的度量函数由协同相似度、轨迹相似度以及喜好标签特征相似度三部分组成,所述协同相似度以Pearson相关系数进行计算,所述轨迹相似度以Jaccard相似度公式进行计算,所述轨迹相似度将作为置信因子对协同相似度加以修正。6.如权利要求5所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述喜好标签特征相似度所衡量的是两个特征向量之间的相似度,采用余弦相似度函数进行计算,并构建用户画像相似度的度量函数为:其中u
i
表示第i个用户,s
i
表示用户i的评分向量,h表示用户i的历史轨迹,而...

【专利技术属性】
技术研发人员:管洪清徐亮王伟张元杰张大千尹广楹孙浩云
申请(专利权)人:青岛文达通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1