【技术实现步骤摘要】
基于用户画像与聚类算法的相似用户分析方法及系统
[0001]本专利技术属于大数据分析领域,尤其涉及一种基于用户画像与聚类算法的相似用户分析方法。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]相似用户的分析方法在许多服务类应用中具有广泛的应用。其目的在于通过分析用户的某一类或者某几类特征,进而根据特征的相似度寻找出与目标用户特征相似度较高的近邻用户,从而进一步地为目标用户提供与近邻用户相关的推荐候选项。其中,推荐候选项一般是实际存在于现实世界的对象(如商品、地点等),在某些特殊情况下也可能是一种行为(如当前道路的交通情况下推荐采取的措施,向左转或者直行)。
[0004]协同过滤方法是衡量用户相似度的常用方法,该方法以用户
‑
对象的评分矩阵为准,通常采用Pearson相关系数对目标用户与其它用户的相似度进行衡量,然而Pearson相关系数在用户之间的共同评分项较少的情况下也会得出相对较高的相似度值,因此在数据稀疏的情况下可靠性较差。因此,通常采用Jaccard相似度作为置信因子修正Pearson相关系数所得出的相似度值,Jaccard相似度以并交比的形式衡量用户之间的轨迹相似度,能够很好的规避用户共同交互项较少的情况下相似度计算所产生的误差,但对于未留下任何评分以及记录的新用户,其相似度的计算相对来说较为困难,在Pearson相关系数或Jaccard相似度无法计算的情况下,目标用户无法通过喜好特征相似度寻找与自己兴趣爱好 ...
【技术保护点】
【技术特征摘要】
1.一种基于用户画像与聚类算法的相似用户分析方法,其特征在于,包括如下步骤:1)采集用户对于商品的历史行为信息数据;所述历史行为信息数据包括用户
‑
商品评分矩阵、商品信息、用户浏览商品记录以及商品的访问频率;2)基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;3)基于用户画像相似度的度量函数对用户画像进行聚类操作,将用户的历史行为信息数据划分为多个聚类簇,将每个簇内具备所有用户画像特征的虚拟用户作为每个聚类簇的中心点;4)保存生成的聚类簇以及聚类中心点,当目标用户进行相似用户的检索时,先进行用户画像相似度的比对,再找出最为相似的虚拟用户以及对应的簇;5)寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。2.如权利要求1所述的基于用户画像与聚类算法的相似用户分析方法,其特征在于,在步骤1)中,所述的商品信息包含商品本身的基本信息,即名称、性质以及商品所属的喜好标签信息,所述商品所属的喜好标签信息为商品所属类型以及是否优惠。3.如权利要求1所述的基于用户画像与聚类算法的相似用户分析方法,其特征在于,根据所述用户浏览商品记录统计用户的喜好标签特征,所述喜好标签特征以多维向量的形式进行表示,每一维的值代表当前维度所对应的喜好标签的访问频率次数;或根据所述用户
‑
商品评分矩阵获取用户对当前维度所对应商品的评分。4.如权利要求3所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,获取用户当前维度对应商品的评分的方式为:利用用户
‑
商品评分矩阵,将用户对应的行数据进行提取,则获得当前用户对所有商品的评分信息,并以向量的形式进行表示,所述向量为评分向量,且每一维的值代表用户对当前维度所对应商品的评分。5.如权利要求1所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述用户画像相似度的度量函数由协同相似度、轨迹相似度以及喜好标签特征相似度三部分组成,所述协同相似度以Pearson相关系数进行计算,所述轨迹相似度以Jaccard相似度公式进行计算,所述轨迹相似度将作为置信因子对协同相似度加以修正。6.如权利要求5所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述喜好标签特征相似度所衡量的是两个特征向量之间的相似度,采用余弦相似度函数进行计算,并构建用户画像相似度的度量函数为:其中u
i
表示第i个用户,s
i
表示用户i的评分向量,h表示用户i的历史轨迹,而...
【专利技术属性】
技术研发人员:管洪清,徐亮,王伟,张元杰,张大千,尹广楹,孙浩云,
申请(专利权)人:青岛文达通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。