当前位置: 首页 > 专利查询>上海大学专利>正文

一种用户相似度计算方法技术

技术编号:25550874 阅读:25 留言:0更新日期:2020-09-08 18:50
本发明专利技术提供了一种用户相似度计算方法,步骤包括:S1根据用户属性进行聚类分组,计算基于静态属性的相似度sim

【技术实现步骤摘要】
一种用户相似度计算方法
本专利技术涉及推荐算法技术,尤其涉及一种用户相似度计算方法
技术介绍
传统的协同过滤推荐算法中,用户相似度计算比较简单,一般直接根据用户历史行为判断相似性,因此准确性不高。为此,现有技术曾经提出了,一种《融合惩罚因子和时间权重的协同过滤推荐算法》,DOI为10.19358/j.issn.2096-5133.2020.05.004。但该传统的协同过滤算法中存在一些问题,如冷启动,数据稀疏和马太效应。兰艳等人利用衰减因子建立非线性时间加权函数,赋予评分不同的时间权重,提高了推荐的准确性。上述文献虽考虑到了用户相似度与时间之间的关系,但是却孤立的计算和登录时间的正相关以及和随时间而衰减的负相关关系,没有将用户相似度与时间的两种关系进行融合考虑。而现有技术《基于用户模糊聚类的综合信任推荐算法》,DOI为10.19678/j.issn.1000-3428.0057930。该传统的协同过滤推荐算法在遇到数据量很大的情况下,推荐时间会增加,准确率也有所降低。此文献中考虑了对用户进行聚类来缩小用户范围。但是它只单一的考虑了聚类对相似度的积极影响,没有考虑影响相似度的其他因子如用户使用频率,操作行为的时间差,位置距离等对相似度的影响。因此目前亟待一种技术来进一步提高相似度计算的准确性。
技术实现思路
本专利技术的主要目的在于提供一种用户相似度计算方法,以较为全面的提高相似度计算的准确性。为了实现上述目的,本专利技术的一个方面,提供了一种用户相似度计算方法,步骤包括:S1根据用户属性进行聚类分组,计算基于静态属性的相似度simattr;S2根据用户相似度与登录时间成正比,但又受时间衰减效应计算出相似度simtime;S3根据用户相似度与用户的操作行为频率呈负相关的关系计算出相似度simfre;S4通过用户被产品吸引的不确定性,为用户增加自信息量得出相似度siminf;S5将S1-S4计算得出的各相似度进行叠加和归一化处理,得出最终的用户相似度;其中:其中表示用户u1对产品y的评分情况;其中ρ是归一化系数,t1-t2表示登录时间差,σ是时间衰减指数,T1-T2表示操作行为时间差;其中表示产品y的权值,表示产品y的自信息量;其中λy表示与频率相关的权值;为了实现上述目的,根据本专利技术的另一方面,还提供了一种用户相似度计算方法,步骤包括:S1根据用户属性进行聚类分组,计算基于静态属性的相似度simattr;S2根据用户相似度与登录时间成正比,但又受时间衰减效应计算出相似度simtime;S3根据用户相似度与用户的操作行为频率呈负相关的关系计算出相似度simfre;S4通过用户被产品吸引的不确定性,为用户增加自信息量得出相似度siminf;S5定位用户当前位置,根据距离长短给用户相似度加权值得出相似度simpos;S6将S1-S5计算得出的各相似度进行叠加和归一化处理,得出最终的用户相似度;其中:其中表示用户u1对产品y的评分情况;其中ρ是归一化系数,t1-t2表示登录时间差,σ是时间衰减指数,T1-T2表示操作行为时间差;其中表示产品y的权值,表示产品y的自信息量;其中λy表示与频率相关的权值;其中表示两个用户根据位置关系确定的相似度的权值大小。优选地,其中u和uy分别表示用户总操作行为的频率和对产品y的频率。优选地,其中本专利技术提供的该用户相似度计算方法,和传统技术相比,具有以下技术优点:首先对获取到的用户信息基于属性进行聚类,实现用户分组,确定相似度计算的大致范围,避免多次从原始数据中进行繁琐且冗余的计算。同时考虑到用户相似度和用户的登陆时间成正比,但关系又会随着时间延长而衰减,因此用一个公式将相似度与时间的两种关系结合起来。对于不活跃的用户,其行为应更具有可信度,因此将用户行为频率和相似度之间的关系考虑为负相关,同时获取用户的位置信息,将距离远近也作为衡量相似度的一个方面。籍此使得本专利技术可以从多个方面考虑了影响用户相似度的因素,提高了计算结果的准确性和普适性,时间更短,效率更高,推荐结果更准确,能提供更好的个性化推荐服务。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术的用户相似度计算方法的架构图;图2是本专利技术的用户相似度计算方法的计算流程图;图3是本专利技术包括位置距离计算相似度的流程图。具体实施方式下面对本专利技术的具体实施方式进行详细地说明。以下示例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进。这些都属于本专利技术的保护范围。为了使本领域的技术人员更好的理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术的保护范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“S1”、“S2”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。实施例1传统的协同过滤推荐算法中,用户相似度计算比较简单,一般直接根据用户历史行为判断相似性,本专利技术的该用户相似度计算方法,能够更加全面的考虑影响用户相似度的因子。首先通过对用户信息进行简单聚类分组,来降低时间复杂度,将相似度和登录时间的正相关关系和随时间而衰减的负相关关系同时考虑进一个公式,并在分母进行了归一化处理;通过对用户分别增加自信息量的权值和频率负相关的权值,从而即可够较为全面的提高相似度计算的准确性。具体来说,该用户相似度计算方法主要包括:根据用户属性进行简单聚类分组,得出基于静态属性的相似度simattr;根据用户相似度与登录时间成正比,但又受时间衰减效应计算出simtime;根据用户相似度与用户的操作行为频率负相关的关系计算出simfre;通过用户被产品吸引的不确定性,为用户增加自信息量得出siminf;最终将上述计算得出的各相似度进行叠加和归一化处理,即可得出最终的用户相似度。如:其中表示用户u1对产品y的评分情况。其中ρ是归一化系数,t1-t2表示登录时间差,σ是时间衰减指数,T1-T2表本文档来自技高网...

【技术保护点】
1.一种用户相似度计算方法,步骤包括:/nS1根据用户属性进行聚类分组,计算基于静态属性的相似度sim

【技术特征摘要】
1.一种用户相似度计算方法,步骤包括:
S1根据用户属性进行聚类分组,计算基于静态属性的相似度simattr;
S2根据用户相似度与登录时间成正比,但又受时间衰减效应计算出相似度simtime;
S3根据用户相似度与用户的操作行为频率呈负相关的关系计算出相似度simfre;
S4通过用户被产品吸引的不确定性,为用户增加自信息量得出相似度siminf;
S5将S1-S4计算得出的各相似度进行叠加和归一化处理,得出最终的用户相似度;其中:



其中表示用户u1对产品y的评分情况;



其中ρ是归一化系数,t1-t2表示登录时间差,σ是时间衰减指数,T1-T2表示操作行为时间差;



其中表示产品y的权值,表示产品y的自信息量;



其中λy表示与频率相关的权值。


2.一种用户相似度计算方法,步骤包括:
S1根据用户属性进行聚类分组,计算基于静态属性的相似度simattr;
S2根据用户相似度与登录时间成正比,但又受时间...

【专利技术属性】
技术研发人员:王斌张克
申请(专利权)人:上海大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1