一种融合时间因素的用户偏好和距离加权的聚类方法技术

技术编号:20160454 阅读:30 留言:0更新日期:2019-01-19 00:13
一种融合时间因素的用户偏好和距离加权的聚类方法,通过引入由用户基本客观特征构造的用户—用户属性矩阵来缓解用户冷启动问题,而稀疏性问题的改进主要是通过引入项目特征,由于项目的特征可以从内容的方面来体现用户偏好,从而能够达到减少矩阵的维数;将项目特征引入到用户—项目评分来得到小维数的用户—项目属性总评分矩阵;用TF‑IDF算法构建用户—项目属性偏好矩阵时引入项目特征,同时考虑用户兴趣随时间漂移对用户偏好的影响;基于以上的三个矩阵来得到加权后欧氏距离,然后利用K‑Means算法进行聚类。本方法是以电影的推荐为例,在MovieLens数据集上进行的实验结果表明,与其他相关的算法相比,该方法具有较好的推荐质量和性能。

【技术实现步骤摘要】
一种融合时间因素的用户偏好和距离加权的聚类方法
本专利技术涉及个性化推荐算法,具体提供一种融合了时间因素的用户偏好和距离加权的聚类方法。
技术介绍
近年来,随着信息技术和Web2.0的发展,互联网的信息出现了前所未有的暴涨,问题也随之而来,主要包括信息的过载问题和用户不能准确选择相关信息的问题,而推荐系统是克服信息过载问题的有效工具之一。推荐系统的核心是设计推荐算法,所以在学术界中,提出了各种各样的推荐算法,目前主要使用的推荐算法包括有基于内容的推荐算法、组合推荐算法和协同过滤推荐算法等。为了使用户能够合理的利用并且快速的找到需要的有用信息,首先要做的就是信息的过滤和分类,所以最受欢迎的推荐算法仍然是协同过滤,而且在互联网的各个领域中体现出了实际的应用价值。随着对协同过滤推荐算法的不断深入研究,问题也慢慢暴露出来,比如冷启动问题、数据稀疏性问题、扩展性问题、推荐效率和准确性问题,以及用户兴趣随时间改变的问题等,如何更好地解决这些问题已经成为了当前研究的热点。协同过滤推荐算法是当下应用最广泛的推荐技术,主要是依据用户的历史行为来发现其偏好,针对不同的偏好分别来预测用户可能感兴趣的相似商品。然而,在传统的协同过滤推荐算法中,用户冷启动和数据稀疏性的问题一直都是最主要的问题,这将直接影响推荐的质量和性能,一些学者针对以上存在的问题也提出了改善的方法。王宏杰等人提出一种根据聚类精度来调节特征权重的K-Means聚类算法,以提升聚类的准确性[1]。何明等人提出了基于用户—项目评分矩阵与项目类型来构建用户偏好矩阵,然后用SlopeOne算法进行填充,用来缓减数据稀疏性问题[2]。曾安等人提出了一种由融合时间因素和用户—项目评分来构建用户偏好矩阵的协同过滤算法,来改善推荐质量[3]。目前的算法主要是通过利用用户—项目评分矩阵来进行欧氏距离的计算,而忽视了用户的基本客观特征和通过使用项目同一属性的个数来体现用户的主观兴趣,以及用户兴趣随时间迁移而改变的问题。[1]王宏杰,师彦文.结合初始中心优化和特征加权的K-Means聚类算法[J].计算机科学,2017,44(b11):457-459[2]何明,孙望,肖润,等.一种融合聚类与用户兴趣偏好的协同过滤推荐算法[J].计算机科学,2017,44(b11):391-396[3]曾安,高成思,徐小强.融合时间因素和用户评分特性的协同过滤算法[J].计算机科学,2017,44(9):243-249
技术实现思路
本专利技术的目的是解决原有协同过滤推荐算法中的用户冷启动问题和数据稀疏性问题,在现有的算法基础上进行优化改进,设计了一种融合了时间因素的用户偏好和距离加权的聚类方法。该方法通过数据的预处理得到用户—用户属性矩阵和用户—项目属性总评分矩阵,分别计算其对应的欧氏距离;同时依据艾宾浩斯遗忘曲线来构建时间衰减函数,定义稳定期时间窗T,将时间衰减函数与时间窗相结合,形成新的遗忘函数;利用融合了遗忘函数的TF-IDF方法来构建用户—项目属性偏好矩阵,并计算其欧氏距离;将以上三个欧氏距离进行加权,得到综合的欧氏距离,然后用K-Means进行聚类并预测评分和推荐;最后在MovieLens数据集上进行实验,从MAE、F-Measure这两个指标来验证本方法的合理性和有效性。本专利技术提供的一种融合时间因素的用户偏好和距离加权的聚类方法主要包括如下关键步骤:第1、基本矩阵:第1.1、对初始数据集进行处理,获得用户—用户属性矩阵和用户—项目评分矩阵;第1.2、构建项目—项目属性矩阵,来表示电影包含的电影属性;第1.3、通过对用户-项目评分矩阵和项目—项目属性矩阵进行计算,得到用户—项目属性总评分矩阵;第2、用户偏好权重的计算:第2.1、对用户—项目评分矩阵进行处理得到用户—项目矩阵,由值0和1来代表一部电影是否包含某个电影属性;第2.2、然后根据TF-IDF方法来对上述得到的用户—项目矩阵进行计算,得到用户-项目属性偏好矩阵;第3、TF-IDF方法的改进:第3.1、根据遗忘曲线定义一个用户评价电影的时间衰减函数;第3.2、根据用户兴趣的实际变化情况,定义时间窗T,加入到时间衰减函数中得到最终的遗忘函数;第3.3、在TF-IDF方法的基础上融合最终的遗忘函数,改进用户偏好权重的计算,得到最终的用户-项目属性偏好矩阵;第4、欧氏距离的加权和K-Means聚类:第4.1、分别对第1.1中的用户—用户属性矩,第1.3中的用户—项目属性总评分矩阵和第3.3中的最终的用户—项目属性偏好矩阵进行欧氏距离的计算;第4.2、根据计算结果进行加权处理,得到加权后的综合欧氏距离;第4.3、基于上述最终的欧氏距离进行K-Means聚类;第5、相似度计算和Top-N推荐:第5.1、同样分别对上述三个矩阵进行相似度计算并加权;第5.2、对电影进行预测评分,并选择评分较高的前N个电影进行推荐。本专利技术的优点和积极效果是:本方法主要设计了一种融合时间因素的用户偏好和距离加权的聚类方法,该方法是基于K-Means聚类算法的。用户的喜好不仅可以通过评分来体现,而且也可以通过用户自身的特征和用户对同一属性电影观看的次数来表现。因此,本申请提出了一种以加权后的距离为基准的K-Means聚类算法来进行聚类,即对两个用户之间的客观特征、对同一属性电影的总评分和融合了时间因素的用户偏好的欧式距离进行的加权,来解决传统协同过滤算法中的用户冷启动和数据稀疏性的问题。而融合了时间因素的用户偏好就是通过用户观看同一属性电影的次数来表现用户对某种类型电影的喜欢程度,是由TF-IDF算法和加入了时间窗的时间函数共同构建的,同时,时间窗也解决了用户兴趣迁移的问题。附图说明图1是艾宾浩斯遗忘曲线;图2是整个算法的流程;图3是K-Means中聚类数目K对MAE值的影响;图4是时间窗T对MAE值的影响;图5是兴趣衰减系数T0对MAE值的影响;图6是近邻个数k对MAE值的影响;图7是推荐列表长度N对F-Measure值的影响。具体实施方式本专利技术设计的方法基于TF-IDF算法和K-Means聚类,在计算用户偏好权重中,利用了TF-IDF算法,来得到目标用户对某一特征属性的偏好程度。艾宾浩斯遗忘曲线如图1所示,根据其来定义时间函数,并通过加入时间窗来缓减兴趣的波动,最后将其和TF-IDF算法相结合,得到在时间影响的情况下,用户的偏好程度。从用户的客观特征、用户对包含某一属性电影的总评分和由上面的到的用户的偏好这三个方面来计算其对应的欧氏距离,然后进行加权,得到综合的欧氏距离。在上述基础上,利用K-Means来聚类。根据聚类结果,在相应的类中计算目标用户的综合相似度,并对目标用户未观看的电影进行预测评分,然后从中选取评分较高的电影进行推荐。参见附图2,本专利技术方法主要包括如下关键步骤:第1、基本矩阵:第1.1、通过对初始数据集进行处理,获得用户-用户属性矩阵和用户-项目评分矩阵,分别将其对应的矩阵记为V和R,V的形式如下:其中:k代表用户属性的个数,用户的属性即用户的ID,性别,年龄段,职业等;代表用户ui在其自身的客观特征属性gk上的值。R的形式如下:其中:代表用户ui对电影mj的评分,评分的值域为[0,1,2,3,4,5]。第1.2、构建项目-项目属性矩阵,来本文档来自技高网
...

【技术保护点】
1.一种融合时间因素的用户偏好和距离加权的聚类方法,其特征在于该方法主要包括如下关键步骤:第1、基本矩阵:第1.1、对初始数据集进行处理,获得用户—用户属性矩阵和用户—项目评分矩阵;第1.2、构建项目—项目属性矩阵,来表示电影包含的电影属性;第1.3、通过对用户—项目评分矩阵和项目—项目属性矩阵进行计算,得到用户—项目属性总评分矩阵;第2、用户偏好权重的计算:第2.1、对用户—项目评分矩阵进行处理得到用户—项目矩阵,由值0和1来代表一部电影是否包含某个电影属性;第2.2、根据TF‑IDF方法来对上述得到的用户—项目矩阵进行计算,得到用户‑项目属性偏好矩阵;第3、TF‑IDF方法的改进:第3.1、根据遗忘曲线定义一个用户评价电影的时间衰减函数;第3.2、根据用户兴趣的实际变化情况,定义时间窗T,加入到时间衰减函数中产生最终的遗忘函数;第3.3、在TF‑IDF方法的基础上融合最终的遗忘函数,改进用户偏好权重的计算,得到最终的用户—项目属性偏好矩阵;第4、欧氏距离的加权和K‑Means聚类:第4.1、分别对第1.1中的用户—用户属性矩阵,第1.3中的用户—项目属性总评分矩阵和第3.3中的最终的用户—项目属性偏好矩阵进行欧氏距离的计算;第4.2、根据计算结果进行加权处理,得到加权后的综合欧氏距离;第4.3、基于最终的欧氏距离进行K‑Means聚类;第5、相似度计算和Top‑N推荐:第5.1、同样分别对上述三个矩阵进行相似度计算并加权;第5.2、对电影进行预测评分,并选择评分较高的前N个电影进行推荐。...

【技术特征摘要】
1.一种融合时间因素的用户偏好和距离加权的聚类方法,其特征在于该方法主要包括如下关键步骤:第1、基本矩阵:第1.1、对初始数据集进行处理,获得用户—用户属性矩阵和用户—项目评分矩阵;第1.2、构建项目—项目属性矩阵,来表示电影包含的电影属性;第1.3、通过对用户—项目评分矩阵和项目—项目属性矩阵进行计算,得到用户—项目属性总评分矩阵;第2、用户偏好权重的计算:第2.1、对用户—项目评分矩阵进行处理得到用户—项目矩阵,由值0和1来代表一部电影是否包含某个电影属性;第2.2、根据TF-IDF方法来对上述得到的用户—项目矩阵进行计算,得到用户-项目属性偏好矩阵;第3、TF-IDF方法的改进:第3.1、根据遗忘曲线定义一个用户评价电影的时间衰减函数;第3....

【专利技术属性】
技术研发人员:李文杰薛花张德干
申请(专利权)人:天津理工大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1