一种评分数据噪声消除方法技术

技术编号：19481188 阅读：26 留言：0更新日期：2018-11-17 10:40

本发明专利技术属于数据挖掘技术领域，提供了一种评分数据噪声消除方法，设计一种使用于协同过滤技术数据预处理过程中，主要目的是消除原始评分数据评分噪声。该方法区别于已有方法的特色在于将用户之间相似度关系和项目之间流行度差异信息结合起来对原始评分数据进行修正，以消除环境因素导致的评分偏移，以提高协同过滤技术的推荐准确度。该方法在进行噪声处理过程中综合考虑了项目之间流行度关系和用户之间的相似关系，同时使用聚类算法提高了Weighted Slope One算法的扩展性.使用此方法来消除用户评分时特征环境的影响，提高协同过滤技术的推荐精度。经实验证明中经过修正后的评分数据相比较与原始评分数据在推荐精度上有明显提高。

全部详细技术资料下载

【技术实现步骤摘要】
一种评分数据噪声消除方法
本专利技术属于数据挖掘
，专利技术应用于协同过滤技术数据预处理过程中，主要目的是消除原始评分数据评分噪声。该方法区别于已有方法的特色在于将用户之间相似度关系和项目之间流行度差异信息结合起来对原始评分数据进行修正，以消除环境因素(例如用户评分时情绪状况)导致的评分偏移，以提高协同过滤技术的推荐准确度。
技术介绍
协同过滤技术是个性化推荐技术中一种应用范围广的推荐算法，协同过滤技术的基本核心思想是利用群体智慧，认为相似用户的喜好也是相似的，目前主要分为以下几类：基于用户(或项目)的协调过滤算法、基于模型的协同过滤算法、以及混合过滤算法等。目前协同过滤算法存在着冷启动、数据稀疏、推荐精度低、评分噪声等问题。协同过滤算法的基本过程是构建用户-项目评分矩阵，寻找用户相似邻居群体，根据邻居群体的对此用户未评价的项目的做出预测，然后根据结果对用户做出相应的推荐。协同过滤技术算法核心步骤是利用评分矩阵来选取用户相似群体，但是原始的用户评分可能会有评分噪声，例如用户评分时情绪因素会导致评分出现偏移，从而导致后续协同过滤算法推荐精确度下降。因此需要对原始评分数据进行调整，减弱情绪等因素导致的评分偏移。
技术实现思路
本专利技术提出了一种基于模糊C均值聚类和WeightedSlopeOne算法的评分数据噪声消除方法，目的在于消除环境因素(例如评分时用户的情绪情况)，调整原始评分数据，提高协同过滤算法的推荐准确度。本专利技术的技术方案：一种评分数据噪声消除方法，步骤如下：步骤1.输入用户评分矩阵R、用户集合User和项目集合Item；步骤2.对评分矩阵...

【技术保护点】
1.一种评分数据噪声消除方法，其特征在于，步骤如下：步骤1.输入用户评分矩阵R、用户集合User和项目集合Item；步骤2.对评分矩阵数据进行平滑处理,得到平滑处理后的评分矩阵R'2.1)首先将项目按照流行度不同划分到三个集合中一个，三个集合分别是流行项目集合setpopular、普通项目集合setordinary和不流行项目集合setnpopular；具体过程如下：2.1.1)计算项目item的流行度popular(item)，计算方法如下：

【技术特征摘要】
1.一种评分数据噪声消除方法，其特征在于，步骤如下：步骤1.输入用户评分矩阵R、用户集合User和项目集合Item；步骤2.对评分矩阵数据进行平滑处理,得到平滑处理后的评分矩阵R'2.1)首先将项目按照流行度不同划分到三个集合中一个，三个集合分别是流行项目集合setpopular、普通项目集合setordinary和不流行项目集合setnpopular；具体过程如下：2.1.1)计算项目item的流行度popular(item)，计算方法如下：其中，集合User(item)是对项目item评分过的用户集合，ru,item是用户u对项目item的评分；2.1.2)对评分矩阵评分数据进行k-means聚类，聚类个数为3，聚类后得到三个簇的中心分别为c1、c2、c3，其中c1<c2<c3；2.1.3)如果将项目item划分到流行项目集合setpopular；如果将项目item划分到普通项目集合setordinary；如果将项目item划分到不流行项目集合setnpopular；2.2)计算用户对于三类项目的评分偏移，分别是differ(u,popular)、differ(u,ordinary)和differ(u,npopular)；计算流程如下：2.2.1)计算用户u对于流行项目的评分偏移differ(u,popular)其中，Item(u)是用户u的评分过的项目集合；是项目item所有评分的平均值；ru,item是用户u对项目item的评分；2.2.2)计算用户u对于普通项目的评分偏移differ(u,ordinary)2.2.3)计算用户u对于不流行项目的评分偏移differ(u,npopular)2.3)填充评分矩阵，具体过程如下：2.3.1)计算用户u的评分填充数量fillNum(u)，计算方法如下：其中，是一个大于1的常数；|R|是原始评分矩阵评分数量；|User|是用户规模；R(u)是用户u的评分数...

【专利技术属性】
技术研发人员：陈炳才，刘杰，聂冰洋，赵楠，宁芊，余超，谢冬梅，潘伟民，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人