一种基于并行item-based协同过滤算法的微博关注推荐方法技术

技术编号：13878422 阅读：97 留言：0更新日期：2016-10-22 18:28

本发明专利技术涉及一种基于并行item‑based协同过滤算法的微博关注推荐方法，首先，获取微博用户互动行为数据及微博用户关注行为数据；其次，从这些数据中提取出微博用户互动行为偏好数据及微博用户关注行为偏好数据，分别存储在HDFS上；再次，采用Hadoop的MapReduce框架与HDFS架构，对item‑based协同过滤算法进行并行化设计，并对上述提取出的微博用户互动行为偏好数据及微博用户关注行为偏好数据的进行挖掘分析，找出和用户已经关注过的项目最相似的项目，并过滤掉用户已经关注的项目，将其推荐给目标用户。本发明专利技术解决了在非传统场景下item‑based协同过滤算法的应用，不再依赖于显示的评分数据。提高了推荐的个性化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于并行item-based协同过滤算法的微博关注推荐方法，属于推荐系统、数据挖掘

技术介绍
随着互联网的普及和社交网络的快速发展，微博已经成为最受欢迎的社交应用之一。在信息过载的时代，用户很难从海量信息中找到感兴趣的关注对象(可以是人、机构或者群组)。因此，抓住用户的兴趣点并有针对性地向用户推荐潜在感兴趣的关注对象是一个至关重要的问题。协同过滤算法是在个性化推荐系统中应用最广泛的算法。其中，基于项目的协同过滤算法的基本思想是可以根据用户已知的确定性偏好来找到此用户相关的喜好。传统协同过滤算法更多用于推荐电影、商品等项目，然而在微博系统中，项目不再是普通的物品而是人、机构或者群体；历史行为数据不再是直接能表现用户倾向的显示评分数据，而是用户转发、评论、好友关系等隐式数据。因此，如何将微博隐式数据转化为用户偏好也是本专利技术所考虑的问题。目前，传统的微博关注推荐更倾向于向用户推荐粉丝众多的大V账号或者根据“朋友的朋友”进行推荐。然而，这些推荐关注对象虽然有较好的流行性，但是却没有考虑用户的个人偏好，因此缺乏个性化。随着微博数据量的急剧增长，在利用item-based协同过滤算法计算项目之间的相似性和进行预测的时候，单机集中式计算已经不能满足推荐系统对于推荐效率的要求。
技术实现思路
针对现有技术的不足，本专利技术公开了一种基于并行item-based协同过滤算法的微博关注推荐方法；首先，获取微博用户互动行为数据及微博用户关注行为数据；其次，从这些数据中提取出微博用户互动行为偏好数据及微博用户关注行为偏好数据，分别存储在HDFS上；再...

【技术保护点】
一种基于并行item‑based协同过滤算法的微博关注推荐方法，其特征在于，具体步骤包括：(1)获取微博用户互动行为数据及微博用户关注行为数据，微博用户互动行为数据包括用户ui、项目Ij、转发次数retwwetj、提到次数@j和评论次数commentj，微博用户关注行为数据包括：用户ui、项目Ij；(2)从步骤(1)获取的微博用户互动行为数据及微博用户关注行为数据中提取用户偏好；①将步骤(1)获取的微博用户互动行为数据转换为微博用户互动行为偏好数据；微博用户互动行为偏好数据包括用户ui、项目Ij、P(uiIj)，P(uiIj)是指用户ui对项目Ij的偏好值，求取P(uiIj)的公式如式(Ⅰ)所示：P(uiIj)＝αm(uiIj)+βc(uiIj)+χr(uiIj) (Ⅰ)式(Ⅰ)中，α+β+χ＝1，m(uiIj)是用户ui对项目Ij提到次数与用户ui提到总次数的比值，c(uiIj)是用户ui对项目Ij评论次数与用户ui评论行为总次数的比值，r(uiIj)是用户ui对项目Ij转发次数与用户ui转发行为总次数的比值；②将步骤(1)获取的微博用户关注行为数据转换为微博用户关注行为偏好数据...

【技术特征摘要】
1.一种基于并行item-based协同过滤算法的微博关注推荐方法，其特征在于，具体步骤包括：(1)获取微博用户互动行为数据及微博用户关注行为数据，微博用户互动行为数据包括用户ui、项目Ij、转发次数retwwetj、提到次数@j和评论次数commentj，微博用户关注行为数据包括：用户ui、项目Ij；(2)从步骤(1)获取的微博用户互动行为数据及微博用户关注行为数据中提取用户偏好；①将步骤(1)获取的微博用户互动行为数据转换为微博用户互动行为偏好数据；微博用户互动行为偏好数据包括用户ui、项目Ij、P(uiIj)，P(uiIj)是指用户ui对项目Ij的偏好值，求取P(uiIj)的公式如式(Ⅰ)所示：P(uiIj)＝αm(uiIj)+βc(uiIj)+χr(uiIj) (Ⅰ)式(Ⅰ)中，α+β+χ＝1，m(uiIj)是用户ui对项目Ij提到次数与用户ui提到总次数的比值，c(uiIj)是用户ui对项目Ij评论次数与用户ui评论行为总次数的比值，r(uiIj)是用户ui对项目Ij转发次数与用户ui转发行为总次数的比值；②将步骤(1)获取的微博用户关注行为数据转换为微博用户关注行为偏好数据，微博用户关注行为偏好数据包括用户ui、项目Ij、用户ui与项目Ij之间的偏好值，若用户ui关注项目Ij，用户ui与项目Ij之间的偏好值为1.0，否则，用户ui与项目Ij之间的偏好值为0.0；③将步骤①及步骤②得到的数据分别存储在HDFS上；(3)利用并行item-based协同过滤算法对目标用户产生推荐：④获取用户矩阵：以步骤③存在HDFS上的文件为输入；输入为<offset,(ui,Ij,pij)>，offset是文件位置偏移量，(ui,Ij,pij)是文件中的文本行，ui表示用户、Ij表示项目和pij表示偏好值；对于微博用户互动行为偏好数据，pij＝P(uiIj)；对于微博用户关注行为偏好数据，pij为1.0或者0.0；Map阶段，用户ui为key，(Ij，pij)为value，输出<ui,(Ij，pij)>的键值对；Reduce阶段，将相同key值的value进行聚合，形成<ui,list(Ij，pij)>的键值对；⑤构建共现矩阵并求出项目相似度A、对于微博用户互动行为偏好数据，项目相似度的计算公式如式(II)、式(Ⅲ)所示：dotIm×In=Σi=1UPuiIm×PuiIn---(II)]]>SimiIm×In=11+normsIm-2×dotIm×In+normsIn---(III)]]>式(II)、式(Ⅲ)中，Im、In分别是指项目Im、项目In，ui是指对项...

【专利技术属性】
技术研发人员：袁东风，徐秀珊，张艳，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人