【技术实现步骤摘要】
一种基于大数据的个性化推荐方法
[0001]本专利技术涉及大数据技术研究领域,具体涉及一种基于大数据的个性化推荐方法。
技术介绍
[0002]随着网络技术的快速发展,互联网已经遍及生活中的方方面面,每天都会产生海量的数据。在海量的信息中,用户想要获取的信息仅仅占信息总量非常少的一部分,面对信息过载的现状,用户常常显得束手无策。因此,如何能够让用户通过某种方式高效地获得自己想要信息显得尤为重要。
[0003]目前常用的推荐方法主要是基于内容推荐、基于关联规则推荐以及协同过滤推荐。对于基于内容推荐以及协同过滤推荐都会存在稀疏问题以及新用户问题,而基于关联规则推荐则存在规则抽取困难、耗时、个性化程度低等问题。
技术实现思路
[0004]为了克服现有技术的不足,本专利技术将elastic search数据存储搜索和基于用户的协同过滤算法以及基于项目的协同过滤推荐算法相结合。对于新用户推荐elastic search数据库中点击率最高的前15条数据;对于老用户,采用基于用户的协同过滤算法及基于项目的推荐算法的推 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的个性化推荐方法,其特征在于,该方法包括如下步骤:步骤1:利用网络爬虫技术,指定字段,包括:标题、发布时间、施行时间、时效性、正文等,从相关网站获取数据;步骤2:对爬取下来的数据首先对字段进行处理,去除无意义的数据并对数据进行去重,其次根据标题以及数据衍生地区等新字段,最后将清洗完成的数据保存为json格式;将保存为json格式的数据导入至elastic search数据库中,选择与elastic search版本相对应的ik分词器,并使用最细粒度ik_max_word创建索引;使用最少切分ik_smart进行搜索;步骤3:构建基于用户的协同过滤算法,根据用户对某个数据的历史行为信息,包括搜索、评论和收藏,构建一个大小为m
×
n的用户
‑
数据矩阵U,如下所示:其中,m表示用户数,n表示数据总数,若用户对某条数据有过历史行为,则进行评分,u
mn
表示用户m对数据n的评分,若没有过历史行为,则赋值0;根据数据的标签信息构建一个n
×
s的数据
‑
标签矩阵C,如下所示:其中,n表示数据总数,s表示标签总数,c
ns
表示数据n是否包含标签s,如果包含,则赋值1,否则,赋值0;根据矩阵U和矩阵C,构建一个大小为m
×
s的用户
‑
标签偏好矩阵P,如下所示:其中,m表示用户总数,s表示标签总数,p
ms
表示用户m对标签s的偏好程度;利用TF
‑
IDF算法,对用户
‑
标签偏好矩阵P进行改进,具体如下:其中,p
ua
表示用户u对标签a的偏好程度,表示用户u对标签a的标记次数,表示用户u标记标签的总次数,表示标签的总次数,表示标签的总数,n
ua
表示标注过标签a的用户数,n
m
表示总的用户数;利用改进之后的用户
‑
标签矩阵,采用余弦相似度,计算用户之间的相似度,其具体的计算公式如下所示:
其中,w
u,v
值越大,表示用户u与用户v越相似,因此向用户u推荐用户v偏爱的数据的概率就会越大;n
u
表示用户u偏爱的数据的集合,n
v
表示用户v偏爱的...
【专利技术属性】
技术研发人员:熊林海,周金明,
申请(专利权)人:南京行者易智能交通科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。