一种海量数字信息的分布式推荐方法技术

技术编号:14897528 阅读:121 留言:0更新日期:2017-03-29 12:50
本发明专利技术公开了一种海量数字信息的分布式推荐方法,包括以下步骤:S1:建设对等的分布式局域网络,该分布式局域网络中至少包括20台计算机,两个计算机之间均可以进行相互通讯;S2:在对等分布式局域网络中部署Hadoop集群;S3:收集当前用户有关系的数字信息的集合,该数字信息的集合通过Hadoop的Map和Reduce两个阶段并行统计与当前用户有关系的数字信息,当前用户有关系的数字信息作为Map阶段的信息输入数据源,Reduce阶段的信息输入数据源为Map阶段的输出结果。本发明专利技术的分布式推荐方法在海量数字信息的情况下向用户推荐数字信息的速度更快,且海量数字信息的分布式推荐方法向用户推荐的数字信息更加准确。

【技术实现步骤摘要】

本专利技术涉及海量信息处理
,尤其涉及一种海量数字信息的分布式推荐方法
技术介绍
21世纪的科技与信息技术高速发展,尤其随着互联网技术的发展与普及,网络信息资源迅速增长,如今已经进入了一个数字信息爆炸的时代。所谓数字信息是指在互联网中发布的文章、图片,声音、影像等资讯内容。随着Web2.0取代Web1.0,Web2.0已经成为数字信息分享的平台。由于Web2.0更注重用户的交互作用,用户既是网站内容的浏览者,也是网站内容的制造者,因而在海量的数字信息中,人们要找到确切需要的信息将变得越来越难。获取数字信息最普遍的方式有三种:第一种是常规的网页信息链接,例如门户网站的热门帖子推荐、新闻链接等;第二种是用户通过搜索引擎搜索想要的信息;第三种是通过朋友的介绍,发链接或信息关键词的方式向用户推荐信息。上述三种方式中,搜索引擎是快速找到目标信息的最好途径。在用户对自己需求的信息相对明确的时候,用搜索引擎可以很方便地通过关键字搜索找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求,因此推荐系统便应运而生,与搜索引擎对应,人们也习惯称之为推荐引擎。现有的推荐引擎有一些相关的算法,但现有推荐引擎向用户推荐数字信息的准确度不高,而且在用户历史数据量较大的情况下反应速度较慢。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了一种海量数字信息的分布式推荐方法。本专利技术提出的一种海量数字信息的分布式推荐方法,包括以下步骤:S1:建设对等的分布式局域网络,该分布式局域网络中至少包括20台计算机,两个计算机之间均可以进行相互通讯;S2:在对等分布式局域网络中部署Hadoop集群;S3:收集当前用户有关系的数字信息的集合,该数字信息的集合通过Hadoop的Map和Reduce两个阶段并行统计与当前用户有关系的数字信息,当前用户有关系的数字信息作为Map阶段的信息输入数据源,Reduce阶段的信息输入数据源为Map阶段的输出结果;S4:运行并行的Map阶段运算,且Map阶段运算的输入数据源为步骤S3中的Reduce阶段输出结果,进而来构建数字信息之间的相似度矩阵;S5:将步骤S4得到的相似度矩阵按照相关程度,可以将相似度矩阵划分为相似度完全一致的相似度矩阵、相似度较大的相似度矩阵和相似度较小的相似度矩阵;S6:根据步骤S5得到的相似度完全一致的相似度矩阵,直接提取该相似度矩阵中的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较大的相似度矩阵,提取该相似度矩阵中的出现次数最多的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较小的相似度矩阵,首先剔除该相似度矩阵中出现较少的数字信息,然后再从该相似度矩阵中提取出现次数较多的数字信息作为最优的数字信息;S7:根据步骤S6的到的最优数字信息组合成数字信息项集合,数字信息项集合进入mongodb数字信息库中获取作为推荐结果的数字信息的详细内容,最后将所获取的数字信息的详细内容返回给当前用户。优选地,所述分布式局域网络是通过通过TCP/IP协议进行建立的。优选地,所述Hadoop包括Map和Reduce两个阶段,所述Map阶段指Hadoop中MapReduce模式中分割数据,所述Reduce阶段指Hadoop中MapReduce模式中合并数据。优选地,所述当前用户有关系的数字信息是指用户看过的新闻网站的新闻或者用户购买过的商品的信息。本专利技术的有益效果:1、海量数字信息的分布式推荐方法在现有的协同过滤推荐算法的基础上采用多个计算机进行并行运算,海量数字信息的分布式推荐方法可以更加快速的向用户推荐数字信息的进行推荐;2、数据存储根据相似度矩阵的相似度对用户行为的数字信息进行分类,并从相似度矩阵中提取最优数字信息,进而把提取的最优数字信息组合成数字信息项集合,数字信息项集合进入mongodb数字信息库中获取作为推荐结果的数字信息的详细内容,使得海量数字信息的分布式推荐方法向用户推荐的数字信息更加准确;本专利技术的分布式推荐方法在海量数字信息的情况下向用户推荐数字信息的速度更快,且海量数字信息的分布式推荐方法向用户推荐的数字信息更加准确。具体实施方式下面结合具体实施例对本专利技术作进一步解说。实施例本实施例中提出了一种海量数字信息的分布式推荐方法,包括以下步骤:S1:建设对等的分布式局域网络,该分布式局域网络中至少包括20台计算机,两个计算机之间均可以进行相互通讯;S2:在对等分布式局域网络中部署Hadoop集群;S3:收集当前用户有关系的数字信息的集合,该数字信息的集合通过Hadoop的Map和Reduce两个阶段并行统计与当前用户有关系的数字信息,当前用户有关系的数字信息作为Map阶段的信息输入数据源,Reduce阶段的信息输入数据源为Map阶段的输出结果;S4:运行并行的Map阶段运算,且Map阶段运算的输入数据源为步骤S3中的Reduce阶段输出结果,进而来构建数字信息之间的相似度矩阵;S5:将步骤S4得到的相似度矩阵按照相关程度,可以将相似度矩阵划分为相似度完全一致的相似度矩阵、相似度较大的相似度矩阵和相似度较小的相似度矩阵;S6:根据步骤S5得到的相似度完全一致的相似度矩阵,直接提取该相似度矩阵中的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较大的相似度矩阵,提取该相似度矩阵中的出现次数最多的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较小的相似度矩阵,首先剔除该相似度矩阵中出现较少的数字信息,然后再从该相似度矩阵中提取出现次数较多的数字信息作为最优的数字信息;S7:根据步骤S6的到的最优数字信息组合成数字信息项集合,数字信息项集合进入mongodb数字信息库中获取作为推荐结果的数字信息的详细内容,最后将所获取的数字信息的详细内容返回给当前用户。本实施例中,分布式局域网络是通过通过TCP/IP协议进行建立的,Hadoop包括Map和Reduce两个阶段,Map阶段指Hadoop中MapReduce模式中分割数据,Reduce阶段指Hadoop中MapReduce模式中合并数据,所述当前用户有关系的数字信息是指用户看过的新闻网站的新闻或者用户购买过的商品的信息,海量数字信息的分布式推荐方法在现有的协同过滤推荐算法的基础上采用多个计算机进行并行运算,海量数字信息的分布式推荐方法可以更加快速的向用户推荐数字信息的进行推荐,数据存储根据相似度矩阵的相似度对用户行为的数字信息进行分类,并从相似度矩阵中提取最优数字信息,进而把提取的最优数字信息组合成数字信息项集合,数字信息项集合进入mongodb数字信息库中获取作为推荐结果的数字信息的详细内容,使得海量数字信息的分布式推荐方法向用户推荐的数字信息更加准确,本专利技术的分布式推荐方法在海量数字信息的情况下向用户推荐数字信息的速度更快,且海量数字信息的分布式推荐方法向用户推荐的数字信息更加准确。以上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,根据本专利技术的技术方案及其专利技术构思加以等同替换或改变,都应涵盖在本专利技术的保护范围之内。本文档来自技高网
...

【技术保护点】
一种海量数字信息的分布式推荐方法,其特征在于,包括以下步骤:S1:建设对等的分布式局域网络,该分布式局域网络中至少包括20台计算机,两个计算机之间均可以进行相互通讯;S2:在对等分布式局域网络中部署Hadoop集群;S3:收集当前用户有关系的数字信息的集合,该数字信息的集合通过Hadoop的Map和Reduce两个阶段并行统计与当前用户有关系的数字信息,当前用户有关系的数字信息作为Map阶段的信息输入数据源,Reduce阶段的信息输入数据源为Map阶段的输出结果;S4:运行并行的Map阶段运算,且Map阶段运算的输入数据源为步骤S3中的Reduce阶段输出结果,进而来构建数字信息之间的相似度矩阵;S5:将步骤S4得到的相似度矩阵按照相关程度,可以将相似度矩阵划分为相似度完全一致的相似度矩阵、相似度较大的相似度矩阵和相似度较小的相似度矩阵;S6:根据步骤S5得到的相似度完全一致的相似度矩阵,直接提取该相似度矩阵中的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较大的相似度矩阵,提取该相似度矩阵中的出现次数最多的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较小的相似度矩阵,首先剔除该相似度矩阵中出现较少的数字信息,然后再从该相似度矩阵中提取出现次数较多的数字信息作为最优的数字信息;S7:根据步骤S6的到的最优数字信息组合成数字信息项集合,数字信息项集合进入mongodb数字信息库中获取作为推荐结果的数字信息的详细内容,最后将所获取的数字信息的详细内容返回给当前用户。...

【技术特征摘要】
1.一种海量数字信息的分布式推荐方法,其特征在于,包括以下步骤:S1:建设对等的分布式局域网络,该分布式局域网络中至少包括20台计算机,两个计算机之间均可以进行相互通讯;S2:在对等分布式局域网络中部署Hadoop集群;S3:收集当前用户有关系的数字信息的集合,该数字信息的集合通过Hadoop的Map和Reduce两个阶段并行统计与当前用户有关系的数字信息,当前用户有关系的数字信息作为Map阶段的信息输入数据源,Reduce阶段的信息输入数据源为Map阶段的输出结果;S4:运行并行的Map阶段运算,且Map阶段运算的输入数据源为步骤S3中的Reduce阶段输出结果,进而来构建数字信息之间的相似度矩阵;S5:将步骤S4得到的相似度矩阵按照相关程度,可以将相似度矩阵划分为相似度完全一致的相似度矩阵、相似度较大的相似度矩阵和相似度较小的相似度矩阵;S6:根据步骤S5得到的相似度完全一致的相似度矩阵,直接提取该相似度矩阵中的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较大的相似度矩阵,提取该相似度矩阵中的...

【专利技术属性】
技术研发人员:王勇王瑛
申请(专利权)人:广东工业大学东莞华南设计创新院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1