一种新闻实时推荐系统及其方法技术方案

技术编号：15228285 阅读：73 留言：0更新日期：2017-04-27 12:48

本发明专利技术涉及大数据技术领域，尤其是一种新闻实时推荐系统及其方法。本发明专利技术包括数据采集层、数据处理层、实时推荐层。本系统运行在Hadoop分布式平台，采集层采集主要中文新闻网站新闻内容，包括新闻链接、新闻标题、新闻发布时间、新闻内容、新闻来源等。将抓取的新闻数据存储到Hbase数据库中，为后面高效的处理与分析数据提供数据源。针对推荐系统的实时性问题，数据处理层是一个能够实时计算的流处理架构。本发明专利技术把推荐系统分成离线计算和在线计算两部分，能够充分利用传统的离线推荐算法，并结合在线处理方法，提高推荐系统实时计算的能力；采用Spark做在线处理，实现了推荐系统的实时性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据
，尤其是一种新闻实时推荐系统及其方法。
技术介绍
随着互联网信息技术的发展，用户逐渐从信息匮乏的时代走入了信息过载的时代。用户在面对数目庞大的新闻量时往往会感到力不从心，只能通过搜索引擎自行搜索海量的新闻信息。但是由于搜索引擎的通用性，已不能满足用户的个性查询。因此人民希望新闻能够更加智能化，根据自己的喜好推荐自己需要的信息。
技术实现思路
本专利技术解决的技术问题在于提供一种新闻实时推荐系统及其方法；对互联网新闻门户进行数据采集，对所有新闻数据进行分析与主题抽取，有效解决系统初始化无历史数据时的冷启动问题。本专利技术解决上述技术问题的技术方案是：所述的系统包括数据采集层、数据处理层、实时推荐层；所述的采集层通过网络爬虫在网络中抓取新闻数据，并过滤重复数据，构建新闻数据库；将抓取的新闻数据存储到Hbase数据库中，为后面高效的处理与分析数据提供数据源；所述的数据处理层是一个能够实时计算的流处理架构；该架构把推荐系统分成离线计算和在线计算两部分，利用离线推荐算法结合在线处理，提高推荐系统实时计算的能力；所述的在线处理采用Spark实现；所述的推荐层基于MLlib对推荐引擎模块进行设计，包含模型的训练、模型的测试和新闻的推荐。所述系统的实现方法，其特征在于：所述的采集层通过网络爬虫在网络中抓取新闻数据，并过滤重复数据，构建新闻数据库，包括如下步骤：第一步，获取待采集的URL；第二步，通过数据路由器对URL进行过滤；第三步，抓取页面数据；第四步，对抓取的数据进行文本抽取，链接抽取，把抽取的链接加入待采集URL集合；第五步，自动文本特征提...

【技术保护点】
一种新闻实时推荐系统，其特征在于：所述的系统包括数据采集层、数据处理层、实时推荐层；所述的采集层通过网络爬虫在网络中抓取新闻数据，并过滤重复数据，构建新闻数据库；将抓取的新闻数据存储到Hbase数据库中，为后面高效的处理与分析数据提供数据源；所述的数据处理层是一个能够实时计算的流处理架构；该架构把推荐系统分成离线计算和在线计算两部分，利用离线推荐算法结合在线处理，提高推荐系统实时计算的能力；所述的在线处理采用Spark实现；所述的推荐层基于MLlib对推荐引擎模块进行设计，包含模型的训练、模型的测试和新闻的推荐。

【技术特征摘要】
1.一种新闻实时推荐系统，其特征在于：所述的系统包括数据采集层、数据处理层、实时推荐层；所述的采集层通过网络爬虫在网络中抓取新闻数据，并过滤重复数据，构建新闻数据库；将抓取的新闻数据存储到Hbase数据库中，为后面高效的处理与分析数据提供数据源；所述的数据处理层是一个能够实时计算的流处理架构；该架构把推荐系统分成离线计算和在线计算两部分，利用离线推荐算法结合在线处理，提高推荐系统实时计算的能力；所述的在线处理采用Spark实现；所述的推荐层基于MLlib对推荐引擎模块进行设计，包含模型的训练、模型的测试和新闻的推荐。2.一种权利要求1所述系统的实现方法，其特征在于：所述的采集层通过网络爬虫在网络中抓取新闻数据，并过滤重复数据，构建新闻数据库，包括如下步骤：第一步，获取待采集的URL；第二步，通过数据路由器对URL进行过滤；第三步，抓取页面数据；第四步，对抓取的数据进行文本抽取，链接抽取，把抽取的链接加入待采集URL集合；第五步，自动文本特征提取，生成网页指纹；第六步，检测是否为有相同文章；第七步，如果已有相同文章则放弃抓取返回第一步，否则对正文文本进行分词操作；第八步，用TF_IDF算法提取N个关键词；第九步，找到与其重合度最高的m篇文章；第十步，若...

【专利技术属性】
技术研发人员：侯朋，李勇波，孙傲冰，季统凯，张恒，
申请(专利权)人：国云科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人